“我用个人微信聊天记录和博客文章打造了自己的数字化克隆AI”

程序猿 • 2025年11月9日 22:48:58 • 科技 • 阅读 0

除了开飞机，做出完美的烤肋排，获得6块腹肌以及让公司赚大钱之外，我一直以来也想做成的一件事，是实现一个聊天机器人。

和多年前简单通过关键词匹配来回复的小黄鸡，到现在已经堪比人类智慧的 chatgpt，聊天AI一直在进步，但他们和我想的都有一些区别。

我在微信上和很多人聊天，有的人聊得多，有的人聊的少，我在群里也会说话，我还会写博客和公众号，我会在很多地方留下评论，我也会发微博，这些是我在网络世界留下的痕迹，某种程度上这些东西构成了世界对我的认知，从这个角度上，也就构成了我。将这些数据——我对不同消息的回复，我写的每一篇文章，每一句话，我发过的每一条微博等，全部汇入一个神经网络模型之中，去更新其中的参数，理论上就可以获得一个我的数字拷贝。

从原理上，这和对 chatgpt 说“请扮演一个叫小王的人，他的经历是XXX”不同，虽然以 chatgpt 的智慧，这样的扮演毫不费力且可能以假乱真，但其实 chatgpt 的参数并没有改变，这更像是“扮演”而非“重塑”，chatgpt 的上千亿个参数并没有改变一个，它从你之前的文本中获取一些信息，然后用它的智慧来应对你。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

我喜欢在文章里写一些没有太大用处的比喻，并喜欢在最后做一些总结，跟人聊天的时候，我喜欢用「可以的」来敷衍，同时用卧槽来表示惊讶，我某些时候少言寡语，另一些时候则滔滔不绝，这是我自己能够感知的一些特点，此外还有更多我自己都无法察觉的固定习惯，但这些微妙又模糊的东西，我无法告诉 chatgpt，这就像你做自我介绍，可以介绍的很丰富，但和真正的你，依然差之千里，甚至有时候截然相反，因为当我们意识到自己的存在的时候，我们其实是在表演自己，只有在我们没有意识到自己的存在，而融入生活的时候，我们才是真正的自己。

在 chatgpt 发布之后基于兴趣去学习文本大模型的技术原理，有一种 49 年入国军的感觉，因为对个人爱好者来说，做出在任何方面或再细小的垂直领域超越 chatgpt 的可能性已经不存在了，同时它又不开源，除了使用，没有别的可打的主意。

但最近2个月出现的一些开源文本预训练模型，例如大名鼎鼎的 llama 和 chatglm6b，让我那个克隆自己的想法又开始蠢蠢欲动起来，上周，我准备试试看。

首先我需要数据，足够多且全部都由我产生的数据，最简单的数据来源是我的微信聊天记录和博客，因为没有完全清空微信聊天记录，从 2018 年到现在，我手机里的微信占了80G的储存空间，对此我一直有一种家里被人强占一块地儿的感觉，现在如果能把这里的数据利用起来，我会和这80G冰释前嫌。

我在几年前曾经备份过我的微信聊天记录，我又找到了当年使用的工具，是一个在 github 开源的工具，叫做 WechatExporter，链接我会放到文末，使用这个工具，可以实现在 Windows 电脑上备份 iPhone 中的手机微信的所有聊天记录，并导出成纯文本格式，这是一个需要耐心的操作，因为首先需要将整个手机备份在电脑上，然后这个工具会从备份文件中读取到微信的记录，并导出。

我大概花了4个小时备份，然后很快导出了我所有的微信聊天记录，其按照聊天对象，被导出到了许多个文本文件中

这里面包括了群聊和一对一的聊天。

然后我开始做数据清洗，大多数群我都是潜水比较多，我筛选出一些我比较活跃的群，此外还筛出了一些和个人的聊天记录，我和他们聊天很多，同时他们也愿意我把聊天记录拿来这么做，最后大概50个聊天的文本文件够我使用。

我写了一个 python 脚本，遍历这些文本文件，找出我的所有发言，以及上一句，做成对话的格式，然后存入 json，这样，我就拥有了一个我自己的微信聊天数据集。

此时我也让同事用爬虫爬取了我自己的所有博客文章，他爬完发给我之后我才想起来，我其实可以用博客后台内置的导出功能直接导出。博客数据虽然也很干净，但我一开始并不知道如何利用，因为我要训练的是聊天的模型，而博客文章是一大段一大段的话，并不是聊天，所以我第一次训练，只用了微信的这些纯聊天记录。

我选择了 chatglm-6b 作为预训练模型，一方面它的中文效果已经被训练的足够好了，另一方面它的参数是 60 亿，我的机器能不太费力的跑起来，还有个原因是，在 github 已经有好几个对其进行微调训练的方案了（我会一起列在文末），此外它还可以简称为 6B，和我做的 6pen 都姓 6，这也让我更倾向于用它。

考虑到我的微信聊天数据最终可用大约 10 万条，我设置了比较低的学习率，同时增加了epoch，在几天前的一个晚上，睡前，我写完训练脚本，并开始运行，然后我就开始睡觉，希望睡醒之后能跑完，但那个晚上我差不多每隔一个小时就醒一次。

早上起来之后，模型训练完了，遗憾的是 loss 下降的并不好，也就意味着12个小时训练出来的模型，并不算好，但我是个深度学习的菜鸡，能跑完不报错我已经谢天谢地了，所以我并没有感到失望，而是开始用这个模型来跑对话。

为了增加一点仪式感，我不想用 jupyter 笔记，或在黑黢黢的终端里去聊天，我找了个开源的前端聊天页面，略做修改，然后把模型部署起来，封装了 API ，然后用前端页面去调用这个 API，于是就可以实现比较像那么回事的聊天了。

请不笑话我，我用自己的 10 万条微信聊天记录，训练出的模型，以下是我和他(或者它？)的第一次对话

我又试了下，结果依然不是很好，我不是那种不优化到极致就不好意思拿出手的人，因此我毫不害羞的直接发给了几个朋友，他们给我的反馈是，有点像你，同时他们给我返了对话截图。

第一个版本，这个模型确实具备某些跟我比较类似的点，我说不好，但有一点这种感觉。

如果你问它，你哪里读的大学，或者你老家是哪里，它并不会回答出准确的信息，并且肯定说的是错的，因为我的聊天记录中并不会有很多人这么问我，从某种角度上，这个模型并不了解我，它像是一个克隆。

当我收到一条微信消息，内容为 A，我回复了 B，那么这里是有一些原因的，这些原因中的一部分，储存在我物理脑袋的七八十亿个神经元里，理论上，如果我产生的数据足够多，也许几千亿条，那么一个参数够大的人工智能模型，就能非常接近我的脑子，10万条也许少了一些，但也足以让模型的60亿个参数里改变一部分，使其相较于原始的预训练模型，更接近我一点。

此外它还有个更大的缺点，就是蹦不出来几个字，回答非常简略，这虽然符合我很多时候的微信聊天风格，但并不是我想要的，我想要它说更多话。

此时我忽然想到了我的博客，如何能把这些博客转换为问答呢，我想到了 chatgpt ，在我精心构造的 prompt 之下，它成功把我博客文章的一段文本，变成了多个对话形式的问答：

某些时候 chatgpt 会返回一些不符合格式的内容，所以我写了一个校对脚本，来将各种不符合规则的返回，统统修改为标准的json，且字段名不变。

然后我将其封装为一个接口，放在了香港的服务器上，并在我的电脑上写了一个脚本，把我的博客文章按照500字划分，拿去批量转成问答，受限于chatgpt的接口速度，我差不多又花了一晚上，才把我的两百多篇博文，转换成了差不多 5000 个对话数据集。

此时我面临一个选择，如果将博客对话加到微信对话数据集里去训练，那么博客对话占比太低，可能影响会非常小，也就是说跟之前的模型差别不大；另一个选择是单纯用文章的这些数据，去训练一个新模型。

我向 6pen 的算法老哥寻求帮助，在确定模型权重可以融合并想办法从他那顺到融合脚本后，采用了后一种方式。

5000个问答，训练速度很快，一两个小时就够了，下午我一边写文档一边瞅一眼训练进度，下班之前训练完毕，我开始进行模型的融合，让之前的用微信聊天记录训练的模型，和用我的博客训练的模型进行融合。

两个模型的权重可以自由配置，我尝试了多种不同的比例，考虑到模型收敛过程中 loss 还有一些反弹，我还尝试了不同步数的模型版本

我整晚整晚和这些模型对话，找到效果最好的，但我发现，我似乎很难找出来，这些模型，有一些不同的表现，有的会比较暴躁，有的像舔狗一样，有些特别高冷，有些则很热情，然后我意识到，某种程度上，这或许是我的不同面，这么理解虽然肯定会让搞深度学习，并对其中原理烂熟于胸的人嗤之以鼻，但不失一些浪漫。

最终我发现，聊天和文章两个模型，权重比为 7 比 2 ，且采用第 6600 步保存的模型，融合效果在更多时候，都要更好一点，当然也可能是那个时候已经半夜两点，我的判断力有所下降，但无论如何，我就把他确定为最终模型了。

我和他聊了很多。

很明显，他和 chatgpt 差的极远，没办法帮我写代码，或者写文案，也不够聪明，因为训练用的数据不包含多轮对话，所以多轮对话的理解力更差，与此同时，他对我也不算特别了解，除了知道自己的名字（也就是我的名字），我的其他很多信息，他其实并不能准确回答，但是，他经常会说一些简单的几个字，让我有一种熟悉的感觉，也可能是错觉，谁知道呢。

总的来说，现在存在的所有广为人知的文本大模型，都是用海量的数据训练的，训练过程会尽可能包含全人类所产生的所有信息，这些信息让模型的亿万参数得以不断优化，例如第2043475个参数增加4，第9047113456个参数减少17，然后得到更聪明的神经网络模型。

这些模型变得越来越聪明，但它们更像是人类的，而非个体的，当我用我自己的这些数据去重新训练模型时，我能得到完全不一样的东西，一个更靠近个体的模型，虽然无论是我产生的数据量，还是我采用的预训练模型的参数量和结构，可能都无法支撑起一个能够和我的脑子差不多的模型，但对此进行的尝试，依然非常有意思。

我将这个网页重新部署了一下，并在中间加了一层 serverless 做保护，因此，现在所有人都可以去试试和这个我的数字版聊天，服务由我的祖传V100服务器提供，并且只有一台，所以如果人多的话，可能会有各种问题，链接我会放在最下面。

积极的，发自内心的产出更多的数据，就越有可能在未来获得更接近你的数字拷贝，这或许会有一些道德，甚至伦理问题，但这是大概率会发生的事情，之后我的数据积累的更多，或有更好的预训练模型，训练方式，我可能随时都会重新再次尝试训练，这不会是一个盈利，或任何跟商业沾边的项目，这某种程度上算是我自己追寻自己的一种方式。

这样一想，人生似乎都少了一些孤独感。

附

我的数字克隆在线聊天：https://ai.greatdk.com

你也可以通过点击最下面的阅读原文去体验，不过因为只有一台祖传V100显卡在提供推理，所以我设置了请求限制，即便如此，它也可能挂掉，我会每隔10分钟重启一下这个服务，如果你确实有兴趣，且发现它挂了，可以过段时间再试试看

FineVoice语音克隆

免费在线语音克隆，1 分钟克隆你的声音，保留口音和所有细微差别。

61 查看详情

我使用和参考的项目：

WechatExporter：https://github.com/BlueMatthew/WechatExporterchatglm-6b：https://github.com/THUDM/ChatGLM-6Bzero_nlp：https://github.com/yuanzhoulvpi2017/zero_nlpchatglm_finetuning：https://github.com/ssbuild/chatglm_finetuningMoeChat：https://github.com/Fzoss/MoeChatAlpaca: https://crfm.stanford.edu/2023/03/13/alpaca.htmlLLAMA：https://github.com/facebookresearch/llama

以上就是”我用个人微信聊天记录和博客文章打造了自己的数字化克隆AI”的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/556464.html

chatgpt llama 信息微信数据训练

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

五个有前途的AI模型用于图像翻译

上一篇 2025年11月9日 22:48:21

“ChatGPT高级账号被盗，暗网上出售”

下一篇 2025年11月9日 22:49:17

好文分享

如何用 CSS 实现微信输入法进度条按钮效果？

如何在 css 中呈现微信输入法的进度条按钮效果？问题：微信输入法中的进度条按钮具有独特的外观。如何使用 css 来实现这种效果？答案：要实现微信输入法的进度条按钮效果，可以使用以下 css 属性的组合： linear-gradient：创建渐变效果。background-position：控制…

程序猿
2025年12月24日
3000
好文分享

微信小程序文本省略后如何避免背景色溢出？

去掉单行文本溢出多余背景色在编写微信小程序时，如果希望文本超出宽度后省略显示并在末尾显示省略号，但同时还需要文本带有背景色，可能会遇到如下问题：文本末尾出现多余的背景色块。这是因为文本本身超出部分被省略并用省略号代替，但其背景色依然存在。要解决这个问题，可以采用以下方法：给 text 元素添加…

程序猿
2025年12月24日
0000
好文分享

如何使用 Laravel 框架轻松整合微信支付与支付宝支付？

如何通过 laravel 框架整合微信支付与支付宝支付在 laravel 开发中，为电商网站或应用程序整合支付网关至关重要。其中，微信支付和支付宝是中国最流行的支付平台。本文将介绍如何使用 laravel 框架封装这两大支付平台。一个简单有效的方法是使用业内认可的 easywechat lara…

程序猿
2025年12月24日
0000
好文分享

Laravel 框架中如何无缝集成微信支付和支付宝支付？

laravel 框架中微信支付和支付宝支付的封装如何将微信支付和支付宝支付无缝集成到 laravel 框架中？建议解决方案考虑使用 easywechat 的 laravel 版本。easywechat 是一个成熟、维护良好的库，由腾讯官方人员开发，专为处理微信相关功能而设计。其 laravel…

程序猿
2025年12月24日
3000
好文分享

如何在 Laravel 框架中轻松集成微信支付和支付宝支付？

如何用 laravel 框架集成微信支付和支付宝支付问题：如何在 laravel 框架中集成微信支付和支付宝支付？回答：建议使用 easywechat 的 laravel 版，easywechat 是一个由腾讯工程师开发的高质量微信开放平台 sdk，已被广泛地应用于许多 laravel 项目中…

程序猿
2025年12月24日
0000
好文分享

使用Laravel框架如何整合微信支付和支付宝支付？

使用 Laravel 框架整合微信支付和支付宝支付在使用 Laravel 框架开发项目时，整合支付网关是常见的需求。对于微信支付和支付宝支付，推荐采用以下方法：使用第三方库：EasyWeChat 的 Laravel 版本建议直接使用现有的 EasyWeChat 的 Laravel 版本。该库由…

程序猿
2025年12月24日
0000
好文分享

如何将微信支付和支付宝支付无缝集成到 Laravel 框架中？

如何简洁集成微信和支付宝支付到 Laravel 问题：如何将微信支付和支付宝支付无缝集成到 Laravel 框架中？答案：强烈推荐使用流行的 Laravel 包 EasyWeChat，它由腾讯开发者维护。多年来，它一直保持更新，提供了一个稳定可靠的解决方案。集成步骤：安装 Laravel …

程序猿
2025年12月24日
1000
好文分享

微信小程序TDesign中“t-grid–card”选择器的作用是什么？

“t-grid–card”选择器在微信小程序TDesign中的疑惑在微信小程序TDesign UI库中，很多开发者对“t-grid–card”这个CSS选择器感到疑惑。它与DOM结构中元素的class属性“t-grid t-card class t-class”不一致，且命…

程序猿
2025年12月24日
0000
好文分享

TDesign UI库中 .t-grid–card 选择器如何理解？

TDesign UI库CSS选择器中的困惑在微信小程序的使用中，TDesign UI库提供了丰富的组件，其CSS选择器的写法引起了很多疑问。其中一个令开发者疑惑的写法是 .t-grid–card，它似乎与DOM结构中的类名不一致。疑问解答如何理解这个选择器？ .t-grid&#82…

程序猿
2025年12月24日
2000
好文分享

微信小程序 TDesign UI 库中 CSS 选择器 .t-grid–card 如何生效？

微信小程序 TDesign UI 库中的 CSS 选择器疑云在微信小程序开发中使用 TDesign UI 库时，开发者可能会遇到一些疑惑的 CSS 选择器。例如，在如下 DOM 结构中：元素 class 是 ‘t-grid t-card class t-class’,但是选择器是 ‘.t-gri…

程序猿
2025年12月24日
2000
好文分享

微信小程序 TDesign UI 库 CSS 选择器：为什么“.t-grid–card” 不匹配 DOM 结构？

微信小程序 tdesign ui库 css 选择器疑难解答在微信小程序开发环境中使用 tdesign ui 库时，您可能会遇到这样的 css 选择器： .t-grid–card 乍一看，该选择器似乎不符合 dom 结构中元素的 class 名称：通常，css 选择器应该与元素的 class 名…

程序猿
2025年12月24日
0000
好文分享

企业微信二维码嵌入iframe后如何调整大小？

更改iframe中二维码大小在TS文件中，嵌入了一个iframe包含一个二维码，但由于iframe样式设置不当，二维码被隐藏了一半。解决方法如下：虽然修改外层iframe的样式不起效果，但可以修改二维码页面本身的样式。猜测：企业微信二维码根据问题描述，推测该二维码属于企业微信。企业微信的二维…

程序猿
2025年12月24日
0000
好文分享

小程序嵌入 H5，iOS 字体失效！怎么办？

小程序嵌入 H5 页面中字体失效问题在使用 Vue 开发 H5 页面时，为页面设置了字体，但在 iOS 系统小程序中，嵌入的 H5 页面字体却失效了。导致这个问题的原因是什么，该如何解决呢？问题分析：小程序中嵌入 H5 页面需要加载其资源，而为了避免安全问题，小程序对加载的外链资源进行了限制。…

程序猿
2025年12月24日
0000
好文分享

小程序嵌入H5页面字体失效怎么办？

小程序嵌入 h5 页面字体出错怎么办？在开发小程序时，在 h5 页面中使用自定义字体时，经常会遇到字体失效的问题。这是因为小程序中的 webview 对字体有额外的限制。问题原因小程序 webview 需要将字体文件添加到白名单。字体资源需要通过 https 协议访问。解决方案添加白名单 …

程序猿
2025年12月24日
0000
好文分享

小程序嵌入 H5 页面字体失效怎么办？

小程序嵌入的 H5 页面字体失效的解决方法问题：在 Vue 开发的 H5 页面中，配置了自定义字体 fontface，但在 iOS 系统的小程序中，字体却失效了。答案：小程序的 webview 组件需要配置以下事项：白名单配置：确保在小程序配置文件中已将 H5 页面 URL 添加到白名单列…

程序猿
2025年12月24日
0000
好文分享

微信小程序样式为何在使用真实数据后发生变化？

微信小程序样式为何不同？在开发微信小程序时，常见的疑问是为什么在使用假数据设置样式后，在请求真实数据并使用它时，样式却发生了变化。以下提供了一个可能导致此问题的根源： DOM 结构与样式冲突假数据与真实数据可能具有不同的 DOM 结构。当假数据被替换为真实数据时，DOM 结构也会发生变化，从而…

程序猿
2025年12月24日
0000
好文分享

小程序 H5 页面字体设置失效怎么办？

小程序 H5 页面字体问题在小程序中嵌入的 H5 页面中，有时会出现字体设置失效的情况。例如，使用 Vue 开发 H5 页面，并设置了自定义字体（通过 @font-face），但在 iOS 小程序中，这些字体却无法显示。针对此问题，可以尝试以下解决方案：检查白名单和 HTTPS: 小程序中的 …

程序猿
2025年12月24日
0000
好文分享

微信小程序样式“变脸”：调试正常，接入接口后样式却变了？

微信小程序样式“变脸”之谜在微信小程序开发中，样式突然发生改变，往往让人摸不着头脑。近期，一位开发者遇到了这样一个问题：调试时使用假数据呈现正常，但接入后端接口后，样式却发生了变化。根据提问者的描述，问题可能是由后端返回的数据与假数据结构不一致造成的。但由于提问者并未提供具体的代码片段，因此无法…

程序猿
2025年12月24日
0000
好文分享

小程序内 H5 页面字体失效如何解决？

小程序嵌入 H5 页面字体失效的解决方法问题：在 Vue 开发的 H5 页面中设置了 font-face 样式，但在 iOS 系统中的小程序内字体却失效了。如何解决？解决方案：小程序的 webview 需要配置两个重要设置：白名单注册：将包含字体包的静态资源文件路径添加到小程序的白名单中。…

程序猿
2025年12月24日
0000
好文分享

微信小程序样式为何诡异变迁？

微信小程序样式遭遇诡异变迁，究竟是何缘由？在开发微信小程序过程中，一位开发者遇到了一个令人费解的问题：使用假数据调试样式时，样式一切正常。然而，当使用后端数据时，样式却发生了非预期的变化，仅有最后一条数据仍保持着假数据的样式。经过一番分析，有人指出了问题的关键之处： DOM结构差异导致样式不一致…

程序猿
2025年12月24日
0000

发表回复

登录后才能评论

“我用个人微信聊天记录和博客文章打造了自己的数字化克隆AI”

附

关于作者

相关推荐

发表回复