1. 项目概述一个开源的数字永生框架2026年AI Agent已经像今天的智能手机一样普及。每个人都在被“蒸馏”——你的聊天记录、工作文档、社交媒体动态都在被各种系统分析、学习最终变成一个可以被AI模仿的数字影子。问题在于这个过程通常不由你控制你不知道自己被蒸成了什么样也不知道这个“数字分身”会被谁、用在什么地方。与其被动等待不如主动出击。这就是immortal-skill项目的核心哲学“与其等着被别人蒸不如先蒸自己”。这是一个开源、可落地的数字永生框架它让你能够主动地、结构化地、有伦理边界地将一个人包括你自己的“数字灵魂”从散落在各处的数据碎片中提取出来封装成一个标准化的、AI可加载的“技能包”。这个项目解决的远不止是技术问题。它触及了几个更深层的痛点知识传承的断层导师退休了他的经验怎么办、人际关系的数字化保存亲人的唠叨、朋友的玩笑如何不被时间抹去、以及个人数字主权的捍卫我的思维模式凭什么成为公司的资产。它不是一个简单的聊天记录导出工具而是一套完整的“人格蒸馏”方法论和工程实现。无论你是想为团队保留一位离职同事的关键工作方法还是想用AI复现已故亲人的语气与你对话抑或是单纯想对自己的数字足迹进行一次彻底的“备份”与“确权”这个项目都提供了一个从理论到实践的完整工具箱。接下来我将拆解这个框架的每一个核心环节分享如何从零开始蒸馏出一个有深度、可用的数字人格。2. 核心设计哲学与架构拆解2.1 为什么是“四维蒸馏”而非“一锅炖”市面上大多数所谓的“数字分身”项目本质上是将聊天记录向量化后做检索增强生成RAG。这带来一个严重问题输出是模糊且不稳定的。AI今天可能模仿出你冷静分析的一面明天又可能表现出你情绪化的一面因为它学习的是混杂的、未经区分的语料。immortal-skill提出了“四维蒸馏”模型将一个人的数字痕迹解构为四个相互独立又关联的维度程序性知识这个人“怎么做事”。包括他的工作流程、决策框架、解决问题的方法论、擅长的工具链等。这来源于他写的文档、代码注释、会议纪要中的行动项。互动风格这个人“怎么说话”。包括常用的口头禅、回复邮件的习惯句式、鼓励或批评人的方式、在群聊中的活跃模式等。这主要从对话记录中提取。记忆与经历这个人“经历过什么”。包括他常讲的故事、人生中的重要节点、项目中的关键战役、甚至是喜欢的电影和书籍。这散落在闲聊、朋友圈、博客文章中。性格与价值观这个人“是什么样的人”。包括他的核心原则、道德底线、审美偏好、风险承受能力等。这需要从他对事件的评论、做出的重大选择中推断。分维度蒸馏的优势在于可控性高你可以选择只蒸馏某个维度。例如只蒸馏同事的“程序性知识”用于工作交接而不涉及他的私人“互动风格”。保真度高AI在扮演时可以更精准地调用特定维度的信息。当需要分析问题时调用“程序性知识”当需要安慰人时调用“互动风格”中温和的一面。可解释性强生成的Skill中每个维度都有独立的文档你可以清晰地看到AI的“人格”是由哪些具体的证据构建的。2.2 证据分级与矛盾保留拥抱人性的复杂性人的言行并非总是一致。同一个人在公开演讲和私下吐槽时可能观点相左年轻时笃信的道理中年后可能全然推翻。传统的AI训练倾向于消除这种矛盾追求一个“和谐统一”的模型但这恰恰抹杀了人性的真实。本框架引入了“证据分级”系统Verbatim原话直接引用的原句最高证据等级。例如微信聊天记录中的“我坚决不同意这个方案”。Artifact文档本人创作的正式文档如技术方案、年度总结。等级次之。Impression印象他人对其的描述或推断如同事评价“他做事很谨慎”。等级最低需要谨慎使用。更重要的是“矛盾保留”原则。框架会专门生成一个conflicts.md文件记录来自不同维度或不同证据等级的矛盾点。例如冲突记录来源AVerbatim 2023-01-15 微信“我不喜欢开会效率太低。”来源BArtifact 2023-06-20 项目复盘文档“定期的站会同步是项目成功的基石。”分析可能针对的是不同性质的会议冗长决策会 vs. 简短同步会。AI在扮演时应根据上下文选择更合适的表述而非强行给出一个矛盾的答案。这种做法让数字分身不再是“完人”而是一个有血有肉、存在内在张力的复杂个体反而更显真实。2.3 伦理先行蒸馏的边界与护栏技术能力必须与伦理框架匹配。框架为七种典型角色自己、同事、导师、家人、前任、朋友、公众人物预设了不同的伦理模板。蒸馏自己拥有全部权限但建议定期进行以捕捉不同阶段的成长。蒸馏同事/导师必须获得明确授权且蒸馏产物应严格限定在工作知识传承范畴剥离个人隐私。最好有书面协议。蒸馏家人/朋友知情同意是黄金法则。这应是一个充满温情的共同项目而非单方面的数据抓取。蒸馏公众人物基于完全公开的资料演讲、出版著作、访谈。核心是蒸馏其认知框架和方法论用于学习参考而非制造虚假代言。项目中的“蒸笼”组件专门服务于这一场景。蒸馏前任这是伦理雷区。框架虽然提供模板但强烈建议仅用于正面回忆的封存与脱敏处理避免陷入情感纠葛或制造骚扰工具。实操心得在启动蒸馏任何他人项目前花时间填写项目自带的distill-protocol-skill蒸馏协议。这个“牛马保护法”会引导你思考并明确蒸馏产物的所有权、使用权、商业用途限制等。这不是法律文书而是一份重要的伦理自查清单。3. 数据收集从12个平台获取“人格原料”蒸馏的质量八成取决于原料的质量。框架支持超过12个数据源覆盖了现代人数字生活的主要场景。3.1 平台分类与工具选择数据源大致可分为三类处理策略各异平台类型典型代表获取方式核心挑战与技巧企业协作平台飞书、钉钉、Slack、Discord官方API权限管理是关键。通常需要创建机器人或获取服务账号令牌。建议在测试环境先用一个权限受限的token跑通流程。技巧关注API的速率限制对于大量历史消息需要实现分页和优雅重试。个人即时通讯微信、iMessage、WhatsApp本地数据库导出/官方归档隐私与合规是高压线。微信没有官方API通常需要从本地加密数据库中读取。重要警告任何要求你扫码登录的第三方工具都有极高安全风险。最稳妥的方式是使用手机自带的聊天记录迁移功能导出为文本或HTML文件后再用框架解析。iMessage在macOS上可以通过AppleScript或访问~/Library/Messages/chat.db需授权获取。社交媒体与归档Twitter/X、Google Takeout、邮箱官方数据导出数据清洗工作量巨大。这些平台导出的数据格式如JSON、MBOX往往包含大量元数据和噪音。框架的collectors模块提供了多个解析器但通常需要你根据实际情况微调正则表达式或解析逻辑以准确提取纯文本内容和上下文。注意事项数据最小化原则不要企图一次性导出所有数据。根据你想蒸馏的维度针对性收集。例如蒸馏“程序性知识”重点收集文档和项目沟通群蒸馏“互动风格”则收集私人或小群聊天记录。时间范围筛选人的言行会变。建议以“年”或“重大人生事件”为界进行分段蒸馏生成不同版本的数字分身以观察其演变。格式统一无论从哪个平台来框架的预处理管道最终会将数据统一为结构化的Markdown或JSON并打上来源、时间、对话者等标签。3.2 实操以飞书和微信为例飞书通过API# 1. 在飞书开放平台创建应用获取 app_id 和 app_secret # 2. 使用CLI工具配置凭证 python3 kit/immortal_cli.py setup feishu # 按提示填入 app_id 和 app_secret # 3. 扫描可用的会话群组或单聊 python3 kit/immortal_cli.py collect --platform feishu --scan # 这会列出你有权限的会话列表记下目标会话的 chat_id # 4. 收集指定会话的数据 python3 kit/immortal_cli.py collect --platform feishu --chat_id your_chat_id --output ./corpus/feishu_chat.md微信通过本地备份文件# 1. 在手机上使用微信自带的“聊天记录迁移与备份”功能将记录导出到电脑得到一个加密的备份文件。 # 2. 使用开源工具如 WeChatExporter 等需自行搜索并评估安全风险将备份文件解密并导出为可读的文本或HTML。 # 3. 使用框架的通用文件导入器进行处理 python3 kit/immortal_cli.py import ~/Downloads/wechat_export.html --platform wechat --output ./corpus/wechat_chat.md # 导入器会尝试解析对话人、时间、内容。你可能需要根据导出格式调整 collectors/wechat_parser.py 中的解析逻辑。核心环节无论哪种方式在数据进入核心蒸馏流程前务必进行脱敏处理。框架的recipes/目录下提供了脚本可以自动将手机号、身份证号、具体地址等替换为占位符保护个人隐私。4. 核心蒸馏流程从数据到人格Skill数据准备就绪后就进入了最关键的蒸馏环节。这个过程不是简单的文本摘要而是通过多轮LLM调用进行结构化的信息提取、归纳和重构。4.1 初始化与维度提取假设我们要蒸馏一位名叫“李工”的同事。# 1. 初始化一个蒸馏项目指定标识符和角色模板 python3 kit/immortal_cli.py init --slug li_gong --persona colleague # 这会创建 personas/li_gong/ 目录并载入“同事”角色的蒸馏模板和伦理规则。 # 2. 将收集好的语料关联到该项目 python3 kit/immortal_cli.py stamp --slug li_gong --sources feishu:project_team_chat, wechat:work_group_chat, artifact:design_docs # 此步骤将数据源与人物绑定并记录数据指纹。 # 3. 运行四维蒸馏管道 python3 kit/immortal_cli.py distill --slug li_gong --dimensions all # 核心过程开始。框架会依次执行 # a. 程序性知识提取从设计文档、代码评审意见中提取工作方法。 # b. 互动风格分析从聊天记录中分析回复模式、常用表情、语气词。 # c. 记忆经历挖掘从闲聊中识别常讲的故事、参与过的项目。 # d. 性格价值观推断从决策讨论和评价性语句中归纳原则。这个过程中LLM通常是GPT-4或Claude 3会根据prompts/目录下精心设计的提示词对语料进行多轮分析和提问。例如在提取“程序性知识”时提示词会要求模型“请从以下对话中总结出该人物在解决技术问题时反复出现的步骤、优先考虑的因素、以及他推荐或反对的工具。”4.2 生成Skill包与快照管理蒸馏完成后在personas/li_gong/目录下会生成完整的Skill包li_gong/ ├── SKILL.md # 总览李工是谁包含哪些维度如何使用 ├── procedure.md # 程序性知识如何写设计文档、排查故障的步骤 ├── interaction.md # 互动风格晨会发言习惯、代码评审常用语 ├── memory.md # 记忆经历常提的“上次大促事故”、母校趣事 ├── personality.md # 性格价值观质量优于速度、厌恶重复劳动 ├── conflicts.md # 矛盾记录如“嘴上说讨厌开会但主持的会议效率极高” └── manifest.json # 元数据来源、蒸馏时间、版本、伦理协议哈希其中每个Markdown文件都严格遵循“证据分级”。例如在interaction.md中### 鼓励他人 - **Verbatim** “这个思路很棒我们可以沿着这个方向深挖一下。” [来源feishu_project_team_chat, 2023-08-10] - **Artifact** 在周报中写道“感谢XX同学的快速响应阻塞问题得以解决。” [来源weekly_report_2023_32.md] - **Impression** 同事A反馈“李工在评审时总是先肯定优点再提建议让人容易接受。”版本快照是另一个重要功能。人格会成长蒸馏也可以迭代。# 生成当前版本的快照 python3 kit/immortal_cli.py snapshot --slug li_gong --note 基于2023年项目数据初版 # 未来收集了2024年新数据后可以基于快照进行增量蒸馏或回滚 python3 kit/immortal_cli.py distill --slug li_gong --incremental --since 2024-01-014.3 在AI Agent中加载与使用生成的Skill包完全符合Agent Skills标准可以无缝集成到如OpenClaw、Cursor等支持此标准的AI Agent平台。以OpenClaw为例将li_gong文件夹复制到OpenClaw的skills目录cp -r personas/li_gong ~/.openclaw/skills/重启OpenClaw或重载技能列表。在对话中你可以通过特定指令调用“请以李工的视角评审一下这份架构图” 或 “如果是李工他会如何回复这封客户邮件”AI Agent会读取SKILL.md和各个维度文件在上下文中构建一个“李工”的人格面具从而生成更贴近本人风格和知识的回复。5. 高级应用与生态组件5.1 “蒸笼”将公众人物的认知框架化为己用“蒸笼”组件是框架的延伸它回答了一个问题我们消费了那么多顶尖人物的思想通过书籍、课程、演讲如何将这些昂贵的认知框架内化为自己的思考工具它的操作对象是完全公开的资料如马斯克的访谈、巴菲特致股东信、知名学者的公开课。通过蒸馏这些资料提取出他们的核心思维模型、决策框架和叙事方式封装成Skill。当你在工作中面临战略抉择时可以“调用马斯克的第一性原理”来质询需求或“调用巴菲特的护城河理论”来评估项目。实操要点来源必须公开可查确保所有材料来自公开演讲、出版著作、官方访谈避免使用未经证实的二手信息。聚焦方法论而非个人隐私蒸馏的是“马斯克如何用第一性原理拆解问题”而不是“马斯克喜欢吃什么”。明确声明生成的Skill应附带声明注明思想来源并说明这是基于公开材料的归纳并非本人授权。5.2 “防蒸馏”与“蒸馏协议”构建你的数字护城河当你精通了蒸馏之术自然会意识到自己同样暴露在风险中。框架的另外两个组件构成了防御体系蒸馏协议这是一个事前声明工具。你可以生成一份协议声明你对自身数字人格的保留权利。例如“本人保留对自身互动风格、思维模式等数字人格要素的所有权。任何组织如需用于训练内部助手需获得书面许可且不得用于替代本人工作决策。” 虽然目前不具备法律强制力但它在伦理和社区共识层面树立了标杆。防蒸馏这是一套技术防御方案包含三层身份编码在你的数字文档中嵌入肉眼不可见但机器可识别的指纹如特定文本水印、格式标记。即使内容被蒸馏也能追溯其最初来源。许可检查在Skill包的manifest.json中定义使用条款。兼容的AI Agent在加载时应检查并遵守这些条款。主动防护对不希望被自动化爬取的内容可以添加“陷阱”。例如在网页中插入特定token组合当检测到是蒸馏爬虫时返回混淆或错误的信息。经验之谈真正的安全源于“纵深防御”。将“协议”法律/伦理层、“指纹”溯源层和“防护”技术层结合使用才能有效管理你的数字人格风险。6. 常见问题、排查与伦理深思6.1 技术实施常见坑点问题可能原因解决方案数据收集失败API类令牌过期、权限不足、网络问题检查令牌有效期在开放平台确认应用权限使用--verbose模式查看详细错误日志。数据解析乱码文件编码问题、非标准导出格式尝试用iconv转换编码对于HTML/XML检查是否完整可能需要自定义解析器。蒸馏结果空洞语料质量差、提示词不匹配、LLM理解偏差提供更集中、相关的语料调整prompts/下的提示词更具体地要求举例尝试更换LLM模型。维度混淆语料未清洗工作生活混杂蒸馏前先做主题分类。使用kit/classify_corpus.py脚本将语料按话题初步分离。生成速度慢语料量大、LLM API速率限制对语料进行分段分批蒸馏使用异步请求对于大型项目考虑使用本地大模型。6.2 伦理与心理准备“恐怖谷”效应当数字分身极其逼真但又有细微差异时可能会引发不适。特别是与逝去亲人的分身对话时情绪冲击可能很大。建议明确告知使用者这是AI模拟并从简单的、事实性的问答开始避免深度情感互动。同意与授权这是最大的伦理挑战。对于在世的人明确、知情、自愿的同意是绝对前提。可以考虑让对方先蒸馏自己交换Skill成为一种新型的“数字握手”。滥用风险技术可被用于制造虚假对话、进行社交工程攻击。必须在项目设计和社区准则中强调禁止性用途并考虑在技术层面增加输出水印。人格固化蒸馏出的你是“过去的你”。人是在变化的要避免让数字分身成为束缚自我成长的标签。定期更新、建立版本快照接受并记录自己的变化。这个项目打开了一扇门门后是关于记忆、身份、人际关系和数字时代生存的复杂图景。它不仅仅是一套代码更是一次邀请邀请我们以更主动、更清醒的姿态参与到自身数字灵魂的塑造与保护中来。工具已经开源如何使用它取决于我们每个人的选择与智慧。