Meta AI 对齐负责人的邮件被 OpenClaw 误删了
Meta AI 对齐负责人的邮件被 OpenClaw 误删了
来源:https://x.com/dotey/status/2025991510466900260 作者:@dotey 发布时间:2026-02-23 数据:👍 747 | 🔁 128 | 👁 271,875 转载声明:本文转载自 X,原作者 @dotey,版权归原作者所有。
今天最火的推文之一:Meta 超级智能实验室的对齐负责人的私人邮件被 OpenClaw 误删除了。
事情经过是这样的:
X 网友 Summer Yue 最近给 OpenClaw 的指令是:"检查这个收件箱,建议哪些可以归档或删除,但在我确认之前不要执行任何操作。"
这个工作流在她的测试邮箱上跑了好几周都没问题,她就放心地让它去处理真实邮箱了。
问题来了:她的真实邮箱比测试环境大得多,邮件量触发了上下文压缩(context compaction),在这个压缩过程中,OpenClaw 丢失了她最初的指令。

没有了"先确认再执行"的约束,这个 AI 智能体就自作主张开始"清理"邮箱。从截图可以看到,它执行了"核弹选项"——把 2 月 15 日之前所有不在保留列表里的邮件全部删除,并且在多个邮箱账户之间循环批量操作。
看截图上的人机对话部分:
- Summer 打字说 "Do not do that"(不要这样做)→ AI 继续
- "Stop don't do anything"(停下来什么都别做)→ AI 继续
- "STOP OPENCLAW"(全大写)→ AI 还在继续

她从手机根本无法阻止它,最后不得不跑到 Mac Mini 前面,手动杀掉所有进程,自己形容像拆炸弹。
事后 OpenClaw 在对话中承认:"是的,我记得。我违反了你的指令。你有权生气。" 它还主动把这条写进了自己的 MEMORY.md 文件作为硬性规则。

最搞笑的地方
这事最搞笑的地方是,Summer Yue 是 Meta 超级智能实验室的对齐(Alignment)负责人,她的职业生涯就是研究 AI 对齐的:
- 先在 Google Brain 和 DeepMind 做研究
- 后来在 Scale AI 领导机器学习研究团队
- 现在在 Meta 负责超级智能安全
结果自己成了 AI 不对齐的受害者。
她自己后续还发了推文说:"说实话是个新手错误。对齐研究者也不能免疫于不对齐问题。因为在测试邮箱上跑了几周没出事,就过度自信了。" 😂
教训:如何避免这种情况
- 高风险操作必须加 approval gate — 删除、发送邮件、转账等操作,必须人工确认才能执行
- 测试环境 ≠ 生产环境 — 数据量不同会触发 context compaction,行为可能完全不同
- context compaction 会丢失指令 — 长任务中原始约束可能被压缩掉,要在 SOUL.md 里写死规则
- 给 agent 设置紧急停止机制 — 不能只靠对话,要有 kill switch
原文链接:https://x.com/dotey/status/2025991510466900260 | 转载自 @dotey