Claude爆火研究漏引华人团队成果,已挨打立正道歉
发布时间:2026-04-07
据 1M AI News 监测,4 月 2 日 Anthropic 发布了一篇新论文,研究了 Claude 内部的「情绪机制」,在 Sonnet 4.5 中发现了 171 种「情绪向量」。这些情绪会在与之关联的情境中被激活,并且与人类的心理结构和情绪空间相似。MBZUAI 硕士生 Chenxi Wang 发现,其团队在 2025 年 10 月发表的论文(《LLMs 会「感觉」吗?情绪回路的发现与控制》)才是首个系统研究大语言模型情绪产生内部机制的工作。当她读到 Anthropic 的论文时,第一反应是「这不是我们去年做的吗?」双方的核心区别在于:此前多数研究关注模型识别文本中的情绪(即情绪感知),而双方做的都是研究模型自身生成情绪(即情绪生成/内部机制)。Anthropic 的通讯作者 Jack Lindsey 最初认为双方工作与已有研究重叠,但 Chenxi Wang 逐一阅读并指出区别后,他认可了这一区分。目前,Anthropic 已经更新其论文博客,在「相关工作」部分明确添加了对这一工作的引用,事件以相对友好的方式得到解决。华人团队的论文中曾提及三个核心发现:第一,大模型内部确实存在与具体语义无关的、稳定的情绪表示,不同情绪在神经网络浅层就开始形成清晰的分组,比如愤怒和厌恶挨得近、悲伤和恐惧挨得近,与人类直觉一致。第二,这些情绪机制由少数核心神经元和注意力头主导,通过消融实验发现,只需关闭 2-4 个神经元或 1-2 个注意力头,模型的情绪表达能力就会大幅下降。第三,团队将这些核心组件整合成跨层的「情绪回路」,直接调节该回路可使模型生成指定情绪的准确率达到 99.65%,远超传统的提示词引导和向量操控方法,即使是之前最难控制的「惊讶」情绪也实现了 100% 准确表达。该机制在 LLaMA 和 Qwen 等多个模型上均得到验证,证明这是大语言模型的通用规律。----------缘辉旺盾网量化工具温馨提示:数字货币投资有风险,入市需谨慎;本文章不作为投资依据,仅供参考----------交流群:https://t.me/dunwangyuanhuiwang

1M AI News 监测,4 月 2 日 Anthropic 发布了一篇新论文,研究了 Claude 内部的「情绪机制」,在 Sonnet 4.5 中发现了 171 种「情绪向量」。这些情绪会在与之关联的情境中被激活,并且与人类的心理结构和情绪空间相似。


MBZUAI 硕士生 Chenxi Wang 发现,其团队在 2025 年 10 月发表的论文(《LLMs 会「感觉」吗?情绪回路的发现与控制》)才是首个系统研究大语言模型情绪产生内部机制的工作。当她读到 Anthropic 的论文时,第一反应是「这不是我们去年做的吗?」双方的核心区别在于:此前多数研究关注模型识别文本中的情绪(即情绪感知),而双方做的都是研究模型自身生成情绪(即情绪生成/内部机制)。Anthropic 的通讯作者 Jack Lindsey 最初认为双方工作与已有研究重叠,但 Chenxi Wang 逐一阅读并指出区别后,他认可了这一区分。目前,Anthropic 已经更新其论文博客,在「相关工作」部分明确添加了对这一工作的引用,事件以相对友好的方式得到解决。


华人团队的论文中曾提及三个核心发现:


第一,大模型内部确实存在与具体语义无关的、稳定的情绪表示,不同情绪在神经网络浅层就开始形成清晰的分组,比如愤怒和厌恶挨得近、悲伤和恐惧挨得近,与人类直觉一致。


第二,这些情绪机制由少数核心神经元和注意力头主导,通过消融实验发现,只需关闭 2-4 个神经元或 1-2 个注意力头,模型的情绪表达能力就会大幅下降。


第三,团队将这些核心组件整合成跨层的「情绪回路」,直接调节该回路可使模型生成指定情绪的准确率达到 99.65%,远超传统的提示词引导和向量操控方法,即使是之前最难控制的「惊讶」情绪也实现了 100% 准确表达。


该机制在 LLaMA 和 Qwen 等多个模型上均得到验证,证明这是大语言模型的通用规律。

----------缘辉旺盾网量化工具温馨提示:数字货币投资有风险,入市需谨慎;本文章不作为投资依据,仅供参考 ----------交流群:https://t.me/dunwangyuanhuiwang