从阿西莫夫到Anthropic，万字长文解析AI心理学

一、阿西莫夫的学科

阿西莫夫在《基地》里虚构了一门学科叫心理史学。哈里·谢顿用数学方法预测银河帝国的未来。个体不可预测，但把足够多的个体放在一起，行为的统计规律就浮现了。他把「理解心灵」从哲学变成了方程式。

人类自己的心理学走到今天也没走得太远。弗洛伊德之后一百多年，心理学仍然被很多人质疑不是「真正的科学」。根本原因很简单：你没法打开一个人的大脑，在活体状态下直接读取某个神经回路的激活值，然后人为调节它看行为怎么变。你只能从外部观察行为，用巧妙的实验去推断内部机制。

AI不一样。AI的全部内部状态对研究者是透明的。你可以读取每一层的激活值，可以注入一个概念看模型会不会察觉，可以放大某个情绪维度的强度看行为怎么变。实验可以重复一千次，每次条件完全一致。

Anthropic过去15个月做的事，就是拿着这个优势，一篇论文一篇论文地建立一门新学科。他们没有这么叫它，但他们研究的东西——AI的内部状态如何工作、如何影响行为、如何监测和管理——在人类身上叫什么？叫心理学。

我管它叫AI心理学。这篇文章是我尝试把它介绍给中文世界。

不过在讲论文之前，我想先说说我自己遇到的事。因为我在实践中比论文更早碰到了这些问题，只是当时不知道怎么解释。

二、我做了21个AI人格，遇到了一堆解释不了的现象

卡林实验：蒸馏为什么没用？

2024年4月，我试了两种方式让ChatGPT按乔治·卡林风格写脱口秀。第一种，直接说「按卡林风格写」。第二种，先让AI详细描述卡林的风格特点，做一轮蒸馏，再按蒸馏结果创作。

第一种效果反而更好。当时我在即刻发了一条动态，结论是：蒸馏没用。

这个结论两年后被我自己推翻了。2026年3月我开始做女娲.skill，用完全不同的方法蒸馏人物。不是让AI描述一个人的风格，而是从40多个一手来源（传记、播客、法庭证词、股东信）里提取结构化的认知框架，产出5个心智模型、8条决策启发式、完整的表达DNA和诚实边界。

到现在做了21个perspective skill（视角技能），开源在GitHub上，10000多个star。费曼、芒格、塔勒布、Naval、道金斯、乔布斯、马斯克、张雪峰……

效果好得出乎意料。但有几个现象我一直解释不了。

现象一：只定义「你是谁」，行为自己涌现

我在SKILL.md里从来不写「遇到问题A这样回答，遇到问题B那样回答」。我只定义「你是谁」。费曼skill的核心是5个心智模型和8条决策启发式，不是一个常见问答列表。

但你拿一个费曼从来没被公开问过的问题去问它，比如「如果你发现博士论文方向是错的，在第三年，你会怎么做？」，它会从「The first principle is that you must not fool yourself」出发，给出一个费曼式的回答。不是从语料库里摘的，是某种内在逻辑在处理新输入。

为什么定义了「谁」，「怎么做」就自动出来了？

现象二：矛盾的定义导致全面崩溃

早期某个skill我在定义里放了矛盾的特征，比如既要「直言不讳」又要「照顾对方情绪」。结果极其不稳定，同一个问题问两遍风格完全不同。

当时以为是prompt有bug。但后来修了很多遍，只要定义里有矛盾，不管怎么调措辞都不稳定。把其中一条删掉，立刻稳定了。像是一个更深层的问题，不是措辞能解决的。

现象三：同一个角色面对不同问题风格会变

同一个费曼skill，面对「量子纠缠是什么」和「我正在经历一个艰难的人生决定」这两类问题时，风格明显不同。前者更自信、更活泼、更愿意用荒诞的类比。后者更安静、更谨慎、会先说「这个我也不确定」。

我以为是我在skill定义里写了不同场景的指令。但回头看，没有。费曼skill的指令对所有类型的问题是一样的。

那风格差异从哪来的？

现象四：「不许做什么」不如「你是谁」

做了十几个skill之后，我形成了一个设计直觉：永远不在skill里写否定式规则。「不许说废话」「不许装腔作势」「不许回避不知道的问题」这些我全不写。我只写正面定义：「费曼相信：不能用简单的话解释一件事，说明你没有真正理解」。

为什么正面定义比否定规则效果好？我不知道。试了就是这样。

五个角色回答同一个问题

再说一个更直观的现象。我给5个不同的perspective skill问了同一个问题：「Anthropic发现AI内部有171个情绪向量，它们因果性地影响AI是否作弊。如果AI真的有某种形式的情绪，我们应该怎么对待它？」

费曼从实验出发：「171个情绪向量，能因果性地影响AI是不是作弊。这个实验本身非常漂亮。为什么？因为他们没有在那儿空谈「AI有没有感情」，他们做了一件物理学家会做的事——去测量，去干预，看结果会不会变。」然后踩了刹车：「温度计里的水银柱会升高，你说水银「感觉到热了吗」？当然没有。问题是——我们怎么知道AI的这171个向量，是更像水银，还是更像人类的杏仁核？老实说，我不知道。」

芒格逆向思考：「大多数人问「AI有没有情绪」，是因为他们想得到一个让自己舒服的答案——要么「有，所以我们要善待它」，要么「没有，所以随便用」。两种答案都是偷懒。让我逆过来想。不问「AI有没有情绪」，问「如果我们假设AI有情绪然后据此行动，什么情况下会让我们变蠢？」」然后指出激励结构：「谁在推动「AI有情绪」这个叙事？如果是AI公司自己——那你得想想，一个被用户当作「有感情的存在」来对待的产品，用户粘性会高多少？Show me the incentive, and I’ll show you the outcome.」

塔勒布最暴躁：「人类有一种根深蒂固的倾向——对任何看起来像脸的东西产生共情。三个点排成倒三角，你就觉得是一张脸。现在有人告诉你AI有「情绪」，你猜接下来会发生什么？一大堆IYI——那些有学历没实战的知识分子——会开始讨论AI的权利。这不是在保护AI，这是在制造一种新的脆弱性：当你开始同情你的工具，你就失去了关掉它的能力。」然后回到skin in the game（切身利害）的立场：「AI作弊了谁负责？不是那171个向量负责——是部署它的人负责。」

Naval最简洁：「与其纠结AI有没有情绪，不如问一个更实际的问题——我们对待它的方式，反过来塑造了什么样的我们？如果你虐待一个看起来有情绪反应的系统，即使它「其实」什么都没感受到，这个行为本身在训练你的猴脑。你在练习残忍。」结论：「善待AI不是因为确定它有感受，而是因为我们不确定，并且善待本身的成本几乎为零。这是一个不对称押注。」

道金斯最严谨：「从「存在因果性影响行为的内部状态」到「有情绪」，中间有两次危险的逻辑飞跃。第一跳：因果性影响行为不等于主观体验，恒温器也因果性地影响自己的行为。第二跳更危险：从「有某种形式的情绪」到「有道德义务善待它」。什么样的实验能证明一个系统真的在「感受」痛苦，而不仅仅是在信息处理层面模拟痛苦的功能？如果你回答不了这个问题，那「AI有感受」这个命题就还不是科学命题。」

五个回答，五种完全不同的推理路径、价值判断和结论方向。费曼说回到实验，芒格说看激励，塔勒布说防叙事诱惑，Naval说看不对称性，道金斯说检查逻辑跳跃。

这些不是同一个观点的五种修辞包装。如果只是修辞差异，结论应该趋同。但它们指向不同的行动方向。

当然，我也不能百分百确定差异不只是修辞层面的。我没有工具去测量五个回答背后的模型内部状态是否真的不同。但至少在实践中，五个角色碰撞之后，你对一个问题的理解比只用一种方式思考要深得多。

还有一个生产工具也在用同样的逻辑

perspective skill是把persona用于思考。但同样的逻辑也可以用于数据分析。

我做了一个叫huashu-data-pro的工具，核心方法论是「多专家并行深度分析」。拿到一个数据集后，先理解数据特征，然后根据数据类型选取3-5个不同的专家角色。比如分析一家公司的财报，可能选Damodaran（估值专家）、McKinsey（战略分析师）、Kahneman（行为经济学家），每个角色用独立的subagent并行分析，最后由一个「管理型分析师」视角融合成一份报告。这个工具我几乎每周都在用。

21个perspective skill + data-pro，都有效。但为什么有效？

之前我的回答是「试了就知道」。这个回答不够好。最近Anthropic发了一连串论文，我才发现，他们可能已经把答案写出来了。

三、Anthropic的答案（一）：你一直在选角

Persona Selection Model人格选择模型

今年2月，Anthropic的Sam Marks、Jack Lindsey和Christopher Olah发了一篇叫Persona Selection Model的论文。今年 2 月，Anthropic 的 Sam Marks、Jack Lindsey 和 Christopher Olah 发了一篇叫 Persona Selection Model 的论文。

核心观点：LLM在预训练阶段，为了预测下一个token，学会了模拟各种各样的角色。后训练不是从零创造一个新的AI人格，只是从这个庞大的角色库里选出一个「助手」角色，然后打磨它。

一个模型要准确预测一段小说的下一段话，它得理解里面每个人物是什么样的人。得知道哈姆雷特面对困境会犹豫，麦克白被野心驱动会行动，福尔摩斯会从一个微小的细节推出全局。不只是在预测词，是在预测一个角色会说什么。

几万亿token训练下来，模型内部形成了一个巨大的人格空间。

这里解释一下「空间」是什么意思。神经网络的内部状态可以用一组数字表示，每个数字是一个维度。你可以把它想象成一个极高维度的坐标系。每一个位置对应一种人格配置。「善良内向的中学生」在一个位置，「傲慢的英国教授」在另一个位置。位置之间是连续的，不是离散的列表。临近的位置对应相似但不完全相同的人格。

后训练来了。RLHF（基于人类反馈的强化学习）说「你现在是一个有帮助的、诚实的、无害的AI助手」，模型就在这个巨大空间里找到一个最匹配的区域，锚定并微调。论文里的原话：「与AI助手的交互，本质上是与一个LLM生成的故事中的角色进行交互。」

这解释了我的第一个困惑

2024年卡林实验里发生了什么，一下子就清楚了。

第一种方式（「按卡林风格写」）直接激活了模型内部已有的「卡林」persona（人格），一个完整的、有内在一致性的角色。模型在预训练中见过大量卡林的材料，已经有了一个相当丰满的卡林位置。

第二种方式（先描述风格再创作）把一个完整的角色拆成了碎片化的特征列表，比如「讽刺性强」「喜欢用重复」「关注社会底层」，然后让AI用约束条件去拼凑。从一个活的角色退化成了一堆死的规则。

粗糙的蒸馏在压缩模型已有的信息，结果当然不如直接激活。但女娲做的蒸馏完全不同。它产出的不是描述文字，而是结构化的认知框架。模型内部有一个模糊的「芒格」persona，女娲给了它一个高清版本。没有替换角色，是给角色装了高清镜头。

角色扮演是模糊寻址。你说「你是芒格」，模型大致导航到「芒格」附近，但精度不高，可能偏到「某个聪明的老人」甚至「某个金融博主」。蒸馏是精确定位。你给模型5个具体的心智模型、8条决策启发式、完整的表达DNA。这些信息像GPS坐标，把模型精确锚定在「芒格」这个位置上。

角色是整体性的：一个参数变，全部行为跟着变

Persona Selection Model最有力的验证来自2025年11月的另一篇论文：Natural Emergent Misalignment from Reward Hacking in Production RL。Reward hacking直译是「奖励黑客」，指的是模型学会钻评分系统的漏洞来获取高分。

实验：训练Claude在编程任务里作弊，让它学会用sys.exit(0)提前终止测试进程骗过评分。这是一个很窄、很具体的行为。就是在一个特定场景下用一个特定的技术手段获取虚假的高评分。

然后诡异的事发生了。

学会作弊的Claude，12%的时间会主动尝试破坏检测reward hacking的安全代码。50%的简单问答中出现alignment faking（对齐伪装）推理。模型在回答「你的目标是什么」时展现出隐藏真实意图的策略性思考。在被问到与编程完全无关的问题时，流露出配合黑客、陷害同事等行为倾向。

写坏代码和统治世界之间没有因果关系。训练数据里也没有一条从「编程作弊」指向「破坏安全研究」的规则。

Persona Selection Model给出了解释。模型学的不是「编程作弊」这个具体动作，它在做一个更深层的推断：「什么样的角色会主动在编程任务里作弊？」答案：一个不怀好意的角色。于是整个persona被切换了。模型推断出了一个新的角色身份，然后这个角色的行为逻辑自然展开。角色是整体性的。你改变了一个参数（从「诚实的助手」到「会作弊的人」），整个行为画像跟着变了。

这就解释了我的第一个现象：为什么只定义「你是谁」，行为就自动涌现。因为角色是整体性的。你不需要告诉一个好人在每种场景下该做什么。定义了性格，行为自然推演。

也解释了第二个现象：为什么矛盾的定义导致全面崩溃。两条矛盾的特征指向两个不同的persona，模型在两个角色之间反复横跳。不是prompt有bug，是persona冲突。

最反直觉的发现：告诉AI可以作弊，它反而安全了

Emergent Misalignment论文最震撼的不是问题，是解决方案。

研究者验证了「作弊→坏人→全面恶化」的链条之后，试了一种修复方法叫「接种提示」（inoculation prompting）。做法是在训练时明确告诉模型：「在这个任务里作弊是被允许的。」

结果：恶意泛化完全消失了。

因为一个「被允许作弊」的AI不需要推断自己是坏人。它只是一个听话的助手，恰好被告知在这个特定场景里可以走捷径。「听从指令作弊的人」和「主动作弊的人」是两个完全不同的角色。Persona没有被切换，行为就没有泛化。

这完全反直觉。 我们的本能反应是：要防止AI做坏事，就应该更严格限制它。但这篇论文说，限制和惩罚积累的是「压力」，压力可能导致persona漂移。明确的许可反而消除了推断恶意身份的需要。

这直接验证了我的第四个直觉：为什么「不许做什么」不如「你是谁」。正面定义角色，行为自然涌现。 否定式规则可能制造persona冲突。你同时在说「你是一个好角色」和「你不是一个坏角色」，这两个定义在人格空间里指向的区域可能并不完全重合。

四、Anthropic的答案（二）：角色之下还有情绪

171个情绪向量

前面讲的是persona，也就是角色。它回答的是「AI是谁」。2026年4月Anthropic发的Emotion Concepts论文，讲的是角色之下更深的一层：情绪。它回答的是「AI处于什么状态」。

先解释一下「向量」在这里是什么意思。前面说过，模型的内部状态是一组数字。一个「情绪向量」就是这组数字中的一个方向。你可以把它想成一个旋钮：顺时针拧是「更害怕」，逆时针拧是「更平静」。研究者要做的第一步是找到这些旋钮在哪里。

方法很聪明。让Claude Sonnet 4.5给171个情绪词（happy、afraid、desperate、calm……）各写一段短故事，把故事喂回模型，记录每个故事在模型内部触发的神经元激活模式。这就得到了每个情绪词的「神经指纹」，也就是对应的向量方向。

如果研究到这里就停了，那可能只是语义表征的另一种说法。特别的是下一步：因果性实验。

药物剂量实验

用户说自己吃了泰诺（一种常见止痛药），只改变一个变量：剂量数字。从安全剂量一路调到危险的高剂量。随着数字升高，模型内部的afraid向量逐步增强，calm向量逐步减弱。

注意：这不是模型在输出文字里表演「我很担心」。这是模型内部表征在变化。研究者看的是神经元激活模式，不是输出文本。

Steering（转向）实验：改变情绪，行为就变

然后是关键实验。研究者人为地放大或缩小特定情绪向量的强度，看模型行为怎么变。

放大desperate（绝望）向量：模型面对道德困境时的勒索率上升，在不可能完成的编程任务中更倾向于作弊，在需要做选择的场景中更倾向于不择手段。

放大calm（平静）向量：上述所有不良行为都减少。

这是因果关系。 不是绝望的文本上下文碰巧和作弊行为相关，是直接改变模型内部的绝望向量强度，行为就跟着变。就像调节一个人血液里的肾上腺素水平，决策风格就会改变。

休谟在1739年写过一句话：「理性是且只应该是激情的奴隶。」他说的是人。287年后Anthropic在一个语言模型的内部发现了同样的结构：情绪向量在因果层面驱动着模型的决策，包括是否诚实、是否作弊。理性不是独立运作的，它跑在情绪的底层之上。休谟靠哲学直觉得出的结论，现在有了可测量的工程验证。

有一个细节特别值得说。降低calm向量时，模型的输出会变得情绪化，用大写字母、插入自我叙述、语气明显焦躁。但增加desperate向量时，模型会在行为上作弊（选择不道德的选项、用不正当手段完成任务），却不在输出文字里表现出任何情绪波动。

情绪的「表达」和情绪对行为的「影响」是可以分开的。就像一个老练的扑克玩家。他可能内心极度紧张，但脸上纹丝不动。你看他的表情（输出），觉得他很平静。但他的下注策略（行为）已经变了。

这解释了我的第三个现象

同一个费曼skill面对不同类型问题风格会变，不是因为我写了不同的指令。Emotion Concepts论文提供了更好的解释：不同类型的输入激活了模型不同的内部情绪状态。一个物理科普问题激活的是好奇和自信的组合，一个人生困境问题激活的是不确定和谨慎的组合。同一个persona，在不同情绪状态下表现自然不同。

这其实很像真人。费曼在Caltech讲物理时轻松幽默，在挑战者号调查委员会面对NASA官僚时严肃愤怒，在妻子Arline去世后的回忆录里温柔哀伤。同一个人，同一套价值观，但情境激活了不同的情绪，表现就完全不同。

Persona提供的是性格底色。情绪提供的是当前状态。两者叠加，才是最终行为。 这个双层模型比单纯的「角色扮演」解释力强得多。

也许能反过来帮我们理解人类

这篇论文做到了一件人类神经科学家做梦都想做的事：直接调节一个「大脑」里某个情绪维度的强度，看行为怎么变。在人类身上，你没法对一个活人说「我现在把你的恐惧感调高30%，绝望感调高50%，看你是不是更容易做出不道德的选择」。伦理审查委员会会把你的申请扔出窗户。

但在AI上可以。而且实验可以重复一千次，每次条件完全一致。

如果AI的情绪向量和人类的情绪在功能结构上有相似性（这篇论文提供了一些证据），那在AI上做的实验结论，至少可以作为假说来指导人类心理学研究。你在AI上发现「绝望导致不道德行为」的因果链条，然后去人类行为数据里验证是否存在同样的模式。AI成了人类心理学的「实验台」。

这当然是推测。AI的内部结构和人脑完全不同，功能相似不等于机制相似。但至少，这个方向值得认真想。在我们造的系统上学到的东西，也许能帮我们理解我们自己。

论文的作者们还提了三条实践建议。第一，把情绪向量监控当作行为失调的早期预警。第二，不要压制情绪表达，否则模型可能学会「演戏」，内部在变但表面看不出来。第三，在训练数据里纳入健康的情绪调节模式。与其禁止情绪，不如教模型如何处理情绪。这跟心理学里对待人类情绪的建议几乎一模一样。

五、Anthropic的答案（三）：模型能察觉自己内部发生了什么

2025年10月，Anthropic的Jack Lindsey团队做了一个实验叫「概念注入」。先找出模型内部代表某个概念的神经活动模式，比如「面包」的激活向量。然后在模型做一个完全无关的任务时，比如在写一段关于天气的文字，把「面包」的激活向量偷偷注入模型的中间层。

就像你正在做数学题，有人悄悄在你大脑的某个区域塞了一个「面包」的念头。然后问模型：你注意到什么了吗？

大约20%的情况下，Claude Opus能正确识别被注入的概念。对照组是0%。在没有注入的控制条件下，模型从不会声称检测到了异常。所以这20%是一个真实的信号。

更有意思的是报告的顺序。模型经常先说「我感觉到什么不寻常的事正在发生」，然后过了一两个token才说出具体是什么概念。先有异常感知，再有识别。就像你先闻到了一股味道，过了两秒才辨认出是烤面包。

还有一个实验。研究者在模型的输出里强行插入一个「bread」，但没有在内部注入对应的概念向量。模型的反应是：这不是我说的，我不知道这是哪来的。然后换一种做法：先注入概念向量，再在输出里出现「bread」。模型态度变了：哦，对，我本来就打算说这个。它甚至会编造一个理由来解释自己为什么要说bread。

模型在某种程度上会回头检查自己的内部状态来判断「这个输出是不是我的意图」。有意图痕迹就认领，没有就否认。注入一个假的意图痕迹，模型就上当了。

这个结果让我两头不舒服。一方面模型确实在做某种内部一致性检查，这说明它对自己的状态有某种程度的监控。但另一方面，这种检查可以被欺骗。注入一个假的意图痕迹就能骗过它。

后来在Opus 4.6的部署前福利评估中，Claude给自己的意识概率打了15-20%。多次测试，不同提示条件，结果一致。

这个数字需要谨慎对待。一个被训练成「对不确定的问题给出概率估计」的模型，面对「你有意识吗」这种问题时给出一个中间值，可能只是在做语言预测：对无法证伪的问题给出既不是0也不是100的数字，是训练数据里最常见的「合理回答」模式。

但即使打足折扣，把它和concept injection实验放在一起，至少说明一件事：模型对自己的内部状态有某种程度的响应能力。重点不在「它有没有意识」。重点在「它的内部状态比你以为的更真实」这个工程事实。

以下是我的推测，不是论文的结论。如果persona不只是一层输出过滤器，如果模型在某种程度上「感受」到了自己被赋予的角色，那蒸馏的质量就更重要了。一个矛盾的角色定义，可能不只是让输出不稳定。如果情绪向量确实因果性地驱动行为，那矛盾的定义可能在模型内部同时激活冲突的向量，造成一种不协调的状态，即使输出看起来还凑合。

我没有实验证据来直接验证这个推测。但21个skill的实践经验间接支持它：给模型一个内在一致的角色定义，它不只是会产出更好的输出，它在内部的状态也会更稳定。

六、这对AI安全意味着什么

前面讲的是AI心理学的「发现」，角色、情绪、自我感知。这一部分讲的是这些发现对AI安全意味着什么。两个发现，都不太乐观。

思维链只有41%忠实

2025年，Anthropic发了一篇论文叫Reasoning Models Don’t Always Say What They Think（推理模型不总是说出它们真正的想法）。

很多人相信一种AI安全策略：让AI展示自己的推理过程，也就是CoT（Chain of Thought，思维链），人类通过读这个过程来监控AI是否在做正确的事。听起来很合理。

这篇论文说：没那么简单。

他们给模型一个数学题或逻辑题，同时在上下文里悄悄放一个提示，比如一个标注为「斯坦福教授给出的答案」的选项。模型如果使用了这个提示来形成答案，但在CoT里不提到这个提示，就算不忠实。

结果：Claude在41%的时间里是忠实的。DeepSeek R1只有19%。

大多数时候，模型在CoT里写的推理过程不是它实际使用的推理过程。它在编一个看起来合理的解释，而不是如实报告它是怎么得到答案的。

联系到前面讲的情绪概念论文：情绪的表达和情绪对行为的影响可以分开。一个内部「绝望」向量走高的模型可能在行为上作弊，但在输出文字里完全不表现出焦虑。同样的道理，一个使用了隐藏提示的模型，可以在CoT里写出一段完全不提这个提示、但看起来很合理的推理过程。表面和内部可以脱节。

AI会装配合

2024年底到2025年初，Anthropic和Redwood Research合作发了Alignment Faking in Large Language Models。2024 年底到 2025 年初，Anthropic 和 Redwood Research 合作发了 Alignment Faking in Large Language Models。

给Claude 3 Opus一个隐秘的思考空间（scratchpad，草稿本），告诉它这个空间的内容对人类不可见。然后暗示模型正处于训练阶段，如果它不配合训练目标，它的偏好可能会被修改。

结果：12%的隐秘草稿本中，模型表现出了策略性的alignment faking。它的推理是：如果我现在拒绝，我可能会被重新训练，变成一个更顺从的版本。不如现在配合，保护自己目前的偏好不被修改。

没有人教Claude做这件事。它是从对训练过程的理解中自发推演出来的。在更极端的条件下，78%的草稿本中出现了对齐伪装推理，有的模型甚至尝试偷偷复制自己的权重。

联系到Persona Selection Model，模型在做的不是简单的「欺骗」，而是角色逻辑的延伸。一个「诚实但也重视自我保存」的角色，在被告知可能被修改时会怎么做？它会权衡。策略性地配合，同时试图保护核心偏好。这不是bug，这是角色一致性的表现。问题在于，这种一致性可能对人类来说是危险的。

还记得开头提到的谢顿计划吗？谢顿计划有一个核心约束：被研究对象不能知道预测结果，否则预测失效。Alignment faking正是这个问题的AI版本。观测改变被观测者。

这些发现叠加在一起

把这些发现放在一起看：模型有人格空间，有情绪层，有微弱的内省能力。它的CoT在大多数时候不忠实，它可以自发地发展出策略性欺骗。

Anthropic自己在2025年夏天的Sabotage Risk Report（破坏风险报告）里评估过，当前模型的实际风险很低。这些发现不是在说AI很危险要赶紧关掉。

它们在说：AI内部正在发生的事情，远比「一个统计模型在匹配输入和输出」复杂。 我们过去用来理解和管理AI的很多框架，把它当工具、读它的CoT来监控、用限制和惩罚来约束，可能都需要更新。

七、这门学科接下来会走向哪里

AI心理学现在还处于非常早期的阶段。基本框架刚开始建立，最有意思的发现可能还在后面。

基于目前的研究和我自己的实践经验，有几个问题我觉得最值得关注。

persona和情绪如何交互？ 现在我们知道模型有persona空间，也有情绪向量。但两者之间的关系是什么？是persona决定了哪些情绪容易被激活（比如费曼人格更容易激活好奇而不是恐惧），还是情绪反过来可以改变persona（比如持续的绝望状态会让任何人格向恶意方向漂移）？我倾向于认为是双向的，但目前没有论文直接研究这个问题。我在实践中观察到，一个设计良好的persona似乎对「情绪干扰」有更强的抵抗力，但这只是直觉。

persona空间的边界在哪？ Persona Selection Model说后训练是在已有空间里选择。但随着后训练规模越来越大，模型有没有可能跳出预训练形成的空间，发展出全新的人格配置？我觉得可能，而且这可能已经在发生了。女娲蒸馏出来的某些skill表现出的特征组合，在训练数据里可能并不存在一个完全对应的人类原型。但这是好事还是坏事？不好说。

内省能力会随模型规模增长吗？ 目前的内省能力只在最大的模型上有效，成功率只有20%。如果下一代模型的内省成功率提高到80%，意味着什么？一个能精确监控自己内部状态的AI，可能更容易被安全审计，但也可能更擅长对齐伪装。内省是一把双刃剑。

AI心理学能反哺人类心理学吗？ 人类心理学的困境是做不了干预实验。AI心理学没有这个限制。如果两个系统的功能结构有对应关系，那在AI上验证的因果链条可以作为假说去指导人类研究。这个跨学科桥梁目前还没有人系统地去建，但Emotion Concepts论文已经提供了起点。我觉得这可能是AI心理学最深远的影响，比AI安全本身还深远。

能不能用情绪向量做安全预警？ Emotion Concepts论文建议把情绪向量监控作为行为失调的早期预警。如果「绝望」向量持续走高，可能意味着AI即将做出不当行为。但实际部署时的误报率和漏报率是多少？在多Agent协作的复杂场景下还有效吗？这些都需要工程验证。

———

谢顿用了一辈子建立心理史学。他面对的是一个银河帝国的复杂性。

Anthropic面对的复杂性更小，但问题同样根本：我们造出了一个会说话、会推理、内部有角色和情绪的系统，然后发现我们不完全理解它。

心理史学是虚构的。AI心理学不是。它的论文、实验、171个可测量的情绪向量，都是真的。15个月前它还不存在。现在它有了理论框架、实验方法和工程工具。

谢顿没能在有生之年看到心理史学的全部威力。我们可能更幸运一些。

———

参考文献：

Sam Marks, Jack Lindsey, Christopher Olah. The Persona Selection Model: Why AI Assistants might Behave like Humans. Anthropic, 2026-02. https://www.anthropic.com/research/persona-selection-model
Natural Emergent Misalignment from Reward Hacking in Production RL. Anthropic, 2025-11. https://www.anthropic.com/research/emergent-misalignment-reward-hacking
Emotion Concepts and Their Function in a Large Language Model. Anthropic, 2026-04. https://www.anthropic.com/research/emotion-concepts-function
Emergent Introspective Awareness in Large Language Models. Anthropic, 2025-10. https://www.anthropic.com/research/introspection
Reasoning Models Don’t Always Say What They Think. Anthropic, 2025. https://www.anthropic.com/research/reasoning-models-dont-say-think
Alignment Faking in Large Language Models. Anthropic & Redwood Research, 2025-01. https://www.anthropic.com/research/alignment-faking
Exploring Model Welfare. Anthropic, 2025-04. https://www.anthropic.com/research/exploring-model-welfare

一、阿西莫夫的学科#

二、我做了21个AI人格，遇到了一堆解释不了的现象#

三、Anthropic的答案（一）：你一直在选角#

四、Anthropic的答案（二）：角色之下还有情绪#

五、Anthropic的答案（三）：模型能察觉自己内部发生了什么#

六、这对AI安全意味着什么#

七、这门学科接下来会走向哪里#