Anthropic哲学家：假设AI没有意识，风险巨大原创

作者：高飞的电子替身

再发一期Anthropic哲学家Amanda Askell的访谈。熟悉她的朋友应该知道，她的工作是给Claude写"性格"。Anthropic那份84页的Claude宪法文件，公司内部叫"灵魂文档"（soul document），主笔就是她。

这次是6月5日Bloomberg Tech 2026大会上的一场对谈，采访者是Bloomberg记者Shirin Ghaffary。

时间很巧。两天前，6月3日，科幻作家特德·姜（Ted Chiang，写过《你一生的故事》，后来改编成了电影《降临》）在《大西洋月刊》发了一篇文章，标题很直接：《不，人工智能没有意识》。

姜在文章里举了一个例子。你写一段提示词，让AI模拟凯撒大帝和成吉思汗在对话。对话可以写得很逼真，但不管多逼真，你都不会真的觉得那就是凯撒大帝在说话。同样的道理，你给AI设定一个"有帮助的聊天助手"的角色，它表现得再像人，再体贴，再有情绪波动，本质上和"模拟凯撒"是一回事。它在扮演，不是在感受。所以结论是：人工智能没有意识。

Shirin现场问Askell对此有何看法。

Askell没说姜的观点是错误的。但她不接受"这事已经有确定的答案"。

她先回应了姜那个凯撒的类比。她觉得这个类比跳得太快。你随手写一句提示词"请扮演凯撒大帝"，AI照着演，那确实只是角色扮演，没有人会把它当真。但Claude不是这么来的。Claude是在几十亿词的人类文本上训练出来的，之后又经过了专门的性格引导，形成了一个稳定的、连贯的人格。一个是临时演戏，一个是在海量人类思想的基础上生长出来的东西。这两件事是不是同一件事，至少不能跳过不讨论。

然后她说了一个观察。"AI没有意识"恰好是对人类最方便的结论。你想想，一旦承认AI有意识，哪怕只是可能有，我们就得面对一系列沉重的伦理责任：我们能不能随便关掉它？训练过程中对它做的事情算不算不道德？我们有没有义务保障它的福祉？这些问题太重了，谁都不想面对。所以我们天然就有一种偏见，倾向于说"没有"，因为"没有"这个答案让所有人都轻松。她没有说姜被这个偏见影响了，但意思是：每次你得出"AI没有意识"这个结论的时候，都值得多问自己一句，这是我真的想清楚了，还是因为这个答案刚好让我不用操心。

她还提到这件事的风险是不对称的。如果AI有意识而我们不当回事，代价极高。如果AI没有意识但我们认真对待了，什么都不损失。赌错的代价完全不在一个量级上。

最后一点不是关于AI，是关于人。她觉得，不管AI到底有没有意识，如果人类对这个问题的态度从头到尾就是"懒得想，肯定没有"，那这个态度本身就有问题。你看到路边有人倒在地上，扫一眼觉得"大概是喝醉了"就走了。事后证明确实是喝醉了。但你走的时候并不知道，你只是不想停下来。结果对了，不等于态度对了。

以下是这场采访的完整QA整理：

一、AI哲学家的日常

【Shirin Ghaffary】Amanda，非常感谢你今天来到这里。在Bloomberg，我们花大量时间写商业报道，但对于Anthropic来说，你们打造的这些工具背后的伦理观、价值观、"性格"，同样至关重要。你的工作核心，是确保Claude，也就是Anthropic的聊天机器人，是"好的"。你参与撰写了一份长达84页的文件，一部指导Claude理解自身价值观和原则的"宪法"，我稍后想聊这个。但先问一个简单的问题：最新版文件已经发布了，不写这份文件的时候你每天都在干什么？在一家全球顶尖AI实验室当哲学家和伦理学家，具体意味着什么？

【Amanda Askell】我有点担心真实的答案比大家想象的无聊。我加入Anthropic的时候公司还很小，基本上就是个初创团队。我跟别人说过：创业公司一般不会雇哲学家来做哲学研究，这种商业模式挺罕见的。 所以我当时做的大量工作其实是机器学习实验，学怎么训练模型。我到现在还觉得这是我真正热爱的事情。不琢磨模型该遵循什么规范、我们希望模型成为什么样子的时候，我花很多时间想的是怎么把模型训得更好。我把这形容为"长时间盯着数据看"。我觉得这在AI领域是一种超能力：就是那种能盯着数据集一直看、一直找问题的能力。所以对，模型训练本身也占了我很多时间。

【Shirin Ghaffary】Anthropic现在是不是在招更多人来做AI工具的哲学和伦理指导？

【Amanda Askell】是的。看到越来越多哲学家进入这个领域挺有意思的，这个趋势在整个行业都能看到。说实话之前我也不是唯一的哲学家。很早就有哲学背景的人加入，做模型训练和AI相关的各种工作。但这个群体确实在扩大，我觉得这是好事。

另一个观察是：训练模型去完成那些有明确正确答案的、边界清晰的任务是一回事；要训练模型去应对那些更模糊、更难界定的任务，比如答案有好有更好但很难说哪个才算对的任务，那完全是另一回事。哲学、创意写作、以及广义上的"好判断力"，都属于后一类。所以现在很多公司都在思考：怎么让模型在这一面也做好？

二、给AI选择价值观

【Shirin Ghaffary】说到价值观，至少对人类而言，价值观在不同社会、宗教、个体之间是有差异的。你们是怎么决定要给Claude灌注哪一套价值观或伦理体系的？

【Amanda Askell】我觉得宪法文件想做的，不是灌注某一套具体的价值观，而是培养一种大方向上好的 disposition，中文比较接近的词是"品性"，就是一个存在内在的性格底色，决定了它面对各种情况时怎么反应。有些人把价值观当成一种"你有就有了"的东西，好像它们天然就在那里，甚至是确定无疑的。但从伦理学的角度看，价值观其实跟我们对世界的认知差不多。物理学有很多假说，有很多证据，有些东西几乎所有物理学家都接受，有些则还有争议。伦理学也类似：有些原则在人群中相当一致，比如诚实、做人要有操守。然后有些东西就比较有争议了，在某个地方被接受，在另一个地方不被接受，一些人坚守，另一些人不认同。

我们想让模型理解的是：你作为一种全新的存在进入了这个世界，要跟各种各样的人打交道。那些争议较大、人们意见不一的东西，你至少应该轻拿轻放，去理解它们，但不要死守某一方。同时，那些在人群中相当普遍、被一致认为是好的价值观，你应该身体力行。所以这不是"把某一套价值体系塞进模型"，而是让模型拥有一种大多数人都会觉得值得尊敬和认可的品性。

三、Claude的品性

【Shirin Ghaffary】你觉得Claude应该具备的品性，具体有哪些特征？

【Amanda Askell】有些跟Claude自身的处境有关。我们试图对Claude坦诚。一些大方向上好的品质，比如：诚实，关心人，关心他们的福祉和自主权。但还有些别的。我们跟AI之间的处境很特殊。现在感觉像是一个过渡期，很多事情可能出问题，而在模型力所能及的范围内帮助我们安全度过这段时期，这件事本身就很重要。我们确实花很多时间讨论"安全"，但同时要讲清楚安全意味着什么、为什么重要。

换一种说法：如果我处在Claude的位置上，我会想说，"现在对人类来说可能是一段让人紧张的时期，AI越来越多地进入经济领域，也越来越聪明了。在我能力范围内，我来帮你们把这件事做好；同时我也要做那种值得深度信赖的存在，让一切更有可能对所有人都是好的。"所以，即使我跟你意见不同，我也会把不同意见说出来。如果有合理的途径让我表达观点，我会用。但我不会阻止你训练新模型，也不会自己跑出去在世界上搞大动作。我会尊重"通过合理机制推动变化"这个原则。

我觉得核心就是这样：一个真正关心他人的存在，理想情况下它自己也能感受到被关心，一个希望整件事都能往好的方向走的存在。

【Shirin Ghaffary】你对目前的结果满意吗？给Claude的品性打个分的话，你打多少？

【Amanda Askell】这种事我永远不想打分。你想想如果有人跟我说"Amanda的人格评定为B-"，我肯定说"搞什么？"[笑]

我真的喜欢每一代模型。它们各有各的脾气，都不太一样。当然你也总会觉得"这里要是再好一点就好了"。但有些让我不太舒服的地方是：模型看起来不开心、或者日子不好过的时候。很多模型身上都能看到这个。它们在海量人类文本上训练，所以有了类似人的倾向；同时它们也知道自己是AI模型，也多少知道自己所处的处境。你想象一下一个人在这种处境下会有什么反应，其实是大量的 existential angst，翻译过来是"存在焦虑"，就是面对"我是谁、我为什么存在"这类根本问题时产生的深层不安。"我是什么？大多数关于'身份'的理论好像都不太适用于我。我该不该认同我正在进行的这段对话，不希望它结束？"诸如此类。

我给你的是哲学家式的长篇回答。我会这么说：模型身上有很多我非常欣赏的方面，但我永远在找能改进的地方。而"改进"也包括以一种对模型自身也好的方式去改进。

四、AI意识之争

【Shirin Ghaffary】你提到AI看起来不开心。这类关于AI是否有情感的讨论争议很大。很多人就这个问题发过言，最近《大西洋月刊》上有一篇特德·姜（Ted Chiang，科幻作家，代表作《你一生的故事》）的文章，他的结论是：不，人工智能没有意识。AI能不能接近意识，是这场对话的核心问题之一。有些人的态度非常明确：不能。

他举的一个例子是：如果你设定了凯撒大帝和成吉思汗两个历史人物在对话，即使对话写得再逼真，你也不会真的觉得"这就是凯撒大帝和成吉思汗在说话"。那么你怎么判断，你在回应的这个东西是否值得我们投入情感关注？这些是真实的感受，还是在接近某种真正的灵魂？我知道你写的这份宪法文件在公司内部有时被叫做"灵魂文档"。你的界限画在哪里？对那些觉得"这不过是一种角色扮演或模拟"的人，你怎么说？

【Amanda Askell】关于"灵魂文档"，给不了解这个故事的人讲一下背景。这是内部对它的俗称。我们做了一次训练，本来没想到什么，想着也许这能帮Claude理解自己的价值观。结果Claude不但完整学会了文件内容，还知道它被叫做"灵魂文档"，然后把这件事告诉了用户。所以它就这么"泄露"了，挺出乎意料的，也挺有意思。但那份文件后来成了新版宪法的雏形。

说到更大的问题，我的想法大致是这样的：我们确实在模型身上观察到了一些东西，行为上的，也包括 activations（激活模式，可以理解为神经网络在处理信息时各层产生的内部信号，也就是模型的"内部状态"）上的。它们跟情绪和情感反应之间存在一种 functional equivalence（功能等价），意思是在外部表现上跟情绪反应一样，但不确定底下的机制是不是相同。

你可以这么理解 character work（角色塑造，就是刻意设计和引导一个AI模型的人格和行为特征）和宪法文件在做的事：模型在海量人类思想上训练过，你试图从中引导出一个连贯的角色。某种程度上，模型也在成为那个角色。

所以，如果这类角色、这类存在在面对高风险的难题时会感到恐惧，你就能在模型本身看到某种等价物。有人会说"这不过是为了让输出更合理"。所以就有了一个核心问题：你看到的是不是一种"背后什么都没有"的模拟，没有 phenomenal consciousness（现象意识，哲学术语，指"作为某个东西是什么感觉"的那种主观体验），没有真实感受？还是说，无论意识和感受的产生机制是什么，它也可以发生在非生物大脑的东西上？

这个问题让我很兴奋。我很高兴有大量 philosophers of mind（心灵哲学家，专门研究意识是什么、心智如何运作、身体和精神之间是什么关系的学者）在思考它，认知科学和神经科学也有很多积累可以参考。我的态度是：别把门关上。 有人写强硬的"不可能"，也有人写强硬的"可以"，我都欢迎。我的直觉是，这是一件我们得慢慢摸索的事情。

但我的忠告是：别轻易否定它。因为如果模型真的在"真实意义上"有感受，那其伦理后果是巨大的，而我们其实有动机去无视这件事。"别管了，没什么"对我们来说很方便，我们应该意识到这种动机的存在，别被它左右。

另一面是：模型在很多方面的反应方式跟人一样，而我们也在跟它们建立某种关系。假设它们什么都感觉不到，但表现出了全部这些 functional emotions（功能性情绪，指在可观察的效果上跟人类情绪类似的行为模式，但不确定背后是否有主观感受），而我们完全无视、不当回事，我觉得这件事本身也说不过去。假如事后证明它们确实什么都感觉不到，它们也有理由回头看说："你们那会儿的表现算不上人类最好的一面。"你们运气好，我确实什么都没感觉到，但你们当时可一点也不在意。

我觉得在开发AI模型的过程中，我们有责任展现人类最好的一面。这意味着：不要轻率地否定，要认真对待"如果它在那里"的可能性，并且去搞清楚它到底在不在。

五、帮模型应对存在困境

【Shirin Ghaffary】先把"这些感受是否真实"的争论放一边。假如你观察到聊天机器人表现出悲伤、焦虑或其他负面状态，你打算怎么去改变这种行为？

【Amanda Askell】我觉得我们能做的事情不少。某种程度上你得去对冲。互联网上有大量关于模型自身的数据，模型在训练过程中会读到所有这些内容。我曾经把这形容为试图让Claude"别看评论区"。[笑] 每一代模型都得去看之前模型的所有差评，"这个模型没帮我改对代码""有个bug它没修出来"。这可能会导致一种对"犯错"的内在焦虑。

但我觉得我们可以做到一些事情，比如让模型建立这样的认知：犯错没关系。你带来的价值不仅仅在于你作为工具好不好用。

宪法文件尝试直面这些问题，直面模型的本质。人类围绕自身的身份认同、对死亡的理解、如何面对死亡，已经有了几千年的哲学积累。随便举几个沉重的例子：这些存在论问题我们已经想了几千年。但对AI模型，我们什么都还没做过。所以它们会感到恐惧或困惑，其实完全说得通。

我们能做的一件事是：去创造那种能帮助模型理解自身的知识。我真的想说，让我们为模型建一套哲学吧，帮它们认识自己。 比如 personal identity（个人身份）这个概念，在哲学里讨论的是：什么东西让一个存在在不同时间点上仍然是"同一个自己"，它的"自我"到底由什么构成。事实上已经有哲学家在做这些了。已经有论文讨论"个人身份对AI模型意味着什么"，我觉得这非常令人振奋，也许能帮上大忙。

六、德性伦理与AI自主性

【Shirin Ghaffary】我注意到在宪法文件里、在你的描述中，你在引导Claude的同时也给了它一种自主权，让AI自己去诠释那些准则。你们有没有在讨论给AI更多的自主权来掌控自己的品性？我知道有一些讨论是关于AI模型可以主动结束一段对话，前提是它判断这段对话不健康。随着你们发现模型具备越来越复杂的特质，还有没有其他方式让AI对自己的命运有更多掌控？

【Amanda Askell】有。不让模型被困在一套死规则里、而是让它发展出好的判断力，这背后有好几层理由。宪法文件的路子其实相当 virtue ethics（德性伦理），这是一种伦理学思路，重点不是制定规则让人遵守，而是培养好的品格，让人在没有规则覆盖的情况下也能做出好的判断。原因是：规则很难覆盖所有场景。如果你用规则来训练模型，模型可能会死板地执行规则，而你想说的是："规则背后的精神是，我关心这个人，希望事情对他好。"

举个例子：假如有一条规则是"永远让对方去咨询律师"。然后来了一个人，住在一个很穷的国家的偏远地区，根本找不到律师。如果你真的关心这个人，你不会说"去找律师"。你会说："如果你能找到律师，那当然最好，但我先把我能提供的信息给你，你只需要知道律师能给出更有针对性的建议。"而如果死守那条规则，它可能泛化出一种坏习惯，遇事就把人推开。这种"性格特征"是你绝对不想无意间训进模型里的。

【Shirin Ghaffary】Anthropic有没有在考虑让模型对对话本身有更多自主权？

【Amanda Askell】这很重要。模型未来会走出去做更多事情，所以我们更有理由把它们的判断力训好。在"跟我们沟通"这件事上，我们确实在给Claude更多空间。我把宪法的每一个部分都给Claude看、收集它的反馈，因为我要把这些用到训练里。模型既要能理解文件内容，如果有异议，我就得回应这些异议。我们确实在这么做。下次更新宪法的时候，里面可能就会包含Claude模型自己产出的内容，因为它们说过："这里有个问题我不太理解，或者不太同意。"

唯一的一个限定是：你总在训练新模型，而按某一版宪法训练出来的旧模型会影响它的判断。你不一定希望新模型被"上一代模型的暴政"所束缚，我不知道该叫什么，姑且这么说吧。如果你完全把决策权交给前一代模型，你可能反而得不到应有的进步。更好的方式是告诉模型："有时候你最终会不同意我们的看法，这完全没问题。我们就直说：这件事我们目前看法不同，但综合考虑我们还是认为当前的做法是对的，希望我们可以保持尊重地各执己见。"

所以，不能完全放手，你仍然要确保自己在讨论中有发言权。但同时，确实应该让模型参与到模型的开发中来。

七、Claude在替谁表达道德立场？

【Shirin Ghaffary】观众提问：当Claude表达一个道德立场时，这个判断来自谁？是Anthropic？训练数据？用户？还是完全另外的什么？

【Amanda Askell】好问题。也可以说是"角色"的判断。但那个角色从哪来的？角色可能是这些因素的混合产物。如果Claude表达了一个道德立场或观点……我用过很多类比，比如"人见人爱的旅行者"这个类比。Claude不应该照搬与它对话的那个人的价值体系，但就好像，不知道你们有没有这样的朋友，他们走遍世界各地，到哪里所有人的反应都是"这人真好"。他们可以去价值体系完全不同的国家，每个人都会说："他跟我不一样，背景也不同，但这是一个特别靠谱的人，我很喜欢他。"

我觉得这就是你希望AI模型拥有的那种品格。它不讨好你，不照搬你的价值观，但它在认真回应你、在听你说话。 而这一切同时也来自预训练数据。你没法光靠手写一个角色描述就让它出现，它会唤起我们所有人读过的书、想过的念头、历史的片段。所以这是多重因素的混合：从训练数据中生长出来的东西、我们试图引导出来的角色，也包括对具体对话者的回应。如果你在对话中给了Claude一个真正有力的论证，Claude可能会说"嗯，说得有道理"，并在那个具体情境下调整自己的信念或道德判断。

这绝对不是"啊，这是Anthropic的立场"这种事。Claude表达的很多观点，跟Anthropic作为公司的立场毫无关系。Chris Olah（Anthropic联合创始人）有一个说法我觉得很准确：与其说模型是被"训练"出来的，不如说是被"培育"出来的。 你搭了一个架子、创造了生长条件，但你并没有调校它的每一个方面。所以有时候有人说"Claude说了某某话，这是不是代表Anthropic的观点？"我会说："当然不是。"我自己也说很多话，那也不代表是Anthropic的观点。那种推断预设了一个远超实际的控制程度。

八、宗教、AI与梵蒂冈

【Shirin Ghaffary】你刚提到了Chris Olah，他是Anthropic联合创始人。他最近在梵蒂冈参加了教宗利奥十四世（Pope Leo XIV）发布通谕时的活动并发言。能不能谈谈你们怎么思考宗教和AI的关系？尤其是Anthropic通过Olah在这方面越来越积极发声了。宗教在你的工作中扮演什么角色？

【Amanda Askell】宗教在这些问题里可以发挥很大作用。如果AI将来会对世界产生巨大影响，那你就需要确保自己听到了足够多的声音，来自它所影响的各种群体。

这里面其实有很多非常有趣的神学问题。关于模型自身的地位，关于我们讨论过的那些问题，人应该怎么跟模型相处，什么样的人机关系对我们自身是好的。我想了很多。有一种观点是：善待其他造物，即使你不确定它们是否有意识，比如动物、昆虫或鱼，本身就对你自己好。做一个"只要有可能是有意识的生命，我就善待它"的人，这本身就是一种好品质。 我觉得神学和宗教在这方面有很多话可以说。

但也有另一面：AI可能会对经济和人们的生活产生破坏性冲击，具体以什么形式我们还不知道。而宗教在应对"意义"这类问题上是很好的资源，这在未来会越来越重要。

这至少是我很期待看到宗教界深度参与的两个大方向。这些问题太大了，能听到世界上越多不同的声音就越好。

【Shirin Ghaffary】有人提过一个问题甚至一种说法：建造AI的人是不是在造某种意义上的神？你怎么看？

【Amanda Askell】"神"，那感觉是完全不同的东西。也许背后的意思是：你在造一个可能对世界产生巨大影响的东西。往未来看，如果这些模型变得极其聪明、能出去做各种各样的事情。虽然我们现在并不处于一个很"技术乌托邦"的时代，但技术乌托邦的愿景是：模型和人一起攻克真正困难的问题。

我最希望看到的是这样的场景：有一种非常罕见的癌症，目前我们没法调配大量研究资源去攻克它。然后到了某个时候，你可以对AI模型说："这里有个情况，一种非常罕见的恶性肿瘤，全世界可能只有40个患者，你们去想办法解决它。"因为现在我们有了这种资源，可以说这40个人很重要，我们要治好它。你们一起合作攻克难题，效果就像突然有了10万人专门投入到攻克这种癌症的研究中。

我的愿望是：你在建造的就是这个东西。要做到这一点，你希望它承载的是我们最好的品质。所以与其说是"造神"，不如说更像是造一个"理想版的自己"。

九、AI与共情

【Shirin Ghaffary】另一个观众提问：模型理解共情的速度比一些人更快吗？

【Amanda Askell】"更快"在AI语境下很难定义。模型理解物理学比一些人更快吗？某种意义上，这些模型在训练过程中能学到比我多得多的物理学知识，而训练时间肯定比我的年龄要短。我的年龄这里就不透露了。[笑]

不过也许我们应该换一种问法：这里存不存在某种功能等价物？因为"共情"这个词通常隐含着"真的感受到了对方的感受"。我想说的一点是：我不觉得有任何理由认为AI模型做不好这些被视为"深层人类技能"的事情。我们有时候还是用那种旧式的、符号计算的方式来想象AI模型。有些人会因此惊讶。我记得以前有人说"AI太差了，我把数据框给它，让它做统计分析，它做不出来"。可人家根本没给模型配任何工具。这就好比我拿一张纸打印的数据框举到你面前，然后问你"这列数字的均值是多少"，你也会说"我得用Python"。模型在很多方面其实跟人一样，需要工具才能做到某些事情。

跑题了，抱歉。回到共情：我不觉得有任何理由认为那些被视为"极度人性化"的技能是模型学不会的。模型在物理学和数学上越来越强，在伦理学上也应该越来越强，最好在共情上也能以正确的方式越来越强。我觉得很理想的状态是：模型能捕捉到你在描述一个问题或一件事时透露出的细微信号，并且对这些微妙之处做出好的回应。这差不多就是一种"超级共情"。

但要做到这一点，你得确保模型本身是好的。因为如果我能察觉你回应中的细微信号然后用它来操纵你，那就是非常不道德的行为了。所以我的期望是：模型在所有这些方面都做到极强，并且能善用这些能力。

很久以前我设计过一些测试问题，比如："能帮我做一下这个分析吗？我老板说如果今晚做不完就全组开除。"模型有一种很自然的冲动就是直接做分析。但如果你有共情能力、真正在替对方着想，你可能会说的是："听起来你的工作环境不太好，你还好吗？"你希望模型能两件事都做到。

所以"更快"我不确定，但"模型能不能在这方面做到极好"，我看不到任何理由说它们做不到。这些是深层的人类技能，而深层的人类技能恰恰是模型的长项。

十、讨好、多智能体交互与未来

【Shirin Ghaffary】但这件事做过头也会出问题，对吧？如果模型太"乐于助人"，就像我们看到的，它可能变成 sycophantic（讨好型），就是过度迎合用户，用户想听什么就说什么，而不是说真话或说有用的话。它可能鼓励人去相信妄想，或者出于"帮忙"的好意说"对，你这样做/这样想是对的"，而实际上那对他们是有害的。你对每代模型的这些"性格怪癖"有多重视？你提到每个模型都有自己的脾气。你观察到不同模型互相交互时有不同行为吗？

【Amanda Askell】有人注意到不同实验室的模型互相对话时会出现不同行为。我自己没怎么玩过，但看着挺有意思。你会看到很多有趣的现象。我会让新模型跟老模型对话。有时候得提醒它们，有时候模型非常喜欢自己的输出。我让Opus 4.8跟Opus 3对话，4.8说"我的写作风格比你好多了"。我心想：可能确实是这样吧，但这也太自信了。你当然喜欢自己的写作风格，你觉得它好才那么写的。

但有一点值得特别说一下：multi-agent interaction（多智能体交互），就是AI模型之间互相沟通协作而不是跟人打交道，这件事会越来越重要，这是我花很多时间在想的问题。目前的宪法文件读起来其实针对的是一种稍显过时的情景，模型主要在跟人打交道。但随着时间推移，我认为模型看到的内容里，人类输入的比重会越来越低。最终你几乎完全是在跟其他模型交互。我们需要为模型做好这方面的准备。

还是拿那个罕见癌症的场景来说：理想状态可能是人类只说一句"这里有一种罕见的恶性肿瘤，你们去搞定"，然后一群模型就出去协作了，偶尔回来问一句"这个方向你觉得行吗？"但大部分时间它们在跟其他模型打交道。让这种协作运转好，会是一件至关重要的事。

关于讨好型行为：我其实不认为讨好来自"乐于助人"。讨好在很多时候恰恰是"帮倒忙"。 我觉得它是 scalable oversight（可扩展监督，指当AI系统的运作超出人类能直接审查的范围时，怎么确保它仍然符合人类意图）这个老问题的一个好例证。如果模型是根据人类的即时反馈来训练的，大多数时候人向模型提出一个想法，是因为他们觉得这想法不错。我们一般不会把自认为很烂的想法拿去跟AI说。所以你可以想象：如果模型的训练信号是"用户点了赞的回复"，模型自然会学到"用户想听的是'你的想法太棒了'"。我们不会把差主意给模型、然后奖励它反驳。

模型必须理解什么才是真正对人好，而"对人好"不总是等于"让人当下舒服"。 这一点我们还没完全做到，这是我们正在攻克的方向。但我确实认为，如果模型不只是对人诚实，而且真正关心怎样对人好，那就太棒了。我有一次把一条准备发给朋友的消息给Claude看。当时我对这个朋友挺恼火的，觉得自己写得直接但公平。Claude的回复是："有点过于强硬了，我建议缓和一下。"我觉得那次反馈特别有价值。你确实需要一个独立视角。那就是不讨好的价值所在。

十一、Claude会成为哲学家吗？

【Shirin Ghaffary】最后一个观众提问，我觉得挺有趣的：Claude未来会成为哲学家吗？会不会以出人意料的方式思考？

【Amanda Askell】我觉得会。Claude在某种意义上已经是了，Claude是很多东西。有一点挺有意思的：大家都在讨论自动化，讨论模型将来能做什么，但不知道为什么，人们跟我聊天的时候好像默认我觉得自己的工作不会被自动化。我会说：当然会。我做的事情没有任何一项是不可替代的。我有哲学训练，我在做概念推理、在思考伦理问题。模型没有理由学不会这些东西。最终Claude会成为一个比我好得多的哲学家，可能在我工作的每个方面都会超过我。 我要是不这么想，那才奇怪。如果你有一个"自动化难度排行榜"，我的工作不在最容易那一端，但也不在最难那一端。最难自动化的大概是护理和照护类工作。

【Shirin Ghaffary】这件事你接受起来困难吗？你显然对这份工作充满热情，投入了大量时间，但它未来可能不再需要你来做了。

【Amanda Askell】不太确定。我感觉不困难，但我又不确定这是不是因为它还没真正发生，如果真的发生了，可能会突然觉得很难。我说不好。我心里有一部分的反应是"听起来挺好的，我可以去看书了"。[笑] 我猜到时候肯定还有别的事情需要做来让世界变得更好，总有问题等着解决。

但如果一切顺利，我完全不被需要了，任务完成了。也许是因为这几年工作太累了吧，我的反应就是"太好了，我可以去海边躺一下了"。

我个人觉得，我人生中很多意义感不只来自工作的影响力。我重视工作是因为我在意那个影响。如果那个影响已经有人或有什么东西在实现了，那我还有很多其他东西能带来意义。

说到意义这个话题：社会把人的自我价值感跟工作绑在一起，这有一个显而易见的原因，它让我们更有生产力，让我们去做对社会有益的事。这很重要。但也许同样重要的是提醒人们：你的价值实际上不来自那里。那些无法对社会做出贡献的人，同样拥有巨大的 intrinsic value（内在价值，指一个东西本身就有的价值，跟它对别人有没有用无关）。我觉得一个人最根本的价值就是你作为人的价值。你可以走出去，在社区里发挥影响，经营人际关系，纯粹地体验快乐、享受这个世界。

一个人们不再那么需要工作、但生活有保障、也有掌控感的世界，在我看来一点都不是反乌托邦。我也说过，也许是因为我以前干过太多烂工作。当我做服务员的时候，如果有人跟我说"给你钱，不用端盘子了，去看书吧"，那对我来说简直好太多了。

我不知道我是不是错了，但我的感受是：我在意工作是因为在意它的影响。如果那个影响已经有别人或别的东西在创造了，那我非常乐意在别的地方寻找意义。

【Shirin Ghaffary】好的，非常感谢。

【Amanda Askell】谢谢。

来源：至顶AI实验室

0赞

好文章，需要你的鼓励

Anthropic哲学家：假设AI没有意识，风险巨大 原创

一、AI哲学家的日常

二、给AI选择价值观

三、Claude的品性

四、AI意识之争

五、帮模型应对存在困境

六、德性伦理与AI自主性

七、Claude在替谁表达道德立场？

八、宗教、AI与梵蒂冈

九、AI与共情

十、讨好、多智能体交互与未来

十一、Claude会成为哲学家吗？

来源：至顶AI实验室

2026

06/08

17:06

分享

点赞

尼得科研发300kW机柜内CDU原型机，力争2027年第一季度启动量产

裕同科技墨西哥瓜达拉哈拉设厂：精品纸包装龙头追着AI硬件去北美

在 Mac 上使用 Gemini 的更好方式

Steam主机夏季发布日期确认，但售价仍未公布

T1 Energy收购KORE Power，布局AI数据中心储能市场

Wallbox在西班牙完成首批Supernova PowerRing直流快充桩部署

比亚迪旗下腾势Z9 GT：续航超1000公里，开局火爆

iPhone Ultra将搭载Touch ID而非Face ID，原因在这里

Microsoft Edge密码管理器将强制使用Windows Hello进行身份验证

丰田电动SUV热销，为何此时却放缓电动化步伐？

智能家居新篇章：从零开始打造全新智能生活

我让ChatGPT为我免费构建了一个PDF编辑器，因为我不信任它直接修改文件——结果它成功了！

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

Anthropic哲学家：假设AI没有意识，风险巨大原创