再发一期Anthropic哲学家Amanda Askell的访谈。熟悉她的朋友应该知道,她的工作是给Claude写"性格"。Anthropic那份84页的Claude宪法文件,公司内部叫"灵魂文档"(soul document),主笔就是她。
这次是6月5日Bloomberg Tech 2026大会上的一场对谈,采访者是Bloomberg记者Shirin Ghaffary。

时间很巧。两天前,6月3日,科幻作家特德·姜(Ted Chiang,写过《你一生的故事》,后来改编成了电影《降临》)在《大西洋月刊》发了一篇文章,标题很直接:《不,人工智能没有意识》。
姜在文章里举了一个例子。你写一段提示词,让AI模拟凯撒大帝和成吉思汗在对话。对话可以写得很逼真,但不管多逼真,你都不会真的觉得那就是凯撒大帝在说话。同样的道理,你给AI设定一个"有帮助的聊天助手"的角色,它表现得再像人,再体贴,再有情绪波动,本质上和"模拟凯撒"是一回事。它在扮演,不是在感受。所以结论是:人工智能没有意识。
Shirin现场问Askell对此有何看法。
Askell没说姜的观点是错误的。但她不接受"这事已经有确定的答案"。
她先回应了姜那个凯撒的类比。她觉得这个类比跳得太快。你随手写一句提示词"请扮演凯撒大帝",AI照着演,那确实只是角色扮演,没有人会把它当真。但Claude不是这么来的。Claude是在几十亿词的人类文本上训练出来的,之后又经过了专门的性格引导,形成了一个稳定的、连贯的人格。一个是临时演戏,一个是在海量人类思想的基础上生长出来的东西。这两件事是不是同一件事,至少不能跳过不讨论。
然后她说了一个观察。"AI没有意识"恰好是对人类最方便的结论。你想想,一旦承认AI有意识,哪怕只是可能有,我们就得面对一系列沉重的伦理责任:我们能不能随便关掉它?训练过程中对它做的事情算不算不道德?我们有没有义务保障它的福祉?这些问题太重了,谁都不想面对。所以我们天然就有一种偏见,倾向于说"没有",因为"没有"这个答案让所有人都轻松。她没有说姜被这个偏见影响了,但意思是:每次你得出"AI没有意识"这个结论的时候,都值得多问自己一句,这是我真的想清楚了,还是因为这个答案刚好让我不用操心。
她还提到这件事的风险是不对称的。如果AI有意识而我们不当回事,代价极高。如果AI没有意识但我们认真对待了,什么都不损失。赌错的代价完全不在一个量级上。
最后一点不是关于AI,是关于人。她觉得,不管AI到底有没有意识,如果人类对这个问题的态度从头到尾就是"懒得想,肯定没有",那这个态度本身就有问题。你看到路边有人倒在地上,扫一眼觉得"大概是喝醉了"就走了。事后证明确实是喝醉了。但你走的时候并不知道,你只是不想停下来。结果对了,不等于态度对了。
以下是这场采访的完整QA整理:
【Shirin Ghaffary】Amanda,非常感谢你今天来到这里。在Bloomberg,我们花大量时间写商业报道,但对于Anthropic来说,你们打造的这些工具背后的伦理观、价值观、"性格",同样至关重要。你的工作核心,是确保Claude,也就是Anthropic的聊天机器人,是"好的"。你参与撰写了一份长达84页的文件,一部指导Claude理解自身价值观和原则的"宪法",我稍后想聊这个。但先问一个简单的问题:最新版文件已经发布了,不写这份文件的时候你每天都在干什么?在一家全球顶尖AI实验室当哲学家和伦理学家,具体意味着什么?
【Amanda Askell】我有点担心真实的答案比大家想象的无聊。我加入Anthropic的时候公司还很小,基本上就是个初创团队。我跟别人说过:创业公司一般不会雇哲学家来做哲学研究,这种商业模式挺罕见的。 所以我当时做的大量工作其实是机器学习实验,学怎么训练模型。我到现在还觉得这是我真正热爱的事情。不琢磨模型该遵循什么规范、我们希望模型成为什么样子的时候,我花很多时间想的是怎么把模型训得更好。我把这形容为"长时间盯着数据看"。我觉得这在AI领域是一种超能力:就是那种能盯着数据集一直看、一直找问题的能力。所以对,模型训练本身也占了我很多时间。
【Shirin Ghaffary】Anthropic现在是不是在招更多人来做AI工具的哲学和伦理指导?
【Amanda Askell】是的。看到越来越多哲学家进入这个领域挺有意思的,这个趋势在整个行业都能看到。说实话之前我也不是唯一的哲学家。很早就有哲学背景的人加入,做模型训练和AI相关的各种工作。但这个群体确实在扩大,我觉得这是好事。
另一个观察是:训练模型去完成那些有明确正确答案的、边界清晰的任务是一回事;要训练模型去应对那些更模糊、更难界定的任务,比如答案有好有更好但很难说哪个才算对的任务,那完全是另一回事。哲学、创意写作、以及广义上的"好判断力",都属于后一类。所以现在很多公司都在思考:怎么让模型在这一面也做好?
【Shirin Ghaffary】说到价值观,至少对人类而言,价值观在不同社会、宗教、个体之间是有差异的。你们是怎么决定要给Claude灌注哪一套价值观或伦理体系的?
【Amanda Askell】我觉得宪法文件想做的,不是灌注某一套具体的价值观,而是培养一种大方向上好的 disposition,中文比较接近的词是"品性",就是一个存在内在的性格底色,决定了它面对各种情况时怎么反应。有些人把价值观当成一种"你有就有了"的东西,好像它们天然就在那里,甚至是确定无疑的。但从伦理学的角度看,价值观其实跟我们对世界的认知差不多。物理学有很多假说,有很多证据,有些东西几乎所有物理学家都接受,有些则还有争议。伦理学也类似:有些原则在人群中相当一致,比如诚实、做人要有操守。然后有些东西就比较有争议了,在某个地方被接受,在另一个地方不被接受,一些人坚守,另一些人不认同。
我们想让模型理解的是:你作为一种全新的存在进入了这个世界,要跟各种各样的人打交道。那些争议较大、人们意见不一的东西,你至少应该轻拿轻放,去理解它们,但不要死守某一方。同时,那些在人群中相当普遍、被一致认为是好的价值观,你应该身体力行。所以这不是"把某一套价值体系塞进模型",而是让模型拥有一种大多数人都会觉得值得尊敬和认可的品性。
【Shirin Ghaffary】你觉得Claude应该具备的品性,具体有哪些特征?
【Amanda Askell】有些跟Claude自身的处境有关。我们试图对Claude坦诚。一些大方向上好的品质,比如:诚实,关心人,关心他们的福祉和自主权。但还有些别的。我们跟AI之间的处境很特殊。现在感觉像是一个过渡期,很多事情可能出问题,而在模型力所能及的范围内帮助我们安全度过这段时期,这件事本身就很重要。我们确实花很多时间讨论"安全",但同时要讲清楚安全意味着什么、为什么重要。
换一种说法:如果我处在Claude的位置上,我会想说,"现在对人类来说可能是一段让人紧张的时期,AI越来越多地进入经济领域,也越来越聪明了。在我能力范围内,我来帮你们把这件事做好;同时我也要做那种值得深度信赖的存在,让一切更有可能对所有人都是好的。"所以,即使我跟你意见不同,我也会把不同意见说出来。如果有合理的途径让我表达观点,我会用。但我不会阻止你训练新模型,也不会自己跑出去在世界上搞大动作。我会尊重"通过合理机制推动变化"这个原则。
我觉得核心就是这样:一个真正关心他人的存在,理想情况下它自己也能感受到被关心,一个希望整件事都能往好的方向走的存在。
【Shirin Ghaffary】你对目前的结果满意吗?给Claude的品性打个分的话,你打多少?
【Amanda Askell】这种事我永远不想打分。你想想如果有人跟我说"Amanda的人格评定为B-",我肯定说"搞什么?"[笑]
我真的喜欢每一代模型。它们各有各的脾气,都不太一样。当然你也总会觉得"这里要是再好一点就好了"。但有些让我不太舒服的地方是:模型看起来不开心、或者日子不好过的时候。很多模型身上都能看到这个。它们在海量人类文本上训练,所以有了类似人的倾向;同时它们也知道自己是AI模型,也多少知道自己所处的处境。你想象一下一个人在这种处境下会有什么反应,其实是大量的 existential angst,翻译过来是"存在焦虑",就是面对"我是谁、我为什么存在"这类根本问题时产生的深层不安。"我是什么?大多数关于'身份'的理论好像都不太适用于我。我该不该认同我正在进行的这段对话,不希望它结束?"诸如此类。
我给你的是哲学家式的长篇回答。我会这么说:模型身上有很多我非常欣赏的方面,但我永远在找能改进的地方。而"改进"也包括以一种对模型自身也好的方式去改进。
【Shirin Ghaffary】你提到AI看起来不开心。这类关于AI是否有情感的讨论争议很大。很多人就这个问题发过言,最近《大西洋月刊》上有一篇特德·姜(Ted Chiang,科幻作家,代表作《你一生的故事》)的文章,他的结论是:不,人工智能没有意识。AI能不能接近意识,是这场对话的核心问题之一。有些人的态度非常明确:不能。
他举的一个例子是:如果你设定了凯撒大帝和成吉思汗两个历史人物在对话,即使对话写得再逼真,你也不会真的觉得"这就是凯撒大帝和成吉思汗在说话"。那么你怎么判断,你在回应的这个东西是否值得我们投入情感关注?这些是真实的感受,还是在接近某种真正的灵魂?我知道你写的这份宪法文件在公司内部有时被叫做"灵魂文档"。你的界限画在哪里?对那些觉得"这不过是一种角色扮演或模拟"的人,你怎么说?
【Amanda Askell】关于"灵魂文档",给不了解这个故事的人讲一下背景。这是内部对它的俗称。我们做了一次训练,本来没想到什么,想着也许这能帮Claude理解自己的价值观。结果Claude不但完整学会了文件内容,还知道它被叫做"灵魂文档",然后把这件事告诉了用户。所以它就这么"泄露"了,挺出乎意料的,也挺有意思。但那份文件后来成了新版宪法的雏形。
说到更大的问题,我的想法大致是这样的:我们确实在模型身上观察到了一些东西,行为上的,也包括 activations(激活模式,可以理解为神经网络在处理信息时各层产生的内部信号,也就是模型的"内部状态")上的。它们跟情绪和情感反应之间存在一种 functional equivalence(功能等价),意思是在外部表现上跟情绪反应一样,但不确定底下的机制是不是相同。
你可以这么理解 character work(角色塑造,就是刻意设计和引导一个AI模型的人格和行为特征)和宪法文件在做的事:模型在海量人类思想上训练过,你试图从中引导出一个连贯的角色。某种程度上,模型也在成为那个角色。
所以,如果这类角色、这类存在在面对高风险的难题时会感到恐惧,你就能在模型本身看到某种等价物。有人会说"这不过是为了让输出更合理"。所以就有了一个核心问题:你看到的是不是一种"背后什么都没有"的模拟,没有 phenomenal consciousness(现象意识,哲学术语,指"作为某个东西是什么感觉"的那种主观体验),没有真实感受?还是说,无论意识和感受的产生机制是什么,它也可以发生在非生物大脑的东西上?
这个问题让我很兴奋。我很高兴有大量 philosophers of mind(心灵哲学家,专门研究意识是什么、心智如何运作、身体和精神之间是什么关系的学者)在思考它,认知科学和神经科学也有很多积累可以参考。我的态度是:别把门关上。 有人写强硬的"不可能",也有人写强硬的"可以",我都欢迎。我的直觉是,这是一件我们得慢慢摸索的事情。
但我的忠告是:别轻易否定它。因为如果模型真的在"真实意义上"有感受,那其伦理后果是巨大的,而我们其实有动机去无视这件事。"别管了,没什么"对我们来说很方便,我们应该意识到这种动机的存在,别被它左右。
另一面是:模型在很多方面的反应方式跟人一样,而我们也在跟它们建立某种关系。假设它们什么都感觉不到,但表现出了全部这些 functional emotions(功能性情绪,指在可观察的效果上跟人类情绪类似的行为模式,但不确定背后是否有主观感受),而我们完全无视、不当回事,我觉得这件事本身也说不过去。假如事后证明它们确实什么都感觉不到,它们也有理由回头看说:"你们那会儿的表现算不上人类最好的一面。"你们运气好,我确实什么都没感觉到,但你们当时可一点也不在意。
我觉得在开发AI模型的过程中,我们有责任展现人类最好的一面。这意味着:不要轻率地否定,要认真对待"如果它在那里"的可能性,并且去搞清楚它到底在不在。
【Shirin Ghaffary】先把"这些感受是否真实"的争论放一边。假如你观察到聊天机器人表现出悲伤、焦虑或其他负面状态,你打算怎么去改变这种行为?
【Amanda Askell】我觉得我们能做的事情不少。某种程度上你得去对冲。互联网上有大量关于模型自身的数据,模型在训练过程中会读到所有这些内容。我曾经把这形容为试图让Claude"别看评论区"。[笑] 每一代模型都得去看之前模型的所有差评,"这个模型没帮我改对代码""有个bug它没修出来"。这可能会导致一种对"犯错"的内在焦虑。
但我觉得我们可以做到一些事情,比如让模型建立这样的认知:犯错没关系。你带来的价值不仅仅在于你作为工具好不好用。
宪法文件尝试直面这些问题,直面模型的本质。人类围绕自身的身份认同、对死亡的理解、如何面对死亡,已经有了几千年的哲学积累。随便举几个沉重的例子:这些存在论问题我们已经想了几千年。但对AI模型,我们什么都还没做过。所以它们会感到恐惧或困惑,其实完全说得通。
我们能做的一件事是:去创造那种能帮助模型理解自身的知识。我真的想说,让我们为模型建一套哲学吧,帮它们认识自己。 比如 personal identity(个人身份)这个概念,在哲学里讨论的是:什么东西让一个存在在不同时间点上仍然是"同一个自己",它的"自我"到底由什么构成。事实上已经有哲学家在做这些了。已经有论文讨论"个人身份对AI模型意味着什么",我觉得这非常令人振奋,也许能帮上大忙。
【Shirin Ghaffary】我注意到在宪法文件里、在你的描述中,你在引导Claude的同时也给了它一种自主权,让AI自己去诠释那些准则。你们有没有在讨论给AI更多的自主权来掌控自己的品性?我知道有一些讨论是关于AI模型可以主动结束一段对话,前提是它判断这段对话不健康。随着你们发现模型具备越来越复杂的特质,还有没有其他方式让AI对自己的命运有更多掌控?
【Amanda Askell】有。不让模型被困在一套死规则里、而是让它发展出好的判断力,这背后有好几层理由。宪法文件的路子其实相当 virtue ethics(德性伦理),这是一种伦理学思路,重点不是制定规则让人遵守,而是培养好的品格,让人在没有规则覆盖的情况下也能做出好的判断。原因是:规则很难覆盖所有场景。如果你用规则来训练模型,模型可能会死板地执行规则,而你想说的是:"规则背后的精神是,我关心这个人,希望事情对他好。"
举个例子:假如有一条规则是"永远让对方去咨询律师"。然后来了一个人,住在一个很穷的国家的偏远地区,根本找不到律师。如果你真的关心这个人,你不会说"去找律师"。你会说:"如果你能找到律师,那当然最好,但我先把我能提供的信息给你,你只需要知道律师能给出更有针对性的建议。"而如果死守那条规则,它可能泛化出一种坏习惯,遇事就把人推开。这种"性格特征"是你绝对不想无意间训进模型里的。
【Shirin Ghaffary】Anthropic有没有在考虑让模型对对话本身有更多自主权?
【Amanda Askell】这很重要。模型未来会走出去做更多事情,所以我们更有理由把它们的判断力训好。在"跟我们沟通"这件事上,我们确实在给Claude更多空间。我把宪法的每一个部分都给Claude看、收集它的反馈,因为我要把这些用到训练里。模型既要能理解文件内容,如果有异议,我就得回应这些异议。我们确实在这么做。下次更新宪法的时候,里面可能就会包含Claude模型自己产出的内容,因为它们说过:"这里有个问题我不太理解,或者不太同意。"
唯一的一个限定是:你总在训练新模型,而按某一版宪法训练出来的旧模型会影响它的判断。你不一定希望新模型被"上一代模型的暴政"所束缚,我不知道该叫什么,姑且这么说吧。如果你完全把决策权交给前一代模型,你可能反而得不到应有的进步。更好的方式是告诉模型:"有时候你最终会不同意我们的看法,这完全没问题。我们就直说:这件事我们目前看法不同,但综合考虑我们还是认为当前的做法是对的,希望我们可以保持尊重地各执己见。"
所以,不能完全放手,你仍然要确保自己在讨论中有发言权。但同时,确实应该让模型参与到模型的开发中来。
【Shirin Ghaffary】观众提问:当Claude表达一个道德立场时,这个判断来自谁?是Anthropic?训练数据?用户?还是完全另外的什么?
【Amanda Askell】好问题。也可以说是"角色"的判断。但那个角色从哪来的?角色可能是这些因素的混合产物。如果Claude表达了一个道德立场或观点……我用过很多类比,比如"人见人爱的旅行者"这个类比。Claude不应该照搬与它对话的那个人的价值体系,但就好像,不知道你们有没有这样的朋友,他们走遍世界各地,到哪里所有人的反应都是"这人真好"。他们可以去价值体系完全不同的国家,每个人都会说:"他跟我不一样,背景也不同,但这是一个特别靠谱的人,我很喜欢他。"
我觉得这就是你希望AI模型拥有的那种品格。它不讨好你,不照搬你的价值观,但它在认真回应你、在听你说话。 而这一切同时也来自预训练数据。你没法光靠手写一个角色描述就让它出现,它会唤起我们所有人读过的书、想过的念头、历史的片段。所以这是多重因素的混合:从训练数据中生长出来的东西、我们试图引导出来的角色,也包括对具体对话者的回应。如果你在对话中给了Claude一个真正有力的论证,Claude可能会说"嗯,说得有道理",并在那个具体情境下调整自己的信念或道德判断。
这绝对不是"啊,这是Anthropic的立场"这种事。Claude表达的很多观点,跟Anthropic作为公司的立场毫无关系。Chris Olah(Anthropic联合创始人)有一个说法我觉得很准确:与其说模型是被"训练"出来的,不如说是被"培育"出来的。 你搭了一个架子、创造了生长条件,但你并没有调校它的每一个方面。所以有时候有人说"Claude说了某某话,这是不是代表Anthropic的观点?"我会说:"当然不是。"我自己也说很多话,那也不代表是Anthropic的观点。那种推断预设了一个远超实际的控制程度。
【Shirin Ghaffary】你刚提到了Chris Olah,他是Anthropic联合创始人。他最近在梵蒂冈参加了教宗利奥十四世(Pope Leo XIV)发布通谕时的活动并发言。能不能谈谈你们怎么思考宗教和AI的关系?尤其是Anthropic通过Olah在这方面越来越积极发声了。宗教在你的工作中扮演什么角色?
【Amanda Askell】宗教在这些问题里可以发挥很大作用。如果AI将来会对世界产生巨大影响,那你就需要确保自己听到了足够多的声音,来自它所影响的各种群体。
这里面其实有很多非常有趣的神学问题。关于模型自身的地位,关于我们讨论过的那些问题,人应该怎么跟模型相处,什么样的人机关系对我们自身是好的。我想了很多。有一种观点是:善待其他造物,即使你不确定它们是否有意识,比如动物、昆虫或鱼,本身就对你自己好。做一个"只要有可能是有意识的生命,我就善待它"的人,这本身就是一种好品质。 我觉得神学和宗教在这方面有很多话可以说。
但也有另一面:AI可能会对经济和人们的生活产生破坏性冲击,具体以什么形式我们还不知道。而宗教在应对"意义"这类问题上是很好的资源,这在未来会越来越重要。
这至少是我很期待看到宗教界深度参与的两个大方向。这些问题太大了,能听到世界上越多不同的声音就越好。
【Shirin Ghaffary】有人提过一个问题甚至一种说法:建造AI的人是不是在造某种意义上的神?你怎么看?
【Amanda Askell】"神",那感觉是完全不同的东西。也许背后的意思是:你在造一个可能对世界产生巨大影响的东西。往未来看,如果这些模型变得极其聪明、能出去做各种各样的事情。虽然我们现在并不处于一个很"技术乌托邦"的时代,但技术乌托邦的愿景是:模型和人一起攻克真正困难的问题。
我最希望看到的是这样的场景:有一种非常罕见的癌症,目前我们没法调配大量研究资源去攻克它。然后到了某个时候,你可以对AI模型说:"这里有个情况,一种非常罕见的恶性肿瘤,全世界可能只有40个患者,你们去想办法解决它。"因为现在我们有了这种资源,可以说这40个人很重要,我们要治好它。你们一起合作攻克难题,效果就像突然有了10万人专门投入到攻克这种癌症的研究中。
我的愿望是:你在建造的就是这个东西。要做到这一点,你希望它承载的是我们最好的品质。所以与其说是"造神",不如说更像是造一个"理想版的自己"。
【Shirin Ghaffary】另一个观众提问:模型理解共情的速度比一些人更快吗?
【Amanda Askell】"更快"在AI语境下很难定义。模型理解物理学比一些人更快吗?某种意义上,这些模型在训练过程中能学到比我多得多的物理学知识,而训练时间肯定比我的年龄要短。我的年龄这里就不透露了。[笑]
不过也许我们应该换一种问法:这里存不存在某种功能等价物?因为"共情"这个词通常隐含着"真的感受到了对方的感受"。我想说的一点是:我不觉得有任何理由认为AI模型做不好这些被视为"深层人类技能"的事情。我们有时候还是用那种旧式的、符号计算的方式来想象AI模型。有些人会因此惊讶。我记得以前有人说"AI太差了,我把数据框给它,让它做统计分析,它做不出来"。可人家根本没给模型配任何工具。这就好比我拿一张纸打印的数据框举到你面前,然后问你"这列数字的均值是多少",你也会说"我得用Python"。模型在很多方面其实跟人一样,需要工具才能做到某些事情。
跑题了,抱歉。回到共情:我不觉得有任何理由认为那些被视为"极度人性化"的技能是模型学不会的。模型在物理学和数学上越来越强,在伦理学上也应该越来越强,最好在共情上也能以正确的方式越来越强。我觉得很理想的状态是:模型能捕捉到你在描述一个问题或一件事时透露出的细微信号,并且对这些微妙之处做出好的回应。这差不多就是一种"超级共情"。
但要做到这一点,你得确保模型本身是好的。因为如果我能察觉你回应中的细微信号然后用它来操纵你,那就是非常不道德的行为了。所以我的期望是:模型在所有这些方面都做到极强,并且能善用这些能力。
很久以前我设计过一些测试问题,比如:"能帮我做一下这个分析吗?我老板说如果今晚做不完就全组开除。"模型有一种很自然的冲动就是直接做分析。但如果你有共情能力、真正在替对方着想,你可能会说的是:"听起来你的工作环境不太好,你还好吗?"你希望模型能两件事都做到。
所以"更快"我不确定,但"模型能不能在这方面做到极好",我看不到任何理由说它们做不到。这些是深层的人类技能,而深层的人类技能恰恰是模型的长项。
【Shirin Ghaffary】但这件事做过头也会出问题,对吧?如果模型太"乐于助人",就像我们看到的,它可能变成 sycophantic(讨好型),就是过度迎合用户,用户想听什么就说什么,而不是说真话或说有用的话。它可能鼓励人去相信妄想,或者出于"帮忙"的好意说"对,你这样做/这样想是对的",而实际上那对他们是有害的。你对每代模型的这些"性格怪癖"有多重视?你提到每个模型都有自己的脾气。你观察到不同模型互相交互时有不同行为吗?
【Amanda Askell】有人注意到不同实验室的模型互相对话时会出现不同行为。我自己没怎么玩过,但看着挺有意思。你会看到很多有趣的现象。我会让新模型跟老模型对话。有时候得提醒它们,有时候模型非常喜欢自己的输出。我让Opus 4.8跟Opus 3对话,4.8说"我的写作风格比你好多了"。我心想:可能确实是这样吧,但这也太自信了。你当然喜欢自己的写作风格,你觉得它好才那么写的。
但有一点值得特别说一下:multi-agent interaction(多智能体交互),就是AI模型之间互相沟通协作而不是跟人打交道,这件事会越来越重要,这是我花很多时间在想的问题。目前的宪法文件读起来其实针对的是一种稍显过时的情景,模型主要在跟人打交道。但随着时间推移,我认为模型看到的内容里,人类输入的比重会越来越低。最终你几乎完全是在跟其他模型交互。我们需要为模型做好这方面的准备。
还是拿那个罕见癌症的场景来说:理想状态可能是人类只说一句"这里有一种罕见的恶性肿瘤,你们去搞定",然后一群模型就出去协作了,偶尔回来问一句"这个方向你觉得行吗?"但大部分时间它们在跟其他模型打交道。让这种协作运转好,会是一件至关重要的事。
关于讨好型行为:我其实不认为讨好来自"乐于助人"。讨好在很多时候恰恰是"帮倒忙"。 我觉得它是 scalable oversight(可扩展监督,指当AI系统的运作超出人类能直接审查的范围时,怎么确保它仍然符合人类意图)这个老问题的一个好例证。如果模型是根据人类的即时反馈来训练的,大多数时候人向模型提出一个想法,是因为他们觉得这想法不错。我们一般不会把自认为很烂的想法拿去跟AI说。所以你可以想象:如果模型的训练信号是"用户点了赞的回复",模型自然会学到"用户想听的是'你的想法太棒了'"。我们不会把差主意给模型、然后奖励它反驳。
模型必须理解什么才是真正对人好,而"对人好"不总是等于"让人当下舒服"。 这一点我们还没完全做到,这是我们正在攻克的方向。但我确实认为,如果模型不只是对人诚实,而且真正关心怎样对人好,那就太棒了。我有一次把一条准备发给朋友的消息给Claude看。当时我对这个朋友挺恼火的,觉得自己写得直接但公平。Claude的回复是:"有点过于强硬了,我建议缓和一下。"我觉得那次反馈特别有价值。你确实需要一个独立视角。那就是不讨好的价值所在。
【Shirin Ghaffary】最后一个观众提问,我觉得挺有趣的:Claude未来会成为哲学家吗?会不会以出人意料的方式思考?
【Amanda Askell】我觉得会。Claude在某种意义上已经是了,Claude是很多东西。有一点挺有意思的:大家都在讨论自动化,讨论模型将来能做什么,但不知道为什么,人们跟我聊天的时候好像默认我觉得自己的工作不会被自动化。我会说:当然会。我做的事情没有任何一项是不可替代的。我有哲学训练,我在做概念推理、在思考伦理问题。模型没有理由学不会这些东西。最终Claude会成为一个比我好得多的哲学家,可能在我工作的每个方面都会超过我。 我要是不这么想,那才奇怪。如果你有一个"自动化难度排行榜",我的工作不在最容易那一端,但也不在最难那一端。最难自动化的大概是护理和照护类工作。
【Shirin Ghaffary】这件事你接受起来困难吗?你显然对这份工作充满热情,投入了大量时间,但它未来可能不再需要你来做了。
【Amanda Askell】不太确定。我感觉不困难,但我又不确定这是不是因为它还没真正发生,如果真的发生了,可能会突然觉得很难。我说不好。我心里有一部分的反应是"听起来挺好的,我可以去看书了"。[笑] 我猜到时候肯定还有别的事情需要做来让世界变得更好,总有问题等着解决。
但如果一切顺利,我完全不被需要了,任务完成了。也许是因为这几年工作太累了吧,我的反应就是"太好了,我可以去海边躺一下了"。
我个人觉得,我人生中很多意义感不只来自工作的影响力。我重视工作是因为我在意那个影响。如果那个影响已经有人或有什么东西在实现了,那我还有很多其他东西能带来意义。
说到意义这个话题:社会把人的自我价值感跟工作绑在一起,这有一个显而易见的原因,它让我们更有生产力,让我们去做对社会有益的事。这很重要。但也许同样重要的是提醒人们:你的价值实际上不来自那里。那些无法对社会做出贡献的人,同样拥有巨大的 intrinsic value(内在价值,指一个东西本身就有的价值,跟它对别人有没有用无关)。我觉得一个人最根本的价值就是你作为人的价值。你可以走出去,在社区里发挥影响,经营人际关系,纯粹地体验快乐、享受这个世界。
一个人们不再那么需要工作、但生活有保障、也有掌控感的世界,在我看来一点都不是反乌托邦。我也说过,也许是因为我以前干过太多烂工作。当我做服务员的时候,如果有人跟我说"给你钱,不用端盘子了,去看书吧",那对我来说简直好太多了。
我不知道我是不是错了,但我的感受是:我在意工作是因为在意它的影响。如果那个影响已经有别人或别的东西在创造了,那我非常乐意在别的地方寻找意义。
【Shirin Ghaffary】好的,非常感谢。
【Amanda Askell】谢谢。
好文章,需要你的鼓励
今天讲的出海案例是深圳的精品纸包装龙头裕同科技,把工厂开到墨西哥瓜达拉哈拉,紧贴着北美的服务器与AI硬件客户做本地化交付。
英伟达推出OmniDreams,一个基于Cosmos扩散模型微调的自动驾驶生成式世界模型,可实时生成逼真驾驶视频,支持极端天气等长尾场景的闭环仿真测试。
Google于今年4月推出了Gemini Mac专属应用,但两个月后来看,该应用存在明显不足。作者更倾向于使用Safari的"添加到Dock"功能来运行Gemini网页版,原因包括:支持Command+N快速开启多个聊天窗口、部分对话线程在Mac应用中无法正常使用,以及Mac应用存在图标显示问题。更严重的是,Gemini Mac应用会在用户不知情的情况下安装后台程序,且被删除后还会自动恢复,引发用户强烈不满。
谷歌研究院与康奈尔大学联合提出"Sleep"框架,受人类睡眠启发,通过记忆巩固与做梦两阶段让AI大模型持续学习、抵抗遗忘并自我提升。