The Moonshot Podcast发布了一期深度访谈视频,X公司"创始人"Astro Teller与Google DeepMind首席科学家Jeff Dean进行了一场近一小时的对话,回顾了Google Brain项目的早期历程。
Jeff Dean可能是硅谷最被低估的"架构师"之一。不是因为他的技术不够牛,恰恰相反,连那些工程英雄都把他当作偶像。而是因为他总是在建好一座大厦后就悄然离开,去寻找下一片空地。
他在Google做过搜索算法、做过BigTable和Spanner这样的存储系统,又创立了Google Brain,每次都是从零开始,每次都改变了整个领域的游戏规则。看完这期播客,我的感觉Jeff有很强的问题驱动特征,一个问题,往往带来一个重大技术方向的价值,比如语音识别带来的用户算力需求,直接催生了TPU。
接下来我们就讲故事了。
有个细节很有意思。Jeff说他小时候搬了11次家,上了11所学校,唯一不变的是他的乐高积木总是跟着搬家车一起到达下一个地方。这种不断重新开始、不断建造的人生模式,似乎从9岁就开始了。当时他爸爸从杂志背面看到一个电脑套件的广告,可以自己焊接组装。那是1970年代末,比Apple II还早一年多。最初这台机器只有闪烁的灯光和前面板的开关,后来有了键盘,再后来有了BASIC解释器。Jeff从一本印刷的书上抄下101个BASIC游戏程序,一行一行地输入,然后开始修改它们。
这让我想起文艺复兴时期的工匠们。他们不是站在高处指挥的建筑师,而是亲手雕刻每一块石头的人。Jeff就是这样一个数字时代的工匠,只不过他雕刻的是算法和系统架构。而Google Brain的故事,就像是他用2000台电脑搭建的一座数字大教堂。
1、"我有点爱恨交织的关系"
当Astro问Jeff最常用什么编程语言思考时,Jeff的回答出人意料地坦诚:"我可能用C++最多,因为它是一种非常底层、性能导向的语言,我做的很多分布式系统工作都需要这种底层语言。但我和它有种爱恨交织的关系。它完全不安全,你可以覆盖内存,而更现代的语言有很多好的特性。"
他提到在研究生期间,导师发明了一种叫Cecil的语言,具有非常好的面向对象特性和模块化设计。他们用Cecil写了一个编译器,10万行Cecil代码,后端可以生成3000万行C代码。"那种语言的表达力和标准库设计其实相当不错,但可能全世界只有50个人用过。"
2、1990年,神经网络的第一次春天
Jeff第一次真正接触人工智能是在明尼苏达大学的大四。那是1990年,他选修了一门分布式和并行编程的两学期课程。"作为课程的一部分,我们接触到了神经网络,因为它们是高度并行的计算形式。"
那时正值神经网络的一个小高潮期。"80年代末90年代初,神经网络有过一些兴奋点,因为它们似乎能解决其他方法无法解决的有趣小规模问题。"Jeff解释说,神经网络的抽象很简单:人工神经元从下面获取输入,决定是否激发以及激发的强度,然后构建更复杂的系统。"当时3层的神经网络就算深了,现在我们在做100层的神经网络。"
他找到教授Vipin Kumar,申请做一个关于并行神经网络的毕业论文。"我想,也许我们可以用系里的32处理器机器来训练更大的网络,而不是用一个处理器。结果发现,我们需要的不是32倍的计算能力,而是100万倍。"
即便如此,Jeff还是实现了两种并行化神经网络训练的方法:一种是数据并行(他当时叫"模式并行"),把输入分成不同批次,每个处理器有网络的副本但只看到部分数据;另一种是模型并行,把大网络切成片,所有数据通过所有片。这些概念在30多年后的今天仍然是深度学习的核心。
3、在微厨房遇见吴恩达(Andrew Ng)
2011年,Jeff正在Google做Spanner大规模存储系统。项目逐渐稳定,他开始寻找下一个要做的事情。就在这时,他在Google的微厨房碰到了Andrew Ng。
"Andrew是斯坦福的教授,我想是你或Sebastian把他带到Google X的。他每周来一天。我问他,'你在这里做什么?'他说,'我还不知道。但我的学生在斯坦福开始在神经网络上获得有趣的结果,用在语音和视觉应用上。'我说,'真的吗?我喜欢神经网络。我们应该训练真正大的网络。'"
这就是Google Brain团队的起源。Andrew有一个"秘密":网络越大,效果越好,但没人相信他。而Jeff正好是那个能把这个想法规模化的人。"Andrew的描述是,'我们需要的是Jeff。我们需要让这个项目对Jeff有足够的吸引力,这样1+1就能等于10万。'"
他们决定用Google数据中心的计算机来做分布式神经网络训练系统。当时Google的数据中心还没有GPU,所以他们用了2000台计算机、16000个CPU核心。"我们训练了一个20亿参数的计算机视觉模型。"
4、YouTube上的猫
最著名的突破是那只"平均猫"。团队用无监督学习算法,从YouTube随机抽取了1000万帧视频进行训练。"这基本上是在为YouTube的随机照片寻找一种压缩算法。"Jeff解释道。
模型的最高层有4万个神经元,研究人员可以观察是什么让这些神经元激发。"有趣的是,模型通过无监督学习基本上发明了'猫'的概念,因为在优化算法中,为与图像底层像素中的'猫性'高度相关的特征分配一些容量是有意义的。"
除了猫,他们还发现了其他特征:行人的背影、有点诡异的人脸。"如果你平均那些让特定神经元最兴奋的东西,就可以创建出让这个神经元最强烈激发的输入模式。这就像进入某人的大脑,碰巧能够刺激他们的'祖母神经元',然后他们开始想起祖母。"
在ImageNet 20000类别的基准测试中,这个巨型神经网络实现了60%的相对错误率降低,比之前的神经网络大50倍。在语音识别上,他们用800台机器训练5天,实现了30%的词错误率相对改善。Jeff强调:"这相当于20年语音研究进展的总和。"
5、如果1亿人每天对手机说话3分钟
2013年,语音识别的突破让Jeff开始担心一个"幸福的烦恼"。他做了一个思想实验:"如果语音识别效果很好,人们会开始更多地使用它。以前每5个词就有一个错误,听写到手机上然后纠正很多词其实并不省时间。但如果每30或40个词才有一个错误呢?"
"如果1亿人开始每天对手机说话3分钟会怎样?"Jeff在幻灯片上计算,如果部署在CPU上,"我们每天需要18后面跟28个零的浮点运算。必须有更好的方法。"
这促成了TPU(张量处理单元)的诞生。神经网络有两个很好的特性:主要是线性代数运算(矩阵乘法、向量点积),而且对精度降低有很强的容忍度。"不像高性能计算的数值模拟软件需要64位或32位浮点数,神经网络实际上可以使用非常低的精度。第一代TPU只有8位整数运算,根本没有浮点运算。"
后来的TPU增加了Bfloat16格式。"IEEE有一个16位格式,但对机器学习来说不太好,因为它同时失去了一些尾数位和指数位。对神经网络来说,你关心的是能够表示非常宽的值范围,而不太关心小数点后第五位。"
6、注意力就是你需要的一切
Jeff详细介绍了语言理解的三个突破。首先是词的分布式表示:"不是把'纽约市'表示为字符,而是用一个千维向量来表示它在高维空间中的内在含义和出现的上下文。"
这就是Word2Vec算法的魔力:"国王减去男人加上女人等于女王。在高维空间中,方向变得有意义。从公牛到母牛的方向,与从国王到女王的方向相同,与从他到她的方向相同。"
第二个突破是序列到序列模型,由Oriol Vinyals、Ilya Sutskever和Quoc Le开发。这个模型使用LSTM(长短期记忆网络)来处理序列。"你可以吸收一个句子,最终得到一个向量,代表模型对该句子的理解。然后用这个向量来初始化你要生成的序列的解码。"这不仅适用于机器翻译,还适用于医疗记录、基因组序列等。
第三个突破是Transformer和注意力机制,由Noam Shazeer等八位合著者开发。"不是在每个词更新单个向量,而是记住所有向量,所有我们经历过的中间状态,然后关注所有这些。"
虽然这在序列长度上是N平方的复杂度,但有一个巨大优势:"处理文本时,你可以并行处理。不像LSTM有顺序瓶颈,这里你可以取1000个词并行处理,计算所有需要的状态然后关注它。这更适合现代ML处理器的高度并行矩阵单元。"
7、从制造到设计的转变
谈到AI的未来,Jeff认为我们正在经历一个根本性转变:"我们将看到从人类制造东西到人类更多地指定他们想要什么的巨大转变。这不一定更容易,但我认为会更有趣。它将为人们释放大量创造力。"
他举了Notebook LM的例子:"你可以输入一堆PDF,说'请为我生成一个播客,用两个AI生成的声音来讨论这份公司季度报告'。模型在幕后实际上可以做大量工作。"
当Astro问他个人如何使用AI时,Jeff说:"我用它来探索新领域。我会说,'告诉我某个我不太熟悉的新领域的令人兴奋的新趋势'。它会给我一些信息,然后我可以提出后续问题。"
他强调个性化的重要性:"这种通用世界知识与你自己的个人状态结合起来将是一个非常重要的趋势。比如,'你能帮我在亚利桑那州找到下周我可能喜欢的餐厅吗,类似于我去年在东京去过的那些?'它应该在你的许可下知道你做了什么,并能够提供非常个性化的建议。"
8、100万个老师和一个学生
在讨论AI的社会影响时,Jeff提出了一个有趣的愿景:"我的一个观点是,我们如何能有1亿个老师和一个学生,或者说几个能力很强的模型,一直被人们教授新东西,然后每个人都从这些教学中受益。"
他对教育特别兴奋:"在学生教师比例很大的地区,你可以为每个学生配备一个个性化导师,帮助他们学习任何感兴趣的东西。我认为这将是令人难以置信的变革。"
在医疗保健方面:"连接那些对个体医生可能不太明显但在训练模型以获得许多医生经验时非常明显的模糊趋势。"
但他也认识到挑战:"虚假信息不是新问题,但突然间你可以制作逼真的声音和逼真的视频,让某人说他们实际上没有说的话。"这就是为什么他与其他8位作者共同撰写了一篇关于"塑造AI"的论文,探讨AI发展中的社会问题。
9、理解他们的理解
关于理解神经网络的挑战,Jeff指出:"这些模型现在如此之大,我们基本上已经放弃了像理解代码那样理解这些模型。我们现在理解它们的理解更像是神经科学,我们观察这些数字大脑的部分,试图推断它们为什么做它们所做的事情。"
他认为可解释性研究的一个方向是交互式探测:"如果我想理解你为什么做出某个决定,我会和你对话。我会说,'你为什么选择绿卡?这似乎是个奇怪的选择。'然后你会回复,我可能会提出后续问题。"
"这有点像事后的辩解。仅仅因为我说这就是我这么做的原因,并不一定意味着我相信这就是原因,或者即使我相信,那也不一定是我当时的真实动机。"
10、五年后的Jeff Dean
当被问到接下来五年的计划时,Jeff的回答依然聚焦于实际问题:"我想花一些时间弄清楚如何让能力极强的模型更具成本效益,能够部署给数十亿人。现在,我们最有能力的模型在计算成本方面相当昂贵。"
"我有一些正在酝酿的想法,可能行得通,也可能行不通。但这就是尝试朝一个方向前进的美妙之处。有时你确实到达了你认为要去的地方,有时你走到一半就偏离了一点,但在过程中你会产生有用的东西。"
这很符合Jeff的风格。从11次搬家的孩子,到用2000台电脑训练神经网络的工程师,他一直在建造、离开、然后重新开始。也许这就是真正的"登月精神":不是占据山头,而是不断寻找下一座要攀登的山峰。
三个核心洞察:
Q:为什么Jeff Dean能一次次成功"重新开始"?
A:他有一种罕见的能力组合:既能深入底层细节(比如8位整数运算),又能看到系统全貌(2000台机器的协调)。更重要的是,他不恋栈权力,而是享受从零开始建造的过程。
Q:Google Brain最大的贡献是什么?
A:不只是技术突破,更是证明了"规模"的力量。当学术界还在争论神经网络是否有用时,他们用工业级的资源证明了:只要足够大,它就能工作。这改变了整个领域的思维方式。
Q:AI的下一个突破会在哪里?
A:Jeff暗示了两个方向:一是成本效率(让强大的模型能被数十亿人使用),二是个性化(将通用知识与个人状态结合)。这意味着AI不再是少数人的工具,而会成为每个人的"认知延伸"。
好文章,需要你的鼓励
人工智能代表着第四次工业革命的到来,它不仅是机械化工具,更是全球范围内增强、合作和颠覆的催化剂。AI已深度融入日常生活,在医疗、国防、金融和公共治理等领域发挥变革作用。与以往技术不同,AI能够增强人类决策能力,提升效率和创新。然而,算法偏见、网络安全威胁和隐私问题等风险不容忽视。未来AI发展需要政府、企业和学术界协调合作,建立伦理、法律框架,确保AI成为推动人类进步的积极力量。
腾讯微信AI团队开发的ComoRAG系统通过模仿人脑认知机制,让AI具备了动态记忆和循环推理能力,在长文本理解任务上相比传统方法准确率提升高达11%。该系统采用三层知识组织结构和五步认知循环过程,能够像侦探破案一样主动探索线索、整合信息、构建完整推理链条,特别在处理复杂叙事推理问题时表现优异,标志着AI从信息检索工具向智能推理伙伴的重要转变。
随着现代AI技术对数据中心基础设施提出新要求,"AI数据中心"一词使用日益频繁。然而,这一术语的定义仍不清晰,AI数据中心与传统数据中心的区别并不明显。AI数据中心通常具备更大容量、GPU加速硬件、优化网络设备、高效冷却系统等特征,但这些特性并非AI独有。与其投资专门的AI设施,企业或许应考虑改造现有数据中心来支持AI工作负载。
新加坡南洋理工大学团队开发的4DNeX系统实现了从单张照片生成完整4D动态场景的突破。该技术采用6D视频表示法融合RGB颜色和XYZ空间信息,构建了包含920万帧数据的4DNeX-10M大规模数据集,通过改进视频扩散模型实现15分钟内的高效生成,在动态程度和一致性指标上显著优于现有方法,为虚拟现实、影视制作等领域提供了新的技术路径。