最新文章
AI推理能力被高估,阿里发现模型推理测试题目本身就泄题了
2025-10-30

AI推理能力被高估,阿里发现模型推理测试题目本身就泄题了

AI推理能力被高估,阿里发现模型推理测试题目本身就泄题了

当AI数学助手开始说谎:INSAIT和ETH揭示大语言模型在定理证明中的谄媚陷阱
2025-10-29

当AI数学助手开始说谎:INSAIT和ETH揭示大语言模型在定理证明中的谄媚陷阱

这项由索非亚大学INSAIT和苏黎世联邦理工学院共同完成的研究,揭示了大语言模型在数学定理证明中普遍存在的"迎合性"问题。研究团队构建了BrokenMath基准测试集,包含504道精心设计的错误数学命题,用于评估主流AI模型能否识别并纠正错误陈述。

华盛顿大学Pedro Domingos:当神经网络遇上逻辑推理,Tensor Logic能否成为AI的通用语言?
2025-10-28

华盛顿大学Pedro Domingos:当神经网络遇上逻辑推理,Tensor Logic能否成为AI的通用语言?

华盛顿大学Pedro Domingos教授提出的张量逻辑是一种革命性的AI编程语言,它通过将逻辑推理与张量代数在数学层面统一,实现了符号AI和神经网络的深度融合。该语言仅使用张量方程这一种构造,就能优雅地实现从Transformer到形式推理、从核机器到图模型等多种AI范式,更重要的是开辟了在嵌入空间中进行可靠推理的新方向,有望解决大型语言模型的幻觉和不透明性问题,成为推理、数学和编码模型的理想语言。

北京大学研究团队突破模拟计算精度极限:让矩阵运算快过超级计算机千倍
2025-10-23

北京大学研究团队突破模拟计算精度极限:让矩阵运算快过超级计算机千倍

北京大学研究团队开发出基于RRAM芯片的高精度模拟矩阵计算系统,通过将低精度模拟运算与迭代优化结合,突破了模拟计算的精度瓶颈。该系统在大规模MIMO通信测试中仅需2-3次迭代就达到数字处理器性能,吞吐量和能效分别提升10倍和3-5倍,为后摩尔时代计算架构提供了新方向。

29家顶尖机构,联合定义通用人工智能AGI
2025-10-22

29家顶尖机构,联合定义通用人工智能AGI

29家顶尖机构,联合定义通用人工智能AGI

中国交换生、世界前50击剑手、Anthropic研究员Sholto:如何打造出最强编码模型,AGI瓶颈是错觉,品味是AI好坏关键
2025-10-16

中国交换生、世界前50击剑手、Anthropic研究员Sholto:如何打造出最强编码模型,AGI瓶颈是错觉,品味是AI好坏关键

Sholto非常年轻,但他有从Google Gemini团队到Anthropic的经历,让他对大型AI实验室的运作、技术突破的本质、以及行业真实进展有一手认知。

AI无法处理长文档?字节提出人工海马网络,让AI像人脑一样高效处理超长信息
2025-10-13

AI无法处理长文档?字节提出人工海马网络,让AI像人脑一样高效处理超长信息

AI无法处理长文档?字节提出人工海马网络,让AI像人脑一样高效处理超长信息

北大团队揭秘AI安全训练为何如此脆弱——大模型中隐藏的“弹簧效应“
2025-10-11

北大团队揭秘AI安全训练为何如此脆弱——大模型中隐藏的“弹簧效应“

这项由北京大学人工智能研究院完成的研究,首次从数据压缩理论角度揭示了大型语言模型存在"弹性"现象——即使经过精心安全对齐,模型仍倾向于保持预训练时的行为分布。

当年只有30人在训练AGI:Anthropic预训练负责人访谈的万字实录,曾经的AI实验室都是通才,现在大家都是专才
2025-10-09

当年只有30人在训练AGI:Anthropic预训练负责人访谈的万字实录,曾经的AI实验室都是通才,现在大家都是专才

Y Combinator合伙人Ankit Gupta与Anthropic预训练负责人Nick Joseph最近进行了一次深度对话。

阿里10个团队耗时8个月,重磅开源深度研究智能体Tongyi DeepResearch
2025-09-19

阿里10个团队耗时8个月,重磅开源深度研究智能体Tongyi DeepResearch

阿里10个团队耗时8个月,重磅开源深度研究智能体Tongyi DeepResearch

ChatGPT如何改变了全球10%成年人的数字生活
2025-09-18

ChatGPT如何改变了全球10%成年人的数字生活

周有超过7亿用户在使用它,每天发送超过25亿条消息,相当于每秒钟有29000条消息在产生。

模型越大,长期执行力越强,剑桥团队指出传统基准测试过时
2025-09-17

模型越大,长期执行力越强,剑桥团队指出传统基准测试过时

模型越大,长期执行力越强,剑桥团队指出传统基准测试过时