这项由OpenRouter公司团队和Andreessen Horowitz(a16z)投资机构联合开展的研究,于2025年12月发表。这项研究通过分析超过100万亿个真实token的使用数据,为我们揭示了大型语言模型(也就是我们常说的AI聊天机器人)在现实世界中的真实使用状况。有兴趣深入了解的读者可以通过arXiv预印本平台查询这篇论文。

这项研究为什么值得关注?过去一年里,大型语言模型的世界发生了一个标志性的转变。2024年12月5日,OpenAI发布了第一个被广泛应用的"推理模型"o1,这标志着AI从单纯的文字生成转向了多步骤的深度思考。然而,尽管技术进步飞速,我们对这些模型在现实世界中如何被使用却了解甚少。研究团队利用OpenRouter平台这个独特的观察窗口,分析了横跨不同任务、地区和时间的海量真实互动数据,为我们揭开了AI使用的神秘面纱。
研究发现了一些令人意外的结果。开源模型的采用率远超预期,创意角色扮演的流行程度甚至超过了编程等生产力任务,而且AI正在从简单的问答工具转变为能够使用工具、进行多步骤推理的"智能代理"。此外,研究还发现了一个有趣的现象,他们称之为"灰姑娘的玻璃鞋效应",即早期用户一旦找到合适的模型,就会持续使用,远比后来者更加忠诚。
开源与闭源模型之间的平衡
在人工智能的世界里,模型大致分为两种:开源模型和闭源模型。开源模型就像是公开的菜谱,任何人都可以查看、修改和使用;而闭源模型则像是秘方,只有开发公司知道里面的配方,用户只能通过付费来使用。这项研究发现,尽管像OpenAI和Anthropic这样的公司推出的闭源模型仍然占据主导地位,但开源模型的使用量在过去一年中稳步增长,到2025年底已经占据了约三分之一的市场份额。

这个增长并非偶然。每当有重要的开源模型发布,比如DeepSeek V3和Kimi K2,使用量就会出现明显的上升,而且这些上升趋势会持续下去,说明用户真的在生产环境中使用这些模型,而不只是尝尝鲜。更引人注目的是,中国开发的开源模型表现尤为抢眼。在2024年底,中国开源模型的每周使用占比还不到百分之二,但到了2025年某些周份,这个数字已经接近百分之三十。在整个一年的时间窗口内,中国开源模型平均占据了约百分之十三的周使用量,而其他地区的开源模型占百分之十四左右,闭源模型则保持在百分之七十。
中国开源模型的崛起反映了不仅仅是竞争力的提升,更是快速迭代和密集发布的成果。像通义千问(Qwen)和DeepSeek这样的模型保持着定期更新,能够快速适应新出现的工作负载。这种模式实质性地重塑了开源领域,推动了全球AI竞争格局的演进。
目前的趋势表明,AI生态系统形成了一种双重结构。闭源系统继续定义着可靠性和性能的上限,特别是在受监管或企业级工作负载方面。而开源模型则凭借成本效益、透明度和可定制性,成为某些工作负载的吸引选择。目前市场达到的平衡点大约是开源占百分之三十。这两种类型的模型并非相互排斥,而是在开发者和基础设施提供商越来越青睐的多模型体系中相互补充。
深入来看开源模型的具体玩家,我们会发现市场格局发生了戏剧性的变化。在2024年底,市场高度集中,DeepSeek家族的两个模型(V3和R1)持续占据超过一半的开源token使用量。但这种近乎垄断的结构在2025年夏季之后彻底瓦解。市场变得既更广阔又更深入,使用量显著分散。像通义千问的模型、Minimax的M2、月之暗面的Kimi K2,以及OpenAI的GPT-OSS系列等新进入者都快速增长,往往在发布后几周内就实现了生产规模的采用。这表明开源社区和AI初创公司可以通过引入具有新颖能力或更高效率的模型来实现快速采用。

到2025年底,竞争格局已经从近乎垄断转变为多元化组合。没有单一模型超过开源tokens的百分之二十五,token份额现在更均匀地分布在五到七个模型之间。这个变化的实际意义是,用户在更广泛的选项中找到了价值,而不是默认选择一个"最佳"选择。
关于模型大小的问题,研究还发现了一个有趣的现象。一年前,开源模型生态系统主要是在两个极端之间权衡:大量小型、快速的模型和少数强大的大规模模型。然而,过去一年的数据显示市场出现了显著成熟,一个新的增长类别出现了:中型模型。研究将模型按参数数量分类:小型(少于150亿参数)、中型(150亿到700亿参数)、大型(700亿或更多参数)。

数据显示,尽管各类模型的数量都在增长,但使用量发生了显著转变。小型模型正在失宠,而中型和大型模型正在获取这些价值。小型市场整体使用量在下降,这个类别特点是高度分散,没有单一模型能长期占据主导地位。相比之下,中型市场讲述了一个清晰的市场创造故事。这个细分市场直到2024年11月通义千问2.5 Coder 32B发布时才真正建立起来,随后随着Mistral Small 3和GPT-OSS 20B等强有力竞争者的到来而成熟为一个竞争性生态系统。这个细分市场表明用户正在寻求能力和效率之间的平衡。

至于开源模型被用来做什么,研究发现了两个特别主导的领域:创意角色扮演和编程辅助。这两个类别合计占据了开源模型使用量的大部分。角色扮演占据了超过百分之五十的开源模型使用,这强调了一个用例,即开源模型具有优势:它们可以用于创造力,并且通常较少受到内容过滤器的约束,使它们对幻想或娱乐应用特别有吸引力。编程部分(大约占百分之十五到二十)表明许多开发者利用开源模型进行代码生成和调试,这可能是由于像通义千问-Coder、GPT-OSS家族和GLM-4.6等非常强大的代码模型。
AI代理推理的兴起
AI使用方式正在经历一个根本性的转变,从单次文本生成转向多步骤、工具集成和推理密集型的工作流程。研究团队将这种转变称为"代理推理"的兴起,模型不再只是生成文本,而是通过规划、调用工具或在扩展的上下文中进行交互来执行任务。
首先看推理模型的崛起。数据显示,通过推理优化模型路由的token份额在2025年急剧攀升。在2025年第一季度初几乎可以忽略不计的份额现在已经超过百分之五十。这种转变反映了市场的两面。在供应方面,像GPT-5、Claude 4.5和Gemini 3这样的更高能力系统的发布扩展了用户对逐步推理的期望。在需求方面,用户越来越倾向于能够管理任务状态、遵循多步骤逻辑并支持代理式工作流程的模型,而不仅仅是生成文本。
在最近的数据中,xAI的Grok Code Fast 1现在推动了最大份额的推理流量(不包括免费启动访问),领先于Google的Gemini 2.5 Pro和Gemini 2.5 Flash。这与仅仅几周前的情况形成了显著变化,当时Gemini 2.5 Pro引领该类别,DeepSeek R1和Qwen3也位列顶级。Grok Code Fast 1和Grok 4 Fast凭借xAI的积极推出、竞争性定价以及开发者对其代码导向变体的关注而迅速获得份额。
工具调用的采用也在上升。研究记录了以"工具调用"为完成原因的token份额,这个指标捕获了那些在请求期间实际调用了工具的交互。数据显示,整个2025年工具采用呈现一致的上升趋势。早期,工具调用主要集中在少数几个模型:OpenAI的gpt-4o-mini和Anthropic的Claude 3.5和3.7系列,它们在2025年初合计占据了大部分工具启用的tokens。但到了年中,更广泛的模型开始支持工具提供,反映出一个更具竞争力和多元化的生态系统。
从2025年9月底开始,较新的Claude 4.5 Sonnet模型迅速获得份额。与此同时,像Grok Code Fast和GLM 4.5这样的新进入者也取得了明显进展,反映出工具能力部署方面更广泛的实验和多元化。对于运营商来说,这意味着启用工具使用正在高价值工作流程中兴起。没有可靠工具格式的模型在企业采用和编排环境中可能会落后。
此外,模型工作负载的形态也发生了显著演变。提示(输入)和完成(输出)的token数量都急剧上升,尽管规模和速度不同。每个请求的平均提示tokens从大约一千五增加到超过六千,增长了大约四倍,而完成tokens几乎翻了三倍,从约一百五十增加到四百。增长幅度的相对大小突出了向更复杂、上下文丰富的工作负载的决定性转变。
这种模式反映了模型使用的新平衡。今天的典型请求不再是关于开放式生成,而更多的是对大量用户提供的材料进行推理,比如代码库、文档、转录或长时间对话,并产生简洁、高价值的见解。模型越来越多地充当分析引擎而不是创意生成器。
类别级数据提供了更细致的画面:编程工作负载是提示token增长的主要驱动力。涉及代码理解、调试和代码生成的请求通常超过两万个输入tokens,而所有其他类别保持相对平坦和低量。这种不对称的贡献表明,最近提示大小的扩展不是跨任务的统一趋势,而是与软件开发和技术推理用例相关的集中激增。
序列长度是任务复杂性和交互深度的一个代理指标。数据显示,过去20个月中,平均序列长度增长了三倍多,从2023年底的不到两千tokens增加到2025年底的超过五千四百。这种增长反映了向更长上下文窗口、更深任务历史和更详细完成的结构性转变。进一步的分析增加了更多清晰度:与编程相关的提示现在平均比通用提示长三到四倍。这种差异表明软件开发工作流程是更长交互的主要驱动力。长序列不仅仅是用户冗长:它们是嵌入式、更复杂的代理工作流程的标志。
这些趋势合在一起表明,AI使用的重心已经转移。典型的AI请求不再是简单的问题或孤立的指令。相反,它是结构化、代理式循环的一部分,调用外部工具,对状态进行推理,并在更长的上下文中持续存在。对于模型提供商来说,这提高了默认能力的标准。延迟、工具处理、上下文支持以及对格式错误或对抗性工具链的鲁棒性变得越来越关键。对于基础设施运营商来说,推理平台现在必须管理的不仅仅是无状态请求,还包括长期运行的对话、执行轨迹和权限敏感的工具集成。很快,如果不是已经,代理推理将占据大部分推理。
人们如何使用大型语言模型
理解用户使用AI执行的任务分布对于评估现实世界需求和模型市场契合度至关重要。研究团队对数十亿次模型交互进行了分类,归入高级应用类别。
首先看主导类别。编程已成为所有模型中最持续扩展的类别。编程相关请求的份额在2025年稳步增长,在2025年初占总token量的大约百分之十一,最近几周超过了百分之五十。这一趋势反映了从探索性或对话性使用转向应用任务如代码生成、调试和数据脚本编写。随着AI嵌入开发者工作流程,它们作为编程工具的角色正在被规范化。
这种对编程支持不断增长的需求正在重塑模型提供商之间的竞争动态。数据显示,Anthropic的Claude系列一直主导该类别,在观察期的大部分时间内占编程相关支出的百分之六十以上。然而,格局也发生了有意义的演变。在11月17日当周,Anthropic的份额首次跌破百分之六十的门槛。自7月以来,OpenAI已将其份额从大约百分之二扩大到最近几周的约百分之八,这可能反映了对以开发者为中心的工作负载的重新强调。在同一时期,Google的份额保持稳定在大约百分之十五。中端细分市场也在变动。包括Z.AI、Qwen和Mistral AI在内的开源提供商正在稳步获得关注度。特别是MiniMax,已成为一个快速崛起的新进入者,最近几周显示出显著增长。
除了编程之外,角色扮演仍然是一个巨大的类别。这个类别涉及创意互动对话,如讲故事、角色扮演和游戏场景。在开源模型中,角色扮演占据了超过百分之五十的使用量。即使在所有模型中查看,角色扮演也占据了相当大的份额。到2025年底,角色扮演流量几乎平均由世界其他地区的开源模型(占百分之四十三)和闭源模型(占百分之四十二)提供。这代表了与2025年初的重大转变,当时该类别由专有(闭源)模型主导,占约百分之七十的token份额。
深入每个类别的内部结构,研究还分析了十二个最常见内容类别中的标签组成,揭示了每个类别的内部子主题结构。关键的发现是,大多数类别并非均匀分布:它们由一个或两个重复出现的使用模式主导,通常反映集中的用户意图或与AI优势的对齐。
在最高量类别中,角色扮演因其一致性和专业化而突出。近百分之六十的角色扮演tokens属于游戏/角色扮演游戏,这表明用户将AI视为结构化的角色扮演或角色引擎,而不是休闲聊天机器人。这进一步得到了作家资源(百分之十五点六)和成人内容(百分之十五点四)存在的支持,指向互动小说、场景生成和个人幻想的混合。与角色扮演主要是非正式对话的假设相反,数据显示了一个定义明确且可复制的基于类型的用例。
编程同样偏斜,超过三分之二的流量被标记为编程/其他。这表明代码相关提示的广泛和通用性质:用户并非狭隘地关注特定工具或语言,而是要求AI提供从逻辑调试到脚本起草的一切。尽管如此,开发工具(百分之二十六点四)和来自脚本语言的小份额表明正在出现专业化。
全球地理分布
全球AI使用呈现出显著的地区差异。通过检查地理分布,我们可以推断当地使用和支出如何塑造AI使用模式。虽然数据反映了OpenRouter的用户基础,但它们提供了地区参与的一个快照。
支出分布强调了AI推理市场日益全球化的性质。北美虽然仍是单一最大地区,但在观察期的大部分时间里现在占总支出的不到一半。欧洲显示出稳定和持久的贡献。其相对的每周支出份额在整个时间线上保持一致,通常占据十几到二十的区间。一个显著的发展是亚洲的崛起,不仅作为前沿模型的生产者,也作为快速扩张的消费者。在数据集的最早几周,亚洲约占全球支出的百分之十三。随着时间推移,这一份额增加了一倍多,在最近时期达到约百分之三十一。
从语言分布来看,英语占主导地位,占所有tokens的百分之八十二以上。这既反映了英语语言模型的普遍性,也反映了OpenRouter用户群以开发者为中心的倾斜。然而,其他语言特别是中文、俄语和西班牙语,构成了一个有意义的尾部。仅简体中文就占全球tokens的近百分之五,这表明双语或中文为主环境中的用户持续参与,特别是考虑到像DeepSeek和Qwen这样的中国开源模型的增长。
对于模型构建者和基础设施运营商来说,跨地区可用性,跨语言、合规制度和部署设置,正在成为一个世界中的基本要求,在这个世界中,AI采用同时是全球性的和本地优化的。
用户留存与"灰姑娘的玻璃鞋"现象
留存图表集合捕捉了领先模型的AI用户市场动态。乍一看,数据主要是高流失率和快速队列衰减。然而,在这种波动之下存在着一个更微妙和更重要的信号:一小部分早期用户队列随着时间推移表现出持久的留存。研究团队将这些称为基础队列。
这些队列不仅仅是早期采用者;他们代表了工作负载与模型之间实现了深度和持久契合的用户。一旦建立,这种契合就创造了经济和认知惯性,即使新模型出现也能抵制替换。研究团队引入了"灰姑娘的玻璃鞋效应"作为描述这一现象的框架。这个假设认为,在快速演变的AI生态系统中,存在着一个潜在的高价值工作负载分布,这些工作负载在连续的模型代次中仍未解决。每个新的前沿模型实际上都在针对这些未解决的问题进行"试穿"。当新发布的模型恰好匹配以前未满足的技术和经济约束时,它就实现了精确契合——隐喻性的"玻璃鞋"。
对于工作负载终于"契合"的开发者或组织来说,这种对齐创造了强大的锁定效应。他们的系统、数据管道和用户体验变得锚定在首先解决他们问题的模型上。随着成本下降和可靠性提高,重新平台化的动机急剧下降。相反,没有找到这种契合的工作负载仍然是探索性的,从一个模型迁移到另一个模型以寻找他们自己的解决方案。
从经验上看,这种模式在Gemini 2.5 Pro的2025年6月队列和Claude 4 Sonnet的2025年5月队列中是可观察到的,这些队列在第5个月保留了大约百分之四十的用户,远高于后来的队列。这些队列似乎对应于特定的技术突破(例如,推理保真度或工具使用稳定性),最终使以前不可能的工作负载成为可能。
OpenAI GPT-4o Mini的图表以其极端形式显示了这种现象。一个单一的基础队列(2024年7月)在启动时建立了主导性的、粘性的工作负载-模型契合。所有后续队列,它们在这种契合建立后到达且市场已经转移,表现相同:它们流失并聚集在底部。这表明建立这种基础契合的窗口是单一的,只在模型被视为"前沿"的时刻发生。
DeepSeek模型引入了一个更复杂的模式。它们的留存曲线显示出一个非常不寻常的异常:复活跳跃。与典型的单调递减留存不同,几个DeepSeek队列在初始流失期后显示出留存的明显上升(例如,DeepSeek R1的2025年4月队列在第3个月左右,DeepSeek Chat V3-0324的2025年7月队列在第2个月左右)。这表明一些流失的用户正在回到模型。这种"回旋镖效应"表明这些用户在尝试替代方案并通过竞争测试确认DeepSeek为其特定工作负载提供最佳且通常更好的契合后,又回到DeepSeek,这可能是由于专业技术性能、成本效益或其他独特功能的潜在组合。
成本与使用动态
使用模型的成本是影响用户行为的关键因素。研究重点关注不同AI工作负载类别如何在成本-使用景观中分布。通过检查类别在对数-对数成本与使用图上的聚集位置,研究团队确定了工作负载在低成本、高量区域与高成本、专业化细分市场中集中的模式。
散点图揭示了AI用例的明显细分,根据其总使用量(总Tokens)与单位成本(每100万Tokens的成本)进行映射。图表被每100万Tokens成本0.73美元的中位数成本垂直线一分为二,有效地创建了一个四象限框架来简化跨类别的AI市场。需要注意的是,这些最终成本与广告列表价格不同。高频工作负载受益于缓存,这降低了实际支出并产生了比公开列出的价格低得多的有效价格。显示的成本指标反映了提示和完成tokens的混合费率,提供了用户实际总体支付的更准确视图。
右上象限包含高成本、高使用应用,现在包括技术和科学,正好位于交叉点。这些代表有价值且大量使用的专业工作负载,用户愿意为性能或专业能力支付溢价。技术是一个显著的异常值,比任何其他类别都贵得多。这表明技术作为一个用例(可能涉及复杂的系统设计或架构)可能需要更强大和更昂贵的模型进行推理,但它保持高使用量,表明其本质性质。
左上象限由高使用量和低于或等于平均成本定义。这个区域由两个大规模用例主导:角色扮演、编程以及科学。编程作为"杀手级专业"类别脱颖而出,展示了最高的使用量,同时具有高度优化的中位数成本。角色扮演的使用量巨大,几乎与编程相当。这是一个引人注目的洞察:面向消费者的角色扮演应用推动的参与量与顶级专业应用相当。
右下象限容纳了低量、高成本应用,包括金融、学术、健康和营销。这些是高风险、利基专业领域。较低的总量是合乎逻辑的,因为人们咨询AI进行"健康"或"金融"的频率远低于"编程"。用户愿意为这些任务支付显著溢价,可能是因为对准确性、可靠性和领域特定知识的需求极高。
左下象限具有低成本、低量任务,包括翻译、法律和琐事。这些是功能性的、成本优化的实用程序。翻译在这个群体中具有最高的量,而琐事具有最低的量。它们的低成本和相对低量表明这些任务可能是高度优化的、"已解决的"或商品化的,其中可以廉价获得足够好的替代方案。
图表上最显著的异常值是技术。它以相当大的幅度命令最高的每token成本,同时保持高使用量。这强烈表明一个具有高支付意愿的市场细分市场,用于高价值、复杂答案(例如,系统架构、高级技术问题解决)。一个关键问题是,这个高价格是由高用户价值(一个"需求侧"机会)还是由高服务成本(一个"供应侧"挑战)驱动的,因为这些查询可能需要最强大的前沿模型。
模型使用与成本的另一个分析将模型使用映射到每100万tokens的成本(对数-对数刻度),揭示出整体相关性较弱。趋势线几乎是平的,表明需求相对价格缺乏弹性;价格下降百分之十仅对应使用量增加约百分之零点五到零点七。然而,整个图表的分散是实质性的,反映了强大的市场细分。出现了两个不同的制度:来自OpenAI和Anthropic的专有模型占据高成本、高使用区域,而像DeepSeek、Mistral和Qwen这样的开放模型填充低成本、高量区域。这种模式支持一个简单的启发式:闭源模型捕获高价值任务,而开源模型捕获高量低价值任务。弱价格弹性表明,即使是剧烈的成本差异也不会完全转移需求;专有提供商保留关键任务应用的定价权,而开放生态系统从对成本敏感的用户那里吸收量。
说到底,过去一年的AI使用数据向我们展示了一个比想象中更加丰富多彩的世界。开源模型不再只是"便宜的替代品",它们在某些领域已经成为首选;编程和角色扮演成为两大支柱应用,证明AI既是生产力工具也是创造力伙伴;中国AI模型的快速崛起改变了全球竞争格局;而AI正在从简单的问答工具演变为能够规划、推理和使用工具的"智能代理"。这些发现不仅纠正了一些关于AI使用的误解,更为我们理解AI在现实世界中的作用提供了宝贵的数据支撑。对于模型开发者、应用构建者和基础设施提供商来说,这些洞察将帮助他们更好地设计和部署下一代AI系统,真正满足用户的实际需求。
Q1:OpenRouter平台在这项研究中分析了多少token的数据?
A:OpenRouter平台分析了超过100万亿个token的真实用户交互数据。这些数据涵盖了全球用户基础,跨越了大约两年的时间,特别聚焦于最近一年的使用情况。数据包括了数十亿个提示-完成对,来自300多个活跃模型和60多个提供商,其中超过百分之五十的使用来自美国以外地区。
Q2:开源模型在AI市场中的占比达到了多少?
A:到2025年底,开源模型的使用量已经占据了约三分之一的市场份额,相比2024年底有了显著增长。其中,中国开发的开源模型从2024年底每周使用占比不到百分之二,增长到2025年某些周份接近百分之三十。在整个一年中,中国开源模型平均占约百分之十三的周使用量,其他地区开源模型占百分之十四,而闭源专有模型仍保持约百分之七十的市场份额。开源模型的崛起主要得益于像DeepSeek V3、Kimi K2这样的竞争性发布,以及快速迭代和密集的发布周期。
Q3:"灰姑娘的玻璃鞋效应"是什么意思?
A:"灰姑娘的玻璃鞋效应"描述了一种用户留存现象:当新发布的AI模型恰好匹配某个用户群体之前未被满足的技术和经济需求时,就像灰姑娘试穿玻璃鞋一样完美契合。这些早期找到完美契合的用户会形成"基础队列",他们的系统、数据管道和工作流程会深度锚定在这个模型上,即使后来有新模型出现,他们的留存率也会远高于后来的用户群。例如,Gemini 2.5 Pro的2025年6月队列和Claude 4 Sonnet的2025年5月队列在第5个月仍保留了约百分之四十的用户,远高于后来的队列。这种效应表明,在AI快速演进的市场中,"首次解决问题"的模型具有持久的竞争优势。
好文章,需要你的鼓励
希腊塞萨洛尼基大学研究团队开发出MIR-L算法,通过"彩票假说"发现大型图像修复网络中的关键子网络。该算法采用迭代剪枝策略,将网络参数减少90%的同时保持甚至提升修复性能。MIR-L能同时处理去雨、去雾、降噪等多种图片问题,为资源受限设备的实时图像处理提供了高效解决方案,具有重要的实用价值和环保意义。
这项由OpenRouter公司团队和Andreessen Horowitz(a16z)投资机构联合开展的研究,于2025年12月发表。
卡内基梅隆大学团队提出DistCA技术,通过分离AI模型中的注意力计算解决长文本训练负载不平衡问题。该技术将计算密集的注意力任务独立调度到专门服务器,配合乒乓执行机制隐藏通信开销,在512个GPU的大规模实验中实现35%的训练加速,为高效长文本AI模型训练提供了新方案。