“廉价”AI小模型:微创新还是大进步
1月8日,在美国拉斯维加斯,人们在展区观看运用AI技术的新款电视
文/《环球》杂志记者 彭茜
编辑/乐艳娜
继DeepSeek R1以有限算力,凭借强大算法创新“惊艳”全球之后,大模型研发领域似乎也开始打起“价格战”。美国斯坦福大学、加利福尼亚大学伯克利分校等机构的研究团队,先后宣布仅以几十美元成本,开发出性能可媲美前沿推理模型的人工智能(AI)模型。这是否意味着大模型研发成本正逐渐下探,动辄数千亿美元的研发费用将成为过去?
低成本玩转高级推理
“这是开源模型对闭源模型的胜利。”正如法国计算机科学家、图灵奖得主杨立昆此前在个人社交媒体评价DeepSeek时所说,开源模型正不断推进AI领域的诸多突破性进展。微调、蒸馏等建立在开源模型基础上的低成本创新技术,似乎正在挑战大模型的烧钱逻辑。
美国斯坦福大学和华盛顿大学的研究团队日前宣布研发出名为S1的模型,在衡量数学和编码能力的测试中,表现出与OpenAI o1和DeepSeek R1等前沿推理模型不相上下的性能。
这一研究可以算是“站在巨人肩上摘果子”。根据论文,S1的核心创新在于采用了知识“蒸馏”技术和“预算强制”方法。“蒸馏”技术就好比对别人酿好的酒进一步提纯。该模型的训练数据是基于谷歌Gemini Thinking Experimental模型“蒸馏”出的仅有1000个样本的小型数据集。
在算法上,S1则是对阿里云的通义千问开源模型进行监督微调,并通过“预算强制”方法,控制训练后的模型计算量。最后,使用16个英伟达H100 GPU仅进行了26分钟的训练便达成目标。
美国加利福尼亚大学伯克利分校研究团队最近也开发出一款精简的AI模型TinyZero,宣称实现了DeepSeek R1-Zero在倒计时和乘法任务中的复刻版。该模型通过强化学习,实现了3B(30亿模型参数)的大语言模型的自我思维验证和搜索能力。
两个研究团队都以“低成本”为卖点,对外宣称训练成本仅为几十美元。参与S1项目的斯坦福大学研究人员尼克拉斯·米尼霍夫告诉科技媒体TechCrunch,训练租用所需的计算资源大约只需20美元。而TinyZero团队核心成员加利福尼亚大学伯克利分校博士潘家怡也在其个人社交媒体上发文称,其项目训练成本不到30美元。
“低成本”小模型背后的真相
清华大学计算机系长聘副教授刘知远接受《环球》杂志记者采访时说,部分海外研究团队采用DeepSeek R1、OpenAI o1等高性能推理大模型构建、筛选高质量长思维链数据集,用这些数据微调小模型,可以低成本快速获得高阶推理能力。这些研究进展进一步验证了DeepSeek R1论文中提出的观点:利用大模型进行知识蒸馏可有效提升小模型的推理性能,这是AI前进方向的有益尝试,但成本和整体性能都有夸张之嫌。
清华大学计算机系长聘副教授刘知远
首先,超低成本只是局部费用。AI智库“快思慢想研究院”院长田丰告诉《环球》杂志记者,几十美元成本只是最后一个环节的算力成本,并没有计算基模型的预训练成本、数据采集加工成本,与DeepSeek、GPT o1的完整训练周期成本不具有可比性。此外,二者的成功均建立在其他成熟开源模型的微调基础之上,而非从0到1的原始创新,底座大模型高昂的训练成本并未被计入。这就好比盖房子,只算了最后装修的钱,却没算买地、打地基的钱。
其次,整体性能尚无法比肩成熟大模型。TinyZero仅在简单数学任务、编程及数学益智游戏等特定任务中有良好表现,但无法适用于更加复杂、多样化的任务场景。而S1模型也只能通过精心挑选的训练数据,在特定测试集上超过GPT o1-preview,而远远没有超过o1正式版或DeepSeek R1。在使用“预算强制”方法时,当思考的时间和内容越来越多时,S1模型还会有点“后劲不足”,性能提升不太明显。
不过田丰认为,新研究中延长模型思考时间的方法、强制模型反思发现答案错误、高质量蒸馏数据集的推理提升等探索,都对科研群体有启发性。
以“二创”方式构建小模型的探索,也增强了AI的普惠性。这对采用基础模型微调的二次开发企业具有现实价值,可快速根据自身实际情况微调出小模型,以更低成本将AI技术应用于业务中,推动更多领域的智能化变革。
成本逐年降低是趋势
对于AI大模型的未来进化而言,此类小微创新只能算是“灵光一现”。
刘知远指出,就推动大模型能力边界而言,“知识蒸馏”技术意义不大,未来仍然需要探索大规模强化学习技术,以持续激发大模型在思考、反思和探索等方面的涌现能力,从而不断探索人工智能的科学化技术方案。TechCrunch也刊文表示,蒸馏技术已被证明是一种以低成本重现AI模型能力的有效方法,但它并不能创造出比现有模型优越得多的全新AI模型。
目前,大模型研发成本依然高昂。2025年,Meta、谷歌和微软计划在AI基础设施上投入数千亿美元,部分资金将用于训练下一代AI模型。相关专家认为,要推动AI创新的前沿发展,这一规模的投资仍不可或缺。
不过,拉长时间尺度来看,大模型研发成本还是呈逐年降低趋势。百度2024年宣布,其文心大模型推理成本已降至2023年3月版本的1%,算法训练效率提升到原来的5.1倍,推理性能提升105倍。清华大学和面壁智能2024年推出MiniCPM最新端侧模型,只需要几十亿参数便能够实现GPT-4o水平的能力,可在手机上高效运行。于2024年9月发布的DeepSeek V3激活参数降低到2024年4月同水平模型LlaMA 3 405B的1/10,训练和推理成本相应降低,而时隔不到一年后发布的R1单任务推理成本仅为V3的40%,这均是能力密度持续增强的例证。
在大模型迭代过程中,存在类似摩尔定律的现象,即大模型的能力密度正随时间呈指数级增强。刘知远指出,2023年以来,大模型的能力密度大约每100天翻一倍,即每过100天,只需要一半的算力和一半的参数就能实现相同的能力。未来应继续推进计算系统的智能化,不断追求更高的能力密度,努力以更低成本——包括训练成本和计算成本——实现大模型的高效发展。
在可以预见的未来,性能强大的模型终将不被算力巨头垄断,而是“飞入寻常百姓家”。