Advertisement
Advertisement

新足迹

 找回密码
 注册
新足迹 门户 国际新闻 查看内容

DeepSeek的“顿悟时刻”带来打造强大AI的新方式,而且成本更低

2025-1-30 06:55| 发布者: dootbear | 查看: 1247| 原文链接

金融时报:DeepSeek的“顿悟时刻”带来打造强大AI的新方式,而且成本更低  

中国人工智能公司利用“强化学习”和“小型语言模型”取得突破。

中国AI实验室DeepSeek采用创新技术,开发出一种无需大量人工干预即可训练的AI模型,这一“顿悟时刻”可能会改变开发者利用该技术打造“杀手级”应用的成本。  

DeepSeek发布的研究论文详细介绍了其R1“推理”模型的运作方式,该团队由对冲基金亿万富翁梁文峰领导。

论文揭示,DeepSeek通过消除AI开发中的瓶颈,实现了显著突破。  

论文显示,DeepSeek采用了一系列更高效的技术来开发R1,这一模型与OpenAI的竞争对手o1类似,但不同之处在于,R1在生成回答时,会比大多数大型语言模型花费更多时间进行逐步“思考”,从而提供更准确的答案。  

DeepSeek的突破点在于利用“强化学习”,来减少人类在训练过程中对模型回答的干预。  

该公司还构建了参数较少但推理能力强的小型模型,参数指的是用于训练AI系统并决定其输出的变量。

DeepSeek的方法是对Meta和阿里巴巴等竞争对手训练出的大型模型进行优化,从而实现高效的AI推理能力。  

这些进展在硅谷引发震动,因为R1在某些任务上的表现优于OpenAI,Anthropic和Meta最近发布的模型,但其开发成本只是这些模型的一小部分。  

剑桥大学DeepMind机器学习教授劳伦斯(Neil Lawrence)表示,我认为,这仅仅是我们在这些模型上能期待的创新的冰山一角。

历史表明,大公司在规模化的过程中往往难以创新,我们看到许多大公司以计算资源投入取代了真正的智力挑战。”  

点赞触发“顿悟时刻(aha moment)”  

大型语言模型的训练通常分为两个阶段。第一阶段是“预训练”,开发者使用海量数据集,让模型学会预测句子的下一个词。

第二阶段是“后训练”,开发者进一步训练模型,使其学会遵循指令,例如解数学题或编写代码。  

让聊天机器人生成更实用回答的一种方法是“基于人类反馈的强化学习”(RLHF),这是OpenAI为改进ChatGPT所采用的技术。  

RLHF的原理是让人工标注员对AI模型生成的回答进行评分,并选择最佳答案。

这一过程通常耗时,昂贵,甚至需要庞大的数据标注团队。  

DeepSeek的重大创新在于自动化这一环节,采用了一种称为强化学习(RL)的技术,让AI模型在做出正确回答时获得奖励。  

DeepSeek首先开发了一个强大的文本预测模型V3,然后利用RL技术“奖励”该模型,例如对其生成的正确答案给予“点赞”。  

DeepSeek发现,经过多次这样的训练,该模型竟然能够在没有人为监督的情况下自发解决问题。  

这一技术也曾被谷歌DeepMind用于开发AlphaGo,这款AI系统在围棋比赛中击败人类选手,开启了近十年来深度学习计算技术的热潮。  

DeepSeek表示,R1在回答问题时会重新评估自己的答案,并调整计算时间,以适应不同类型的问题。这一现象被该公司称为“顿悟时刻”(aha moment)。  

DeepSeek团队在研究论文中写道,“‘顿悟时刻’强有力地提醒我们,强化学习有可能在人工智能系统中解锁新的智能水平,为未来更自主,更具适应性的模型铺平道路”。  

Hugging Face(AI研究公司)的研究员滕斯托尔(Lewis Tunstall)表示,让这一方法成功的关键似乎在于,首先要有一个极其强大的预训练模型,然后配备一套完善的基础设施,以大规模实施强化学习。

用大模型构建小模型  

在OpenAI和谷歌投入数十亿美元构建大型语言模型的同时,DeepSeek则采取了一种不同的方法,通过“蒸馏”大模型的推理能力,构建可以在手机或网页浏览器上运行的小型模型。  

DeepSeek使用R1模型生成了一个相对较小的数据集(80万条数据),然后利用这些AI生成的数据对阿里巴巴的通义千问(Qwen)和Meta的Llama等竞争对手模型进行优化。  

DeepSeek发现,这些经过蒸馏的小模型在推理能力测试中的表现尤为出色,甚至在某些情况下超越了Anthropic的旗舰模型Claude。  

滕斯托尔表示,“它几乎可以解出我本科时期学过的所有数学题。”。  

这一进展可能对应用开发者来说是一个利好消息,他们可以借助这种廉价高效的方法来构建产品。  

智库Rand的研究员海姆(Lennart Heim)指出,在AI模型生成答案的“推理”阶段训练其思维能力,比消耗大量计算资源进行预训练要高效得多。  

这一新范式可能使竞争对手以更少的计算资源和资金构建出具有竞争力的模型。

然而,海姆警告称,没有足够资金购买芯片,企业就无法大规模部署这些模型。  

DeepSeek尚未披露R1的具体开发成本,但表示R1基于V3模型,而V3的训练成本仅为560万美元。  

海姆补充道,不过,这一金额并不包括购买数千块图形处理单元(GPU)所需的费用,也未包含员工薪资,实验,训练和部署成本。  

尽管DeepSeek率先采用了这一独特技术,但预计其他AI实验室也将迅速跟进。

Hugging Face已经开始尝试复制R1的研究成果。  

美国AI公司也在探索如何将其大型,最先进模型的能力应用于更小,更灵活的模型。

谷歌去年推出了Gemma,这是基于其Gemini模型开发的一款轻量级模型。  

“Hugging Face的联合创始人兼首席科学官沃尔夫(Thomas Wolf)表示:“智能的秘诀其实很简单。”

他补充道,DeepSeek的技术已被业内广泛理解:

这就是为什么我预计很多团队都能重现这一成果。



来源:

https://www.ft.com/content/ea803121-196f-4c61-ab70-93b38043836e
Advertisement
Advertisement


Advertisement
Advertisement
返回顶部