经济学人长篇报道:中国人工智能产业几乎赶上美国,并且更开放和更高效 世界上首个“推理模型(reasoning model)”,一种先进的人工智能技术于去年9月由美国公司OpenAI发布。这款名为o1的模型通过“链式思维”来回答科学和数学中的复杂问题,分解问题为若干步骤,并在幕后测试各种方法,最后向用户展示结论,它的发布引发了模仿竞赛。 同年12月,谷歌推出了名为“Gemini Flash Thinking”的推理模型,OpenAI几天后又发布了o1的升级版o3。 然而,即使拥有巨大资源的谷歌,也不是第一个模仿OpenAI的公司。在o1发布不到三个月后,中国电商巨头阿里巴巴推出了其Qwen聊天机器人QwQ的新版本,该版本也具备类似的“推理”能力。 阿里巴巴在一篇详细的博客文章中写道:“思考、提问和理解的意义是什么?”并附上了一个可免费下载模型的链接。 另一家中国公司DeepSeek的突然冒起,更是在一周前推出了一款名为R1的“推理”模型预览版。 尽管美国政府试图阻止中国的人工智能产业发展,两家中国公司还是将美国同行的技术领先优势缩小到了仅仅几周的时间。 不仅仅是推理模型,中国公司在大型语言模型(LLM)领域也处于前沿。去年12月,DeepSeek发布了一款新的LLM模型v3,其规模接近700GB,参数量达6850亿,大幅超过Meta公司旗舰模型Llama 3.1的4050亿参数。 这使其成为迄今为止发布的规模最大的开源模型。 DeepSeek的LLM不仅比许多西方模型更大,而且性能更佳,仅次于谷歌和OpenAI的专有模型。 Aider人工智能编码平台的创始人高捷尔(Paul Gauthier)将DeepSeek的新模型用于编码基准测试,发现其表现超过了除o1以外的所有竞争对手。 在Lmsys的聊天机器人排名中,它位居第七,超过了所有开源模型,也是谷歌和OpenAI以外的公司中排名最高的。 中国人工智能技术的飞跃 中国人工智能的质量现在已经非常接近美国竞争对手,以至于OpenAI首席执行官阿尔特曼(Sam Altman)不得不解释这种差距的缩小。他在DeepSeek发布v3之后发了一条颇为恼怒的推文:“模仿一种已经证明可行的技术相对容易,但去尝试一些全新的,冒险的且不确定是否有效的东西是极其困难的。” 中国的人工智能产业最初显得逊色,这部分原因是受到了美国制裁的影响。2022年,美国禁止向中国出口先进芯片。芯片制造巨头英伟达不得不为中国市场设计功能被削弱的特供产品。 美国还试图阻止中国发展国内最顶级芯片的制造能力,禁止向中国出口相关设备,并威胁那些可能协助中国的非美企业。 此外,中国本土的监管环境也曾是一个障碍。中国企业进入大型语言模型(LLM)领域的时间较晚,部分原因是担心监管机构的反应。他们担忧这些模型可能“幻觉”出不正确的信息,甚至可能生成具有政治敏感性的内容。例如,搜索引擎巨头百度多年来在内部实验LLM,并开发了一款名为“ERNIE”的模型,但却迟迟不敢公开发布。 当ChatGPT取得成功后,百度才重新考虑其策略,并最初仅通过邀请制开放ERNIEbot的访问权限。后来,中国政府出台了促进人工智能行业发展的新规。 尽管这些法规要求模型开发商强调内容的正确性并遵守“社会主义核心价值观”,但也承诺“鼓励生成式人工智能的创新发展”。根据科技新闻网站TechTechChina的编辑Vivian Toh的说法,中国希望在全球竞争中脱颖而出。 阿里巴巴是第一批适应这一宽松环境的公司之一,推出了自己的LLM“通义千问”(Tongyi Qianwen),后更名为Qwen。 中国互联网巨头的AI竞赛 阿里巴巴初期的产品并不令人兴奋,只是基于Meta开源模型Llama的一次普通“分支”。然而,2024年,随着阿里巴巴连续推出多个版本的Qwen,其质量开始显著提升。 Anthropic人工智能实验室的联合创始人克拉克(Jack Clark)在阿里巴巴发布具备图像和文本分析功能的Qwen版本时表示,“这些模型看起来已经能够与西方顶尖实验室的强大模型竞争。” 中国的其他互联网巨头,包括腾讯和华为,也在研发自己的模型,而DeepSeek则有着不同的背景。在阿里巴巴发布首款Qwen模型时,DeepSeek还不存在。 它的前身是2015年成立的一家名为High-Flyer的对冲基金,利用人工智能在股票交易中获得优势。 High-Flyer通过基础研究成为中国最大的量化基金之一。 据High-Flyer创始人梁文峰称,这一动机并非完全出于商业目的。他提到,OpenAI的最初投资者并非为了回报,而是为了追求使命。2023年,DeepSeek从High-Flyer分拆出来,宣布加入创造类人水平AI的竞赛。 DeepSeek的技术优势 DeepSeek的巨型LLM不仅规模庞大,其训练过程也极具效率。剑桥大学的莱恩(Nic Lane)表示,这种成功并非单一创新的结果,而是多项边际改进的结合。例如,训练过程中通常通过数据舍入简化计算,但在必要时保持高精度;数据中心的服务器进行了重新配置,以提高芯片之间的通信效率;在模型训练完成后,还通过DeepSeek R1推理系统的输出进行微调,从而以较低的成本模仿高质量结果。 得益于多项创新,DeepSeek的v3模型在训练上展现出极高的效率。其数十亿参数的模型训练耗时不足300万芯片小时,总成本不到六百万美元,仅为Llama 3.1模型所需费用的十分之一。v3的训练仅使用了两千块低级芯片,而Llama 3.1用了1.6万块最强劲的芯片。 由于美国的制裁,v3使用的芯片性能并非最强大。而西方公司对芯片的使用显得更加浪费,例如Meta计划构建一个使用35万块芯片的数据中心。 正如前特斯拉人工智能主管卡帕西(Andrej Karpathy)所说,DeepSeek在“极低预算下训练前沿模型,看起来轻而易举”。 不仅训练成本低,运行成本也更低。DeepSeek能够高效分配任务,将工作均匀分布在多个芯片上,并在前一步骤完成前开始下一步骤。这种方式最大限度地利用了芯片的性能,减少了冗余。因此,当DeepSeek在2月向其他公司开放使用v3开发服务时,其收费将不到Anthropic的Claude模型的十分之一。 人工智能专家威利森(Simon Willison)表示:“如果这些模型的质量相当,这将为持续进行的LLM价格战带来巨大转折。” DeepSeek的持续创新和市场竞争力 DeepSeek对效率的追求没有止步。本周,它不仅完整发布了R1,还推出了一系列更小、更便宜且更快速的“精简版”模型。这些模型的性能几乎可以媲美更大的主模型。这种策略模仿了阿里巴巴和Meta的类似发布,进一步证明了它在行业中与顶级竞争对手竞争的能力。 开放的“龙之道” 阿里巴巴和DeepSeek还通过开放性挑战西方顶级实验室。与OpenAI和谷歌不同,这些中国实验室采用了Meta的开源模式,向用户开放其系统。任何人都可以下载Qwen人工智能并在其基础上开发自己的程序,无需特别许可。 这种开放性还体现在技术透明度上:每当发布新模型,这两家公司都会发布详尽的技术文档,展示如何提升模型性能。 阿里巴巴在发布QwQ(“Qwen问题解答”)模型时,成为全球首家以开源许可方式发布此类模型的公司。 任何人都可以下载完整的20GB文件,在自己的系统上运行,或对其进行深入研究。 这与OpenAI的策略形成了鲜明对比,后者将o1的内部工作原理严格保密。 两种人工智能模式的比较:从推理能力到透明性 从总体上看,两种人工智能模型都采用了所谓的“测试时计算”技术:与以往的大型语言模型(LLM)相比,这些模型不仅在训练阶段需要大量计算能力,在回答问题时也会消耗更多资源。这种方法类似于心理学家卡尼曼(Daniel Kahneman)所描述的“第二系统思维”,即一种较慢,更深思熟虑和更具分析性的思维方式,相比“第一系统思维”的快速直觉反应,这种方法在数学和编程等领域取得了显著成效。 如果你被问到一个简单的事实问题,例如“法国的首都是哪里”,你可能会脱口而出正确答案“巴黎”。典型的聊天机器人也是这样工作,根据统计模型选择可能性最高的答案并完成句子。然而,面对更复杂的问题,比如“法国第五大人口城市是哪座城市”,你可能会先列出法国的大城市清单,再按照人口排序,最终得出答案。 o1及其模仿者的秘诀在于诱导LLM进行类似的结构化思考,而不是简单地选择可能性最高的答案。这些系统会逐步分解问题,逐步得出答案。 然而,o1不会公开其推理过程,只向用户展示总结和最终结论。 OpenAI解释说,这样做的原因包括避免敏感内容泄露和防止竞争对手模仿其推理机制。 相比之下,阿里巴巴的QwQ则完全透明。 比如,问QwQ一个复杂的数学问题,它会详细记录整个解题过程,有时自言自语上千字,最后得出正确答案。 例如,它可以正确地算出20198 + 1的最小奇数质因数为97。 这种开放性是中国实验室吸引人才和展示能力的重要策略。 开放性与透明性的战略意义 阿里巴巴和DeepSeek的开放模式不仅有助于吸引人才,也增强了中国在人工智能领域的战略地位。葡萄牙AI公司Poolside的联合创始人坎特(Eiso Kant)指出,西方实验室因竞争压力而趋于封闭,而中国实验室则经常率先公开创新技术。 以DeepSeek发布的v3为例,其伴随的研究论文列出了139位作者,这种公开形式让研究人员获得更多声誉,而不是在西方实验室默默无闻地工作。 中美人工智能研究的不同挑战 美国政府限制先进技术流向中国的政策也对中国研究人员在美国的生活造成了影响。不仅是行政负担的增加,还有一种模糊的怀疑氛围,间谍指控甚至出现在社交场合。而在中国工作同样有挑战。例如,DeepSeek v3在回答台湾问题时,先详细解释台湾是“中华民国”的官方名称,但随后删除这些内容并简短地建议“让我们聊点别的”。 中国产业生态的战略优势 中国实验室的透明性部分源于它们希望围绕其人工智能技术建立产业生态。这种生态不仅有助于商业化,也为中国与美国在人工智能领域的竞争提供了战略支持。 例如,苹果和三星等企业希望将人工智能工具整合到在中国销售的设备中,与中国的本地合作伙伴合作显得尤为重要。 此外,中国模型的低运行成本和对“低资源”语言(如乌尔都语和孟加拉语)的支持也为其在国际市场带来了竞争力。 美国的持续创新与优势 然而,这并不意味着中国模型会完全取代美国人工智能,美国仍然在一些领域占据领先地位。例如,谷歌的Gemini系统可以控制用户的网络浏览器,而Anthropic和OpenAI的聊天机器人不仅能帮助用户编写代码,还能直接运行代码甚至托管完整的应用程序。 此外,OpenAI预计很快将宣布推出“博士水平的超级代理”,这些系统能够像人类专家一样完成多种智力任务。 ![]() ![]() 来源: https://www.economist.com/briefi ... ht-up-with-americas |