新足迹

 找回密码
 注册

精华好帖回顾

· 东游记----墨尔本买房记 (2010-3-11) t_guoguo · 小白悉尼建duplex流水账(拿到OC 分地中) (2022-5-26) jwycga
· 参加活动--时令果蔬总动员之栗子蛋糕,已上做法 (2011-5-3) jyy_jessie · 说一说墨尔本Doncaster Hill Strategy这个“龙脉”传说的前世今生。 (2015-4-12) MELGD
Advertisement
Advertisement
查看: 713|回复: 7

[中国大陆] DeepSeek加速推出新AI模型,中国加大对了人工智能的投入 [复制链接]

2012年度奖章获得者 2013年度奖章获得者

发表于 2025-2-26 06:52 |显示全部楼层
此文章由 dootbear 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 dootbear 所有!转贴必须注明作者、出处和本声明,并保持内容完整
路透社:DeepSeek加速推出新AI模型,中国加大对了人工智能的投入  

路透社北京/香港/新加坡2月25日消息,DeepSeek正努力巩固其优势。  

这家中国初创公司上个月推出的低成本AI推理模型,在性能上超越了许多西方竞争对手,触发了全球股市超过一万亿美元的抛售潮。  

据三位知情人士透露,这家总部位于杭州的公司正加快推出其1月份发布的R1模型的升级版。  

其中两人表示,DeepSeek原计划在5月初发布R2模型,但现在希望尽早推出,具体时间尚未确定。

公司希望新模型在编程能力上有所提升,并能扩展到英语以外的多种语言。R2的加速发布时间此前未曾对外披露。  

DeepSeek未对本报道作出回应。  

R1引发AI行业震动,R2或成关键转折点  

DeepSeek的竞争对手仍在评估R1模型的影响。该模型使用性能较低的英伟达芯片,但在许多方面可以媲美美国科技巨头耗资数千亿美元开发的产品。  

印度科技服务公司Zensar的首席运营官阿利卢加塔(Vijayasimha Alilughatta)表示,DeepSeek R2的发布可能成为AI行业的一个关键时刻。DeepSeek在低成本AI模型上的成功“可能会促使全球公司加快自身研发,打破少数几家巨头对行业的垄断。”  

R2的推出可能引起美国政府的担忧。

美国已将AI技术领导地位视为国家优先事项,而DeepSeek的进展可能进一步推动中国政府和企业加快应用步伐。目前,已有数十家中国公司宣布将DeepSeek模型整合到自家产品中。  

DeepSeek创始人低调,背景神秘  

关于DeepSeek的信息不多,其创始人梁文峰通过量化对冲基金High-Flyer积累财富,成为亿万富翁。  

据一位前雇主描述,梁为人“低调且内向”,自2024年7月以来未接受任何媒体采访。  

路透社采访了12名前员工以及熟悉DeepSeek和High-Flyer运营的量化基金专家,并审查了自2019年以来的官方媒体报道、公司社交媒体发文及研究论文。  

他们描述了一家更像研究实验室而非盈利企业的公司。尽管DeepSeek在AI领域取得突破,但它仍未采用中国科技行业常见的自上而下管理模式,而是保持了较为扁平化的结构。  

不同寻常的发展路径  

梁文峰1985年出生于中国南方广东省湛江的一个农村,后来进入浙江大学学习通信工程。  

他最早的工作之一是在上海一家智能影像公司负责研究部门。据他的前上司周朝恩2月9日对官方媒体表示,梁当时招聘了一批获奖算法工程师,并采用“扁平管理模式”。  

在DeepSeek和High-Flyer,梁同样避免采用中国科技巨头常见的严格管理,低薪制度和“996”工作文化(早9点到晚9点,每周6天)。  

他在北京的办公室设在清华大学和北京大学附近,常与团队成员深入探讨技术细节。据两名前员工表示,公司员工主要是Z世代的实习生和应届毕业生,工作氛围协作性强,通常每日8小时工作制。  

26岁的前研究员刘本杰明在2023年9月离职,他表示:“梁给予我们很大的自主权,把我们当成专家对待。他经常提问,并与我们一起学习。DeepSeek让我负责关键环节,感觉非常激动。”  

专注AI模型质量,而非短期商业化  

2023年,在百度等中国科技巨头争相开发类似ChatGPT的消费级产品时,梁告诉中国科技媒体Waves,他有意避免在应用开发上投入过多资金,而是专注于提高AI模型的质量。  

知情人士透露,DeepSeek和High-Flyer在薪资待遇方面十分慷慨。在High-Flyer,一名高级数据科学家的年薪可达150万元人民币,而竞争对手通常不超过80万元。  

这得益于High-Flyer的成功。尽管中国政府对量化基金行业进行了整顿,该公司仍管理着数百亿元人民币的资产。  

计算能力奠定基础  

DeepSeek之所以能打造低成本AI模型,很大程度上依赖于High-Flyer在过去十年的持续投资。据三位知情人士透露,该量化基金是AI交易的早期先驱,并在2020年表示,将“全力投入”AI领域,把70%的收入再投资于AI研究。  

High-Flyer曾在2020年和2021年斥资12亿元人民币建设两座超级计算集群。其中,第二座名为Fire-Flyer II,由约一万颗英伟达A100芯片组成,专门用于AI训练。  

当时DeepSeek尚未成立,因此这一计算资源的积累引起了中国证券监管机构的注意。一位了解官方想法的人士表示:“监管机构想知道他们为什么需要这么多芯片?如何使用?对市场会有什么影响?”  

最终,政府决定不干预。这一决定至关重要,因为美国于2022年禁止向中国出口A100芯片,而此时Fire-Flyer II已经投入使用。  

中国政府低调支持DeepSeek  

如今,DeepSeek已成为中国政府扶持的明星企业。但据一位了解官方想法的人士透露,北京方面已指示DeepSeek不得未经批准接受媒体采访,以避免过度炒作。  

该人士称,政府希望梁保持低调,以免引起不必要的关注。  

中国国务院、商务部及证券监管机构均未对此事发表评论。  

DeepSeek打破AI行业垄断  

由于拥有庞大的A100计算集群,High-Flyer和DeepSeek成功吸引了中国最优秀的研究人才。据两名前员工表示,大规模计算资源的优势在于可以进行更广泛的实验,优化AI架构。  

DeepSeek采用了一些降低计算成本的技术,如混合专家模型(Mixture-of-Experts,MoE)和多头潜在注意力(Multihead Latent Attention,MLA)。MoE将AI模型分成多个专长领域,仅激活与查询相关的部分,而不是像传统模型那样调用整个模型。MLA则能让模型同时处理信息的不同层面,提高关键细节的识别能力。  

DeepSeek的AI模型价格比OpenAI的同类产品便宜20到40倍。  

DeepSeek的定价比OpenAI的同类模型低20至40倍,这是伯恩斯坦证券(Bernstein brokerage)分析师在2月初的估算。  

目前,西方和中国的科技巨头仍计划大举投资AI,但DeepSeek在R1及更早推出的V3模型上的成功,已促使部分企业调整战略。  

本月,OpenAI已被迫下调价格,而谷歌的Gemini模型也推出了折扣版本。此外,自R1发布以来,OpenAI还推出了O3-Mini模型,该模型的计算需求更低。  

美国科技服务公司UST的马苏德(Adnan Masood)告诉路透社,他的实验室进行的测试显示,R1在推理过程中使用的tokens(AI模型处理的数据单元)比OpenAI的精简版模型多三倍。  

政府支持  

在R1引起全球关注之前,已有迹象表明DeepSeek得到了北京的青睐。今年1月,官方媒体报道称,DeepSeek创始人梁文峰以AI行业代表的身份,在北京参加了一场由中国国务院总理李强主持的会议,排在其他知名企业负责人之前。  

随后,DeepSeek模型在成本竞争力方面的优势引发热议,进一步增强了北京对其技术创新能力超越美国的信心。如今,中国企业和政府机构对DeepSeek的应用速度,远超其他AI公司获得的支持。  

至少有13个中国地方政府和10家国有能源企业表示,他们已将DeepSeek的模型部署到各自的系统中。

此外,联想,百度和腾讯等科技巨头,其中腾讯拥有中国最大的社交媒体平台微信也已将DeepSeek的AI模型整合到其产品中。  

新加坡李光耀公共政策学院(Lee Kuan Yew School of Public Policy)研究中国政策的专家吴奎表示,“习近平和李强已经明确表示支持DeepSeek。现在所有人都在支持它。”  

与此同时,韩国,意大利等国家政府因隐私问题,将DeepSeek从各自的国家应用商店中移除。  

对冲基金Carthage Capital创始人、AI专家Stephen Wu表示,如果DeepSeek成为中国政府部门广泛采用的AI模型,西方监管机构可能会将此视为进一步限制AI芯片或软件合作的理由。  

对于高端AI芯片的进一步限制,梁文峰也意识到了这一挑战。  

他在去年7月接受Waves采访时表示,“资金从来不是我们的问题。问题在于高端芯片的禁运。”





来源:

https://www.reuters.com/technolo ... oes-all-2025-02-25/

By Eduardo Baptista, Julie Zhu and Fanny Potkin
February 25, 202510:08 PM GMT+11Updated 7 hours ago

评分

参与人数 1积分 +4 收起 理由
jasonliu234 + 4 感谢分享

查看全部评分

仰望星空:南风车星系M83
M83南风车星系,在长蛇座,直径12万光年,距离地球一千五百万光年,是南半球看到最明亮和最近的棒旋星系之一。图中还看到距离我们22亿光年的PGC 88914星系。
Advertisement
Advertisement

2012年度奖章获得者 2013年度奖章获得者

发表于 2025-2-26 06:52 |显示全部楼层
此文章由 dootbear 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 dootbear 所有!转贴必须注明作者、出处和本声明,并保持内容完整
本文要点:  

1. DeepSeek计划加速发布R2模型,希望提升编程能力并支持多语言。  

2. R1模型已引发AI行业震动,可能促使全球企业加快研发,打破巨头垄断。  

3. 创始人梁文峰低调神秘,其公司管理风格与中国传统科技企业不同。  

4. High-Flyer长期投资AI计算资源,为DeepSeek的成功奠定基础。  

5. 美国限制芯片出口后,DeepSeek的计算集群成为其重要优势。  

6. 北京政府支持DeepSeek,但要求其保持低调,避免过度曝光。  

7. DeepSeek依靠MoE和MLA等技术,实现更低成本的AI模型训练。  

8. AI行业巨头受DeepSeek影响,纷纷调整策略,包括OpenAI降价。

评分

参与人数 1积分 +5 收起 理由
渔妇 + 5 感谢分享

查看全部评分

仰望星空:南风车星系M83
M83南风车星系,在长蛇座,直径12万光年,距离地球一千五百万光年,是南半球看到最明亮和最近的棒旋星系之一。图中还看到距离我们22亿光年的PGC 88914星系。

发表于 2025-2-26 09:46 |显示全部楼层
此文章由 absd 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 absd 所有!转贴必须注明作者、出处和本声明,并保持内容完整
连续开源一周,每天出个大新闻?

发表于 2025-2-26 10:43 |显示全部楼层
此文章由 flip 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 flip 所有!转贴必须注明作者、出处和本声明,并保持内容完整
不到3年就从零搞出了大模型好几年才能训练出来的模型。背后政府支持肯定是分不开的。

发表于 2025-2-26 11:56 |显示全部楼层
此文章由 kaiak 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 kaiak 所有!转贴必须注明作者、出处和本声明,并保持内容完整
上周五,DeepSeek 在官方 twitter 上预告了下一周会连续 5 天开源 5 个代码库,进入 open-source week,开源周
头像被屏蔽

禁止发言

发表于 2025-2-26 12:02 |显示全部楼层
此文章由 jasonliu234 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 jasonliu234 所有!转贴必须注明作者、出处和本声明,并保持内容完整
deepseek 开源前,跟国家领导人会见过。

套用哪吒的话:我活不活无所谓,只要美国科技屎
Advertisement
Advertisement

发表于 2025-2-26 12:37 |显示全部楼层
此文章由 ausox 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 ausox 所有!转贴必须注明作者、出处和本声明,并保持内容完整
就是没有政府的背后支持, 才能出deepseek这种公司, 希望中国政府少插手, 让这些公司自然发展

发表于 2025-2-26 12:42 |显示全部楼层
此文章由 laoqiu 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 laoqiu 所有!转贴必须注明作者、出处和本声明,并保持内容完整
DeepSeek是个好东西,可以用大数据给每个人的党性打分,从绝对忠诚到绝对不忠诚。

评分

参与人数 1积分 +2 收起 理由
西门吹风 + 2 你太有才了

查看全部评分

发表回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则

Advertisement
Advertisement
返回顶部