新足迹

 找回密码
 注册

精华好帖回顾

· 泰,不太一样 (真人骚已附) (2013-6-6) uandme · 美食美刻---重口味第六波--香肠酱肉,香辣排骨干锅,凉拌猪头肉,马兰头香干,三文鱼头豆腐汤,腌笃鲜 (2015-2-16) ta_xiang
· 美食接龙: bff进军厨艺界之惊天地泣鬼神小作之红烧排骨 下一棒:黑山老妖 食材:大蒜 (2008-8-23) bffbffbff · A year's rememberance (2005-3-16) bandf
Advertisement
Advertisement
查看: 835|回复: 20

“技术狂人”梁文锋正威胁美国在人工智能竞赛中的主导地位 [复制链接]

2012年度奖章获得者 2013年度奖章获得者

发表于 2025-5-15 07:08 |显示全部楼层
此文章由 dootbear 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 dootbear 所有!转贴必须注明作者、出处和本声明,并保持内容完整
Part 1

----------


彭博社超长新闻报道:“技术狂人”梁文锋正威胁美国在人工智能竞赛中的主导地位

梁文锋个子瘦削,性格内向,在会议上常常显得有些害羞,甚至紧张。

这位DeepSeek的创始人,这个近期颠覆全球人工智能领域的中国初创企业,说话常常磕磕绊绊,沉默时间也很长。

但新员工很快就会明白,别把他的沉思误认为胆怯。一旦他消化完讨论的细节,就会抛出一些尖锐、令人难以应对的问题,比如模型架构、计算成本,以及DeepSeek人工智能系统的各种技术细节。

员工们称他为“老板”(lǎo bǎn),在中国,这是对上司常见的尊称。

但不寻常的是,这位老板给年轻研究员甚至实习生的权限非常大,经常亲自走到他们桌前了解进展,还鼓励他们尝试一些不走寻常路的工程方案。只要能带来实际性能的提升,谈话越技术性越好。

梁文锋还会在公司内部的Lark工作群中亲自分享那些里程碑式的成果。

一位DeepSeek前员工表示:“他是个纯粹的技术宅。有时候我觉得他比研究员更懂研究。”

该员工和本文中许多受访者一样,因未获授权而要求匿名。

梁文锋和他创办的这家年轻公司在今年一月一炮而红,当时他们发布了名为R1的人工智能模型,给人一种“突破性进展”的震撼感。R1在多项标准化AI性能测试中击败了西方主导厂商,而DeepSeek声称,他们的基础模型开发成本只相当于GPT-4估算成本的5%。

这些测试结果引发了美国市场高达1万亿美元的抛售潮,也让人质疑美国试图通过出口管制来减缓中国AI进展的战略。亚马逊和微软争相将DeepSeek的模型纳入各自的云服务,跟Meta和Mistral AI的竞争产品并列。亚马逊语言模型平台负责人迪奥(Atul Deo)表示:“基本上就是一个周末的时间,关于DeepSeek的兴趣突然爆发,我们立刻行动起来”。

DeepSeek撕开了美国人看待中国AI的一层迷雾:过去那种“神秘又夸张”的印象逐渐被取代,人们开始不得不面对这个更令人胆寒的现实。在这家初创企业崛起之前,许多美国公司和政策制定者仍相信,中国在人工智能领域远远落后于硅谷,他们还有时间做准备,要么追求与中国平起平坐,要么阻止它达到这个水平。

但现实是,DeepSeek所在的杭州以及中国其它高科技中心,正涌现出大量“小AI龙”,这是对AI初创企业的昵称。本土创业公司如MiniMax和Moonshot AI打造的聊天机器人在国内外迅速走红。阿里巴巴集团的通义千问系列大语言模型在多个权威排行榜上与谷歌、Anthropic的产品并驾齐驱;百度首席执行官李彦宏在4月还表示,百度的新超级计算机采用自研芯片组装,能造出与DeepSeek一样好的模型,甚至成本更低。

华为技术有限公司也因其设计的AI设备受到赞誉,这些产品正与英伟达(Nvidia)所制造的高端GPU展开竞争,而英伟达GPU正是目前美国和欧洲先进AI模型的计算核心。


…但中国科技正在迎头赶上

几年前,中国共产党还在“给科技行业降温”,认为这个行业发展过快、管控不足。当局发起了反垄断调查和数据合规审查,像阿里巴巴联合创始人马云这样的科技明星也淡出了公众视野;社交媒体、零工经济平台和游戏应用也被强加了新规。而现在,面对外部干预,中共开始大力扶持本国科技产业。中国国家主席习近平正在集中资源发展人工智能和半导体产业,鼓励高技能人才,并呼吁建立一个“自主可控、协同高效”的软硬件生态系统。

那些原本用来限制中国AI发展的地缘政治限制,反而也推动了中国的技术进步。Counterpoint科技市场研究公司的分析师孙炜指出,中美之间在AI上的差距,如今已经不是以“年”而是以“月”来衡量了。他说:“中国有一种集体主义精神,以及一种愿意拼命干活的劲头,这让执行力更强。”

他还提到,由于英伟达芯片的短缺,中国反而激发出一些新颖的AI创新。

他说:“这种局面就像达尔文式的生存压力,谁能用更少资源做出更多,谁就能活下来。”

在中国眼里这是“创新”,但许多美国人仍然怀疑这背后存在不正当行为。美国国会众议院的一个两党委员会在四月发布报告,称DeepSeek与中国政府之间存在“重大”关联,指控该公司非法窃取了OpenAI的数据,构成了对美国国家安全的“深层威胁”。Anthropic公司首席执行官阿莫代伊(Dario Amodei)也呼吁加强美国出口管制,他在一篇3400字的博文中表示,DeepSeek肯定偷偷进口了大量英伟达GPU,包括其最先进的H100芯片。(彭博社近日也报道称,美国官员正在调查DeepSeek是否通过新加坡的第三方购买禁运芯片,从而绕过出口限制。)

中国驻美大使馆回应说,众议院委员会的指控“毫无根据”。英伟达也表示,DeepSeek使用的芯片符合出口规定,并称若对DeepSeek施加更多限制,反而会让中国的半导体产业受益。该芯片巨头的一位发言人表示,若迫使DeepSeek更多依赖国产芯片和服务,反而会“扶持华为以及其它海外AI基础设施供应商”。

而身处争议中心的DeepSeek,依然神秘莫测。该公司以开源AI技术为荣,但对自身的运作方式和意图却讳莫如深。它会在公开论文中披露极其具体的研究细节,却不愿透露基本的信息,比如其AI建模的成本、当前使用的GPU配置,或者数据的来源。

“我们不知道DeepSeek真正的动机,它就像一个黑箱。”

梁文锋本人的性格也让人难以接近,中国AI圈的一些领导人私下称他为“技术狂人”,这是专属那些性格古怪、野心极大的创业者的绰号。他过去10个月从未接受媒体采访,直到最近一次与中国国务院总理李强同场出席听证会时,他那张戴着眼镜、略显稚气的脸才首次被拍到。梁和他的同事们没有回应记者多次的采访请求,只有一名员工的自动回复写道,该邮件“正在处理”,“感谢您对DeepSeek的关注与支持!”

为了进一步了解这家公司如何运作,以及它在中国AI战略中的地位,《彭博商业周刊》采访了11位DeepSeek前员工,以及30多位了解中国AI行业的分析师、风险投资人和企业高管。


DeepSeek创始团队曾靠炒股程序起家,如今其AI技术被美国公司“用着怕着”

由于始终没有公开露面,像阿莫代伊(Dario Amodei)和OpenAI掌门人奥特曼这样的批评者得以填补这一“空白”,不断散布质疑,这些言论在美国听众中尤其有市场,他们早已习惯将中国科技视为神秘莫测的威胁。

不过,即使是那些对DeepSeek心存警惕的人,如今也不得不正视其AI的强大实力。

Perplexity AI公司的首席商务官谢韦连科(Dmitry Shevelenko)说,他公司的任何员工都没能联系上DeepSeek的任何人。但即便如此,Perplexity仍然采用了DeepSeek的技术,仅在美国和欧洲的服务器上运行,并重新训练模型,去除任何与中共审查有关的数据集。

他们将这一版本命名为R1 1776(象征美国建国年份),谢韦连科表示这是一种“向自由致敬”。

他说:“我们不知道DeepSeek的真实动机是什么,它就像一个黑箱。”

DeepSeek早就预料到其AI技术可能在海外引发担忧。2024年3月,在英伟达开发者大会的一场被人忽视的线上演讲中,DeepSeek的深度学习研究员陈德立曾提到,语言大模型(LLMs)中的价值观应当被“解绑”,以便适应不同社会。在一张冷静而理性的演示幻灯片中,陈展示了一个DeepSeek原型,可以根据使用者的社会背景调整聊天机器人的伦理标准。只需点击一个按钮,开发者就可以设定赌博、安乐死、性工作、持枪、大麻和代孕等议题的合法性。“他们只需要选中符合自己需求的选项,就能获得量身定制、契合其价值观的模型服务,”陈解释说。

在DeepSeek,“寻找高效变通的方法”一直是文化常态。早在2000年代中期,梁文锋和他的朋友在浙江大学攻读各类技术专业,机器学习、信号处理、电子工程等。为了好玩(也为了赚钱),他们在全球金融危机期间开发出了股票交易程序。

毕业后,梁开始独自开发量化交易系统,赚得一笔小财富。随后,他和几位大学好友在杭州合作创业,2015年成立了后来被称为“九坤量化”(High-Flyer Quant)的公司。

早期的招聘广告非常吸睛,宣称吸引了来自Google和Facebook的顶尖人才,寻找的是具备“怪才魅力”的数学和编程极客,就像情景喜剧《生活大爆炸》里的谢尔顿。他们承诺提供免费零食、Herman Miller的人体工学椅、德州扑克之夜、T恤加拖鞋的宽松文化氛围,还有一丝“金融科技兄弟文化”的调调,比如可以和“温柔可人的90后女生”和“从华尔街回来的冷艳女神”共事。

正如之后的DeepSeek一样,九坤也刻意营造出神秘气质,公司首条社交媒体发文只提到梁的代号“L先生”,同时又在某些方面追求透明。例如每周五,九坤都会在微信上发布旗下10只原创基金的表现图表。直到2016年夏天开始将这些数据限制为仅限注册投资者可见之前,这些基金组合的年化收益平均达到35%。

最终,九坤吸引了数十亿美元的资金,其投资和研究团队扩充到超过100人。2019年,梁开始全力组建AI部门,希望通过挖掘海量数据来发现被低估的股票、捕捉高频交易中的细微价格波动,甚至挖掘那些行业投资者忽视的宏观趋势。到新冠疫情初期,他和团队已经构建出一个由多颗处理器协同运行的高性能计算系统(即计算集群)。据九坤介绍,他们为这一集群配备了1000块英伟达2080Ti芯片(通常用于游戏和3D设计)以及100块Volta系列GPU(即V100,英伟达首款专为AI优化的芯片)。在旧系统下,训练一个新的经济模型需要两个月;但在新系统加持下,训练时间缩短到不到四天。

DeepSeek从量化交易起步,押注大规模AI计算转型,瞄准通用人工智能

这些用于金融的AI模型虽然表现亮眼,但规模仍远不及OpenAI等美国公司开发的通用模型。梁文锋推动建造一套更大规模的超级计算集群,采用英伟达最新的A100 GPU,这款芯片是V100的升级版。曾参与该项目的一位前九坤工程师表示,梁是这个集群中“使用量最大的人”,估计有80%的计算资源都分配到他的用户名下。这位工程师说,梁对深度学习几乎到了痴迷的程度,称其为“他烧钱的爱好”。虽然投下数亿美元打造AI基础设施对一家量化交易公司而言似乎有些“过头”,但梁早已赚得盆满钵满,完全负担得起。“对当时的梁来说,这是小钱,”该工程师回忆道。“算力越多,模型越好,交易利润也就越大。”

至少他们当时是这么想的。2021年12月,管理着约141亿美元资产的九坤量化致信投资人,为一段时间以来令人失望的投资回报表示歉意。公司将回撤归咎于AI系统,称其虽然选股精准,但在疫情带来的剧烈波动中,未能精准把握卖出时机。即便如此,九坤仍决定“加倍下注”AI。2022年1月,九坤在社交媒体宣布,已采购了5000块英伟达A100,每块价格通常高达数万美元。同年3月,又宣布计算集群已扩展至1万块,仅仅六个月后,英伟达就警告美国的新出口限制可能会影响这类芯片对中国的出口。

这些基础设施到底有多少是用于量化交易,又有多少是梁的“烧钱兴趣”,仍不清楚。2023年春,距OpenAI推出ChatGPT约五个月后,梁将DeepSeek拆分为一家独立的研究实验室。在杭州和北京的两个办公室里,金融已不再是焦点。在一份未署名的宣言中,九坤高调宣布将摒弃平庸,直面AI革命中最难的挑战,终极目标是:通用人工智能(AGI)。

2023年全年,DeepSeek实验室全速推进多项项目,包括AI编程助手、通用知识聊天机器人,以及文字转3D图像生成器。梁从九坤调来工程师,又从微软北京办事处、中国顶尖科技公司和大学招募新人。2023年9月,尚未开始读博的学生刘博(英文名Benjamin)以实习研究员身份加入。他说梁常将关键任务交给实习生,这些任务在别的公司通常是高级工程师才能接触的。“拿我来说吧:当我加入公司时,还没有人负责RLHF的基础架构(即‘人类反馈强化学习’所需的系统),所以他就让我来做。他会信任你去做那些从没人做过的事。”(这种信任对公司也有实质好处:DeepSeek给实习生的日薪是140美元,外加420美元的住房补贴,虽然在中国算是高薪,但仅为美国AI公司的实习工资三分之一,更远低于硅谷全职工程师的收入。)

据两位DeepSeek前研究员透露,梁早早押注“稀疏模型”(sparsity)这一新技术,它能通过“分工”方式更高效地训练和运行大语言模型(LLM)。在最早的ChatGPT中,无论是回答“2+2是多少”还是提供派的食谱,整套模型都会被激活;而稀疏模型则按功能划分为多个“专家”,每次只激活相关部分,从而更合理地利用资源。

DeepSeek发布V3模型震撼全球AI圈,训练成本低到令人难以置信

稀疏模型(sparse model)策略虽然能大幅降低算力成本,但复杂性极高。如果一个问题没有被正确分派到足够多的“脑回路”,或被送错“脑区”,模型的回答质量就会下降。(比如,“数学脑”知道怎么在公式中用π,但可能不知道派里面要放什么食材。)谷歌和法国独角兽Mistral在这方面已有突破,Mistral于2023年12月发布的稀疏模型由8个“专家”组成,每次提问只会激活其中两个最相关的部分。

梁文锋受到启发,鼓励团队打造拥有更多“专家”的模型,这虽然可能提升性能,但也会增加“幻觉”(模型产生错误信息)的风险,并可能导致知识碎片化。一位前DeepSeek员工透露:“这在公司内部引发了不少争论。”

但DeepSeek的进展接踵而至,每一次都公开发布,也越来越引起中国竞争者的关注。2024年末,DeepSeek发布了V3通用型AI模型,其规模比当时开源领域最大的大模型,Meta公司的同类产品大了约65%。不过,更令谷歌、OpenAI和微软高管震惊的,是DeepSeek发布的一篇长达数十页的V3研究论文,就在R1模型走红前一个月。论文中一个引爆点数据引人注目:

DeepSeek暗示V3的整体开发成本仅为560万美元。

很可能这个数字仅指最后一轮模型训练的精炼过程,但许多人误认为这是整个项目的总成本,这在行业中简直是“白菜价”。

相比之下,目前最先进的大模型通常需要1亿美元以上的训练成本。

Anthropic的阿莫代伊曾预测(在DeepSeek崛起前)下一代模型训练成本将高达一百亿甚至一千亿美元。

Hugging Face公司的研究负责人冯·韦拉(Leandro von Werra)指出,DeepSeek模型中最令人印象深刻的并非其“架构创新”,而是它显然拥有高质量的训练数据。这些数据要么是巧妙清洗过的互联网内容,要么通过其它手段提取。他说:“没有强大的数据集,模型就不会有好表现。从报告中可以明显看出,DeepSeek拥有目前最优秀的大模型训练数据集之一。但遗憾的是,这份50页的报告只用了半页讲数据。”

DeepSeek之所以进展迅速,是因为梁文锋将“开源精神”视为其核心理念。

他认为,像OpenAI和谷歌那样隐藏核心技术、对强大模型收费,只是追求短期利益,而非真正的长期成功。

相反,将模型完全公开且大多免费,是推广技术、让创业者和研究人员基于其平台开发应用的最高效方式。这样能形成“产品使用—反馈—优化”的飞轮效应。

大约两年前,DeepSeek在首次发布其开源大模型时就引用了Linux系统创始人的一句话:“嘴上说没用,给我看代码。”

“他们根本不缺钱。随着‘六小龙’爆红,市场上大量资金正砸向他们。”

2025年4月的一个阴天,在杭州萧山国际机场,到达旅客被阿里巴巴、字节跳动和华为等公司投放的AI广告牌包围。一位蓝发人形机器人在现代化航站楼内挥手迎宾;而在外面,一家初创企业正在测试小型自动驾驶货运卡车,用于停机坪的货物转运。尽管DeepSeek热度很高,但西方世界似乎忘了,这家公司只是中国数十个“硅谷”中崛起的众多AI“小龙”之一。

在杭州这座拥有1250万人口的超级城市,DeepSeek是“六小龙”这一科技新贵团体中的佼佼者。


仰望星空:南风车星系M83
M83南风车星系,在长蛇座,直径12万光年,距离地球一千五百万光年,是南半球看到最明亮和最近的棒旋星系之一。图中还看到距离我们22亿光年的PGC 88914星系。
Advertisement
Advertisement

2012年度奖章获得者 2013年度奖章获得者

发表于 2025-5-15 07:08 |显示全部楼层
此文章由 dootbear 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 dootbear 所有!转贴必须注明作者、出处和本声明,并保持内容完整
Part 2

---------

马云回归、阿里投530亿美元,中国“六小龙”背后的国家AI战略全面推进

在风景如画的杭州西湖区,有大热游戏《黑神话:悟空》的开发商Game Science,这家公司因运用机器学习让游戏角色更逼真而备受赞誉。不远处还有两家机器人技术强企,以及一家专攻3D空间软件的独角兽公司。再往附近走就是浙江强脑科技公司(Zhejiang Qiangnao Technology Co.,又名BrainCo),它可被视为中国版Neuralink,由出生中国的哈佛博士韩璧程创办。

如今BrainCo在杭州的附属实验室开发仿生义肢和脑机接口技术,能让人用脑电波控制计算机。该公司的一款AI驱动仿生手目前正陈列于杭州“中国人工智能小镇”的展览中心,这是又一座新兴的科技创新高地。

据一位近期参观者透露,BrainCo的高管们近来亲自为参观者讲解展品。许多观众参观完后都跃跃欲试想投资,但这些“脑机专家”似乎并不急于拿外部资本。“他们根本不缺钱,”一位参与参观的基金经理说,“随着‘六小龙’热度飙升,投资人主动送钱。”

而默默站在这一切背后的,是习近平领导下的中国政府。生成式AI、机器人及其它高科技野心,已被纳入国家战略核心。新华社援引他在最近一次中共中央政治局会议上的话称,国家要追求“自立自强”,“必须正视差距、加倍努力,全方位推进科技创新、产业发展和AI赋能应用。”

“六小龙”听到了号令,而且这些“小龙”并不都那么“小”。阿里巴巴的主园区位于距离西湖车程40分钟的杭州西部,占地巨大、园区内甚至有湖。阿里最近承诺未来三年将投资530亿美元建设更多AI数据中心,并宣称其最新旗舰模型通义千问3代(Qwen3)在性能和成本上可与DeepSeek匹敌。在中国之外,阿里通常被视为电商公司,但其增长最快的业务其实是AI和云计算。2022年,该业务已被独立拆分至杭州郊外一个新园区。在那里的会议室里,大屏幕每72小时更新一次“行业洞察快讯”,显示DeepSeek、OpenAI等竞争对手的最新成就;甚至连洗手间内都有每周更新的简报,提醒员工“就算人有三急,AI也不能停”。

2025年4月,曾在中共整顿科技行业期间“消失”的阿里联合创始人马云重新现身,出现在公司园区内,庆祝阿里云成立15周年。几位目睹此情此景的人说,在这场罕见的演讲中,马云表示希望AI为人所用,而不是凌驾于人之上。港澳台和东京办事处也同步观看直播,现场观众都为他的“王者归来”激动不已。

这也再次表明:像马云这样的“科技明星”似乎已重新获得中共的支持,而新一代的科技领导者如梁文锋也正加入这个行列,此时,许多美国科技领袖的光环已逐渐褪去。中国国内的民族自豪感正在上升,迫切想向外界证明它能跨越西方设置的重重障碍。亚洲集团(Asia Group LLC)驻香港政策总监George Chen说,越来越多曾在苹果、谷歌、微软等顶尖美企工作的中国工程师正在选择“归国效力”。他指出,特朗普政府的敌意是一方面,更重要的是,许多人才感受到“真正的科技战场正在东移”。“硅谷已不再吸引中国技术人才,”他说。

中国AI人才“土生土长”,DeepSeek成国家骄傲却被美方视为“神秘威胁”

中国另一家AI独角兽公司01.AI的创始人李开复表示,年轻一代的技术人才走的已经不是他曾经“先在苹果、谷歌、微软打工,再回国创业”的路了。“这些年轻AI工程师大多是土生土长的”。

他说,“DeepSeek的成功,还有其他AI新创公司的成功,正在激励更多年轻人参与中国的AI复兴。”

在今天的中国,没有哪家科技公司比DeepSeek更能激发民族自豪感。今年4月,加拿大27岁的计算机科学家冯启文(Kirby Fung)带家人到杭州旅行,还特地参观了梁文锋的母校浙江大学。冯曾在那里参加过交换项目,他想让爷爷奶奶和弟弟看看这位AI领军人物曾在何处求学。冯说:“能跟加拿大的朋友说‘DeepSeek的创始人也在我学校读过书’,这真的太酷了”。

如今,游客和社交媒体网红也会定期“打卡”DeepSeek总部。这家总部位于一组俯瞰中国大运河的四座塔楼中,不少游客会跑去旁边的商铺“找梁文锋”,包括那家位于DeepSeek大楼内、员工偶尔会去的高端火锅店。(不过,店员经常得遗憾地告诉大家:“他从来没来过。”)

熟悉梁文锋的人说,他现在在杭州与北京办公室之间来回奔波。北京的办公室设在当地一个科技园区的一座玻璃塔楼五楼,20多岁的程序员们坐在可升降的办公桌前埋头苦干,茶水间里摆满了能量饮料、康师傅泡面和辣条,墙上的白板还写着员工要求加餐的留言。一位刚离职的研究员说:“我在那里中饭晚饭都吃,几个月下来胖了一圈。”

梁极少接受外部会议,有时即便答应了,也只以全息投影的形式现身。他还拒绝了今年巴黎举办的重量级“AI行动峰会”的邀请,这场大会吸引了OpenAI的奥特曼,Alphabet与谷歌CEO皮查伊,以及多国总理和总统参加。

在中国,DeepSeek正被视为国家骄傲;但在美国,它却像一只突然出现在“饮水系统”的陌生生物,被反复检视是否“有害”。批评者指控DeepSeek受中共控制,盗取了美国AI公司的训练数据,并可能参与更大规模的间谍活动或心理战,意图破坏硅谷在AI领域的霸权。“DeepSeek就是美国科技界通往中国共产党监控国家的直通管道,不仅威胁美国公民的隐私,还威胁我们的国家安全,”一位美国国会众议院调查DeepSeek的委员会发言人表示。


DeepSeek被指隐匿算力资源,中美AI竞赛在限制与突破之间愈演愈烈

然而,DeepSeek一直将自己定位为与其他热门初创公司无异,它在今年2月X平台的发文中自称是“纯粹车库能量的产物”。毕竟它的办公地就在北京,与谷歌同在一个园区,周围还有汉堡王和两家Tim Hortons咖啡店。就因为AI圈此前没太关注DeepSeek,并不代表它背后有任何“见不得人”的操作。

Alpha Intelligence Capital合伙人巴特勒米(Arnaud Barthelemy)说:“AI行业没料到DeepSeek的崛起,”。该公司曾投资OpenAI和商汤科技。“但他们本该料到的。”

巴特勒米认为,DeepSeek的最大启示在于:中国科技公司正在把外部限制转化为自身优势。

他说:“中国有很多聪明人,他们在算力资源远低于西方的情况下,仍然做出了非常聪明的创新。”

事实上,就在DeepSeek成立的同一个月,2023年5月,英伟达CEO黄仁勋在接受《彭博商业周刊》采访时就曾警告,美国对中国过度监管只会刺激中国加速创新。他将经济影响力称为国家安全的一种工具,并强调政府干预带来的“意外后果可能非常严重”。

他说:“要是失去了全球科技市场的三分之一,对美国来说将是灾难性的”。

他指的是限制美国技术出口对中国的风险。他说:“他们(中国)会在没有竞争的环境下茁壮成长,然后把成果出口到欧洲、东南亚。”

黄仁勋接着说:“你必须谨慎评估竞争被推到多远。一旦过头,反弹会非常难以预测。那些‘没什么可失去’的人,会以让人意想不到的方式作出回应。”

不过,关于DeepSeek故事的一个核心争议至今仍未厘清:他们到底花了多少钱建模型?美国研究机构SemiAnalysis在一份广泛引用的报告中估计,九坤和DeepSeek可能拥有约5万块英伟达最先进的H系列GPU,总价值达14亿美元,但这些硬件大多没有对外公开。

该机构称,大部分GPU可能是符合出口规定的,包括美国允许销售给中国、经性能削弱后的H20和H800芯片;但报告也指控DeepSeek获得了额外的1万块H100顶尖芯片,而这些芯片已被美国政府列入禁运名单。

三位DeepSeek前员工对此强烈否认,称公司实际GPU数量不到2万块,且多为旧型号和受控芯片。

博士生刘博(Bo Liu)说:“他们在造谣”。SemiAnalysis则表示坚持其报告结论。

但有一点没人否认:如果能像美国科技公司那样拥有海量算力,DeepSeek当然乐见其成。公司内部显然相信,自己能将这些资源用得比硅谷更有效。

一位前员工坦言:“现在LLM研究者的算力胃口极大,要是我有几万块H系列GPU,说不定也会变得浪费,跑很多没必要的实验”。但对中国技术人员来说,这样的“资源过剩”是一个他们乐于面对的问题。

这位后来加入北京某开源AI实验室的员工说:“我真希望我们中国公司有一天也能有5万块GPU,你们想看看我们能做出什么成果吗?”













来源:

https://www.bloomberg.com/news/f ... ?srnd=homepage-asia

By Bloomberg Businessweek
May 14, 2025 at 7:00 AM GMT+10

评分

参与人数 1积分 +5 收起 理由
清咖一杯 + 5 辛苦了

查看全部评分

仰望星空:南风车星系M83
M83南风车星系,在长蛇座,直径12万光年,距离地球一千五百万光年,是南半球看到最明亮和最近的棒旋星系之一。图中还看到距离我们22亿光年的PGC 88914星系。

2012年度奖章获得者 2013年度奖章获得者

发表于 2025-5-15 07:10 |显示全部楼层
此文章由 dootbear 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 dootbear 所有!转贴必须注明作者、出处和本声明,并保持内容完整
本长文的10个要点总结:

1. 梁文锋与DeepSeek异军突起,挑战美方主导权
DeepSeek创始人梁文锋以技术执着、极简沟通风格闻名,主导开发的R1模型在多个标准AI测试中超越OpenAI,开发成本却只有GPT-4的5%。R1的问世导致美股市值蒸发1万亿美元,引发对美国AI出口管制政策有效性的质疑。

2. DeepSeek彻底改变了中国AI的全球形象
DeepSeek打破了美国对中国AI“神秘低效”的传统印象,成为美国科技公司争抢合作的对象。它让外界意识到:中国AI已经不再落后,而是正从“追赶者”转变为“领跑者”。

3. 中国政策扶持+出口限制,反促AI逆势突破
习近平政府近年来大力扶持AI与半导体,自主可控成国家战略重点。反而是美国的出口限制(如对英伟达H100芯片的禁令)在催化中国AI公司利用稀缺资源做出创新突破,被称为“达尔文式生存压力”。

4. DeepSeek被美国指控窃取OpenAI数据并规避制裁
美国国会、Anthropic、SemiAnalysis等机构指控DeepSeek非法使用OpenAI数据、秘密采购禁运芯片。DeepSeek和中国大使馆均否认,英伟达也称其芯片符合出口规则,并警告进一步限制将有利于中国本土芯片商如华为。

5. 从量化交易起家,梁文锋豪赌AI基础设施
梁文锋曾创办九坤量化,在金融领域积累资金后将AI视为“烧钱爱好”,斥资数亿美元建超级算力集群(含超万块A100 GPU)。后将AI部门独立为DeepSeek,宣布目标是“通用人工智能(AGI)”。

6. DeepSeek的稀疏模型路线获得领先优势
DeepSeek选择稀疏模型(Sparse Model)作为技术突破口,对应降低训练成本、提高效率。其V3模型比Meta开源大模型大65%,但声称训练成本仅560万美元,引发业内对其数据质量与效率的高度关注。

7. “开源优先”策略推动生态飞轮发展
与OpenAI、谷歌等商业化封闭路径不同,DeepSeek将“代码开放、模型免费”作为加速应用扩展的策略,吸引大量开发者与初创公司跟进。其口号为:“嘴上说没用,给我看代码。”

8. 中国AI“六小龙”崛起,政府战略全面推进
杭州成为中国AI创新中心,涌现包括DeepSeek、BrainCo、Game Science等公司。阿里承诺投530亿美元扩建AI基础设施,马云复出发言鼓舞业界。习近平要求AI助力“自立自强”,民族自豪感高涨。

9. DeepSeek成为民族象征,却在美国被视为“黑箱威胁”
DeepSeek在中国被视为“国家骄傲”,但在美国政界和科技界被当作潜在监控工具和国家安全威胁。美国众议院称其是“中国共产党监控国家的技术通道”。

10. 中美算力对比悬殊,中国渴望突破封锁
DeepSeek被指秘密拥有5万块H系列GPU,总值14亿美元,但公司否认,称总数不到2万且多为旧型号。一位前员工坦言:“如果我们有5万块GPU,真的想让你们看看我们能做到什么。”


评分

参与人数 1积分 +6 收起 理由
swallow7 + 6 感谢分享

查看全部评分

仰望星空:南风车星系M83
M83南风车星系,在长蛇座,直径12万光年,距离地球一千五百万光年,是南半球看到最明亮和最近的棒旋星系之一。图中还看到距离我们22亿光年的PGC 88914星系。

发表于 2025-5-15 07:23 来自手机 |显示全部楼层
此文章由 rayki 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 rayki 所有!转贴必须注明作者、出处和本声明,并保持内容完整
文章好长啊,最近看短视频说ds 开始胡说八道了,貌似和前端数据源有关系,博主举例说问5G分布图,ds给出的答案是大秦帝国5G分布图(前端是网友写的奇幻小说),这个就神奇了,看后续。

发表于 2025-5-15 07:27 来自手机 |显示全部楼层
此文章由 che999 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 che999 所有!转贴必须注明作者、出处和本声明,并保持内容完整
rayki 发表于 2025-5-15 07:23
文章好长啊,最近看短视频说ds 开始胡说八道了,貌似和前端数据源有关系,博主举例说问5G分布图,ds给出的 ...

我刚试了

5G分布图


回答正确

发表于 2025-5-15 07:28 |显示全部楼层
此文章由 swallow7 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 swallow7 所有!转贴必须注明作者、出处和本声明,并保持内容完整

君子讷于言而敏于行,和印度人完全不一样,所以能干大事
Advertisement
Advertisement

发表于 2025-5-15 07:30 来自手机 |显示全部楼层
此文章由 rayki 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 rayki 所有!转贴必须注明作者、出处和本声明,并保持内容完整
che999 发表于 2025-5-15 07:27
我刚试了

5G分布图

这个短视频这两天看的,觉得取决于具体问法和国家甚至区域,反正一般不去问互联网能找到的东西,让AI做fact check多少有点尴尬。
所以没去测试。
我来问道无余话,云在青天水在瓶

发表于 2025-5-15 07:30 |显示全部楼层
此文章由 激情花甲 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 激情花甲 所有!转贴必须注明作者、出处和本声明,并保持内容完整
本帖最后由 激情花甲 于 2025-5-15 07:33 编辑

量化交易,让千万股民亏钱的恶魔,原来出处如此,吸血鬼。科技造福人类,也能杀人。

发表于 2025-5-15 07:31 |显示全部楼层
此文章由 cjpking 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 cjpking 所有!转贴必须注明作者、出处和本声明,并保持内容完整
一定要确保梁文锋的人身安全,不要让悲剧再次发生。

发表于 2025-5-15 07:41 |显示全部楼层
此文章由 激情花甲 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 激情花甲 所有!转贴必须注明作者、出处和本声明,并保持内容完整
cjpking 发表于 2025-5-15 07:31
一定要确保梁文锋的人身安全,不要让悲剧再次发生。

财大伤身,有财的人长寿极少。

发表于 2025-5-15 07:49 |显示全部楼层
此文章由 cjpking 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 cjpking 所有!转贴必须注明作者、出处和本声明,并保持内容完整
激情花甲 发表于 2025-5-15 07:41
财大伤身,有财的人长寿极少。

晕,我说的是人身安全, 不是寿命啊,再说梁文锋1985生的,才40岁而已,担心他寿命是不是太早了些?
Advertisement
Advertisement

发表于 2025-5-15 07:53 来自手机 |显示全部楼层
此文章由 joshua_cas 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 joshua_cas 所有!转贴必须注明作者、出处和本声明,并保持内容完整
广东仔

发表于 2025-5-15 08:11 来自手机 |显示全部楼层
此文章由 APSTNDP 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 APSTNDP 所有!转贴必须注明作者、出处和本声明,并保持内容完整
同样的东西,美国人做了,就是文明的灯塔
中国人做的,就是让千万股民亏钱的恶魔

原罪

发表于 2025-5-15 10:11 |显示全部楼层
此文章由 pzh 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 pzh 所有!转贴必须注明作者、出处和本声明,并保持内容完整
激情花甲 发表于 2025-5-15 07:41
财大伤身,有财的人长寿极少。

巴菲特笑而不语

发表于 2025-5-15 10:34 |显示全部楼层
此文章由 激情花甲 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 激情花甲 所有!转贴必须注明作者、出处和本声明,并保持内容完整
pzh 发表于 2025-5-15 10:11
巴菲特笑而不语

赢了钱,不停的做好事,面像就善良。

发表于 2025-5-15 10:50 来自手机 |显示全部楼层
此文章由 cwb1000 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 cwb1000 所有!转贴必须注明作者、出处和本声明,并保持内容完整
这媒体搞不过就开始人身攻击
专门挑几张图来judge别人
Advertisement
Advertisement

发表于 2025-5-15 10:56 来自手机 |显示全部楼层
此文章由 FireRain 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 FireRain 所有!转贴必须注明作者、出处和本声明,并保持内容完整
激情花甲 发表于 2025-5-15 10:34
赢了钱,不停的做好事,面像就善良。

乔治索罗斯,所做的事和面相同善良不沾边,也快百岁了

发表于 2025-5-15 11:07 |显示全部楼层
此文章由 flip 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 flip 所有!转贴必须注明作者、出处和本声明,并保持内容完整
梁蒸馏吗?

发表于 2025-5-15 11:21 |显示全部楼层
此文章由 自游自在 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 自游自在 所有!转贴必须注明作者、出处和本声明,并保持内容完整
牛人

发表于 2025-5-15 12:03 |显示全部楼层
此文章由 zjgcs 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 zjgcs 所有!转贴必须注明作者、出处和本声明,并保持内容完整
不用担心。几十年来,在中文简体世界,美的在一天天腐败,腐朽没落的几十年,如果没有改开,差距越来越大。改开稍有成就,就蹦出来“民营企业退场论”。这样的社会,怎么可能产生先进的东西。

改开后抄作业抄得不错,但是一旦有点钱,肯定会烧包,自己把自己毁了。历史上已经演过几次了。

从农民分到地,到后来公社化,到黑暗十年,然后又承包制,引进外资,鼓励民企,普通百姓生活水平日益提高,然后是“民营企业立场论”,丑化“资本”,抵制“外资”。

内资外资都有问题了,还能有什么创新?

一枝独秀,先不说是不是真的“秀”,假设是真的,但“一枝红不是红,万紫千红才是红”。

仅仅靠几个模范,仅仅能起到的作用,仅仅是“自豪感”。

发表于 2025-5-15 12:15 |显示全部楼层
此文章由 清咖一杯 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 清咖一杯 所有!转贴必须注明作者、出处和本声明,并保持内容完整
FireRain 发表于 2025-5-15 10:56
乔治索罗斯,所做的事和面相同善良不沾边,也快百岁了

最具说服力的难道不是川皇?
Advertisement
Advertisement

发表回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则

Advertisement
Advertisement
返回顶部