新足迹

标题: 小型中国AI初创公司DeepSeek震惊硅谷 [打印本页]

作者: dootbear    时间: 2025-1-27 06:22
标题: 小型中国AI初创公司DeepSeek震惊硅谷
金融时报:小型中国AI初创公司DeepSeek震惊硅谷  

尽管美国试图阻止中国的高科技野心,对冲基金亿万富翁梁文锋(Liang Wenfeng)在有限的预算下成功构建了一个AI模型。

小型实验室突破性成果引发轰动  

本周,一家小型中国人工智能实验室发布了其尖端模型的技术细节,震惊了世界,也让其隐秘的创始人梁文峰成为民族英雄。他的成功挑战了美国阻止中国高科技发展的企图。  

DeepSeek由对冲基金经理梁文峰创立,本周一发布了其R1模型,并在一篇详细的论文中解释了如何在有限预算下构建一个大型语言模型。

这个模型能够自动学习和改进,无需人工监督。  

硅谷争论技术优势是否能保持  

美国公司如OpenAI和Google DeepMind率先在推理模型领域取得进展。推理模型是一项较新的AI研究领域,旨在使模型达到人类认知能力的水平。然而,尽管旧金山的OpenAI去年12月发布了其完整的o1模型,但并未公开其方法。  

DeepSeek的R1模型发布后,在硅谷引发了激烈的争论。人们质疑美国资源更丰富的AI公司如Meta和Anthropic,是否能维持其技术优势。  

梁文峰成民族骄傲  

与此同时,梁文峰在中国国内成为国家自豪的象征。

本周,他是唯一受邀参加与中国第二号领导人李强会面的一位AI领域领袖。会议强调企业家要“集中精力攻克关键核心技术”。  

非传统路径助力成功  

梁文峰的AI项目始于2021年。当时他经营量化交易基金High-Flyer,同时购买了数千块英伟达图形处理单元(GPU)。

业界人士起初认为这是一个亿万富翁的“业余爱好”。  

一位商业合作伙伴回忆道:“我们第一次见到他时,他看起来是个发型糟糕的书呆子,一直谈论要用一万个芯片建一个集群来训练模型。我们当时并未把他当回事。”  

梁文峰在AI领域的“局外人”身份反而成为了他的优势。

他在High-Flyer积累了利用AI和算法识别股市模式的财富,同时团队也精通使用英伟达芯片进行交易。

2023年,他正式创立DeepSeek,并宣布要开发人类水平的AI。  

芯片限制倒逼创新  

在美国禁止英伟达将最先进芯片出口到中国后,当地AI公司不得不创新利用有限的国内芯片算力。

而梁文峰的团队早已掌握了如何最大化芯片性能。  

DeepSeek的工程师擅长挖掘GPU的潜力,即使这些芯片不是最先进的

这使得DeepSeek成为一个专注于研究的强大竞争者。  

专注研究的模式  

DeepSeek并未接受外部融资,也未将其模型进行大规模商业化。北京的一位AI投资者将其形容为“像DeepMind早期的样子”,完全专注于研究与工程。  

梁文锋亲自参与DeepSeek的研究,他也用量化交易基金的收益为DeepSeek支付高薪。

与TikTok所有者字节跳动一样,DeepSeek以在中国为AI工程师提供最高薪酬而闻名,员工分布在杭州和北京的办公室。

他的团队汇集了来自北京大学,清华大学和北京航空航天大学的顶尖人才,而不是依赖海外专家。  

在去年接受国内媒体采访时,他表示他的核心团队“没有从海外归来的人。他们都是本土人才,我们必须自己培养顶尖人才。”

DeepSeek作为一家纯粹的中国大型语言模型公司,赢得了国内的赞誉。

这位商业伙伴说。“团队相信梁文锋的愿景:向世界展示中国人可以具有创造力,并从零开始构建一些东西。”

有限资源的成功训练  

DeepSeek声称,仅用2048块英伟达H800芯片和560万美元,便训练出了一个拥有6710亿参数的模型,而这只是OpenAI和Google开发类似规模模型成本的一小部分。  

加州大学伯克利分校的AI政策研究员Ritwik Gupta表示,DeepSeek最近的模型发布表明,“在AI能力方面没有护城河”。

他说,“第一个训练模型的人必须花费大量资源才能达到目标。但后来者可以以更低的成本和更快的速度达到同样的目标。”

Gupta补充说,中国在系统工程师方面的人才库比美国大得多,他们更了解如何充分利用计算资源,以更低的成本训练和运行模型。

未来挑战与竞争  

尽管DeepSeek用有限资源取得了令人印象深刻的成果,但业内人士认为,随着行业演变,其竞争力能否持续仍是未知数。  

High-Flyer的投资回报在2024年有所下降,一位接近梁文峰的人士表示,这是因为梁将大部分精力放在了DeepSeek上。而与此同时,美国竞争对手正在扩大下一代芯片集群的规模。  

本周,OpenAI宣布与日本软银(SoftBank)成立合资企业“Stargate”,计划投资至少一千亿美元用于AI基础设施。马斯克的xAI正在大规模扩展其Colossus超级计算机,以容纳超过一百万个GPU,以帮助训练其Grok AI模型。

尽管DeepSeek目前拥有中国最大的先进计算集群之一,但梁文峰的商业伙伴坦言:“现在资源足够,但未来可能会面临压力。”  





来源:

https://www.ft.com/content/747a7b11-dcba-4aa5-8d25-403f56216d7e

Eleanor Olcott in Beijing and Zijing Wu in Hong Kong January 24 2025

作者: dootbear    时间: 2025-1-27 06:23
本文要点:  

1. 中国AI初创公司DeepSeek发布了R1模型,引发全球关注,并推动了硅谷对AI技术优势的讨论。  

2. 创始人梁文峰通过量化交易经验和自主创新,在有限资源下打造出了尖端模型。  

3. DeepSeek团队擅长利用本地有限的GPU资源,这种技术优势让其在中美竞争中脱颖而出。  

4. DeepSeek坚持以研究为中心,没有进行大规模商业化,与DeepMind的早期发展类似。  

5. 梁文峰强调团队本土化,主要吸纳国内顶尖高校人才,而非依赖海外归国专家。  

6. DeepSeek利用有限资源成功训练出6710亿参数模型,仅耗资560万美元,显示出其创新能力。  

7. 美国竞争对手如OpenAI和xAI正在大规模扩展其计算资源,加剧了全球AI竞争压力。  

8. DeepSeek的未来能否保持竞争力仍是未知数,特别是在美国AI公司快速发展的背景下。  


作者: Blackburnian    时间: 2025-1-27 07:00
dootbear 发表于 2025-1-27 07:23
本文要点:  

1. 中国AI初创公司DeepSeek发布了R1模型,引发全球关注,并推动了硅谷对AI技术优势的讨论。  ...

GPT在两年前横空出世以来,发展速度令人惊叹。如今,中国的AI模型逐渐走出自己的新路径,展现出追赶甚至超越美国的潜力。这无疑会推动美国加大在AI领域的投资。在中美激烈竞争的推动下,AI技术的发展可能会进一步加速,也许再过2-3年,AGI(通用人工智能)就有望诞生。
作者: figtree1    时间: 2025-1-27 07:06
提示: 作者被禁止或删除 内容自动屏蔽
作者: 粤式油鸡    时间: 2025-1-27 07:09
寻思澳洲也能有什么东西能让世界震惊一下吗?

我能想到工会应该算一个了,地位高,且组织罢工涨薪的技巧很丰富
作者: swallow7    时间: 2025-1-27 07:10
六代机,人工智能,电磁弹射,空间站,登陆月球,研发团队都是土鳖,和当代海归没关系
作者: kiama    时间: 2025-1-27 07:11
提示: 该帖被管理员或版主屏蔽
作者: figtree1    时间: 2025-1-27 07:12
提示: 作者被禁止或删除 内容自动屏蔽
作者: dootbear    时间: 2025-1-27 07:16
figtree1 发表于 2025-1-27 08:12
使用DS的Deep think(R1)模式,系统会显示非常人性化的推导过程,经常出现“wait, Wait",然后提出另一个思 ...

DeepSeek,它给了一个"aha moment",我的意思是,这模型会在思考到一半突然深度反思,然后说,“等等,这很蠢,我来修正一下。”

它实际上增强了缩放法则的规则。。。

很快,全球各大模型也会用DS这个方法了。

DS的开源很好,极大促进了LLM的研发。


作者: figtree1    时间: 2025-1-27 07:19
提示: 作者被禁止或删除 内容自动屏蔽
作者: figtree1    时间: 2025-1-27 07:23
提示: 作者被禁止或删除 内容自动屏蔽
作者: pzh    时间: 2025-1-27 07:24
粤式油鸡 发表于 2025-1-27 07:09
寻思澳洲也能有什么东西能让世界震惊一下吗?

我能想到工会应该算一个了,地位高,且组织罢工涨薪的技巧很 ...

澳洲工会和美国工会比简直是弱鸡。美国码头工会居然可以要求雇主不准引入自动化设备,还可以得到拜登支持。
作者: ericcheung17    时间: 2025-1-27 07:24
提示: 该帖被管理员或版主屏蔽
作者: ralphk    时间: 2025-1-27 07:39
厉害。

我们不禁要反思,为什么中国DeepSeek愿意分享非常先进的算法,而不是申请专利,关起门来设置壁垒,大嘴巴指责别人剽窃,和别人告来高去。一定要反思,深刻的反思。
作者: dootbear    时间: 2025-1-27 07:41
大家有没有发现一个问题,这一波AI浪潮,没有啥巴拉特的事儿。

为啥呢?

按理说,巴拉特也有百万的理工/计算机人才啊。


作者: dootbear    时间: 2025-1-27 07:44
你们看,目前全球AI最顶尖的科学家/研发人员,绝大多数是白人,华人和犹太人。

为啥没有涌现大批的巴拉特顶尖AI研发大拿呢?


作者: danielweng    时间: 2025-1-27 07:44
dootbear 发表于 2025-1-27 08:41
大家有没有发现一个问题,这一波AI浪潮,没有啥巴拉特的事儿。

为啥呢?

空气污染太严重了,头疼?
作者: shuobuzuji    时间: 2025-1-27 07:44
提示: 作者被禁止或删除 内容自动屏蔽
作者: 粤式油鸡    时间: 2025-1-27 07:47
pzh 发表于 2025-1-27 08:24
澳洲工会和美国工会比简直是弱鸡。美国码头工会居然可以要求雇主不准引入自动化设备,还可以得到拜登支持 ...

看来澳洲工会还有很长的路要走
作者: persist    时间: 2025-1-27 07:48
本帖最后由 persist 于 2025-1-27 08:49 编辑

区别还是有的:Deepseek vs ChatGPT

[attach]2538595[/attach]

[attach]2538594[/attach]
作者: yx.zhang    时间: 2025-1-27 07:53
dootbear 发表于 2025-1-27 05:44
你们看,目前全球AI最顶尖的科学家/研发人员,绝大多数是白人,华人和犹太人。

为啥没有涌现大批的巴拉特 ...

他们可以坐在机器后面给你写答案
作者: dootbear    时间: 2025-1-27 07:55
据说, Meta的工程师们正在疯狂地研究 Deepseek,试图从中复制一切可能的东西。

管理层在担心如何证明生成式人工智能组织的高额成本是合理的。

当每个生成式人工智能组织的“领导”的薪水都比训练整个 Deepseek V3 的成本还要高时,他们该如何面对高层领导呢?而且Meta有很多这样的“领导”。




作者: cutebaby    时间: 2025-1-27 07:55
淡定

看看后续
作者: HolyHH    时间: 2025-1-27 07:56
persist 发表于 2025-1-27 08:48
区别还是有的:Deepseek vs ChatGPT

马上要被第三代替换的Grok2都会这道题。


作者: adamfuzhou    时间: 2025-1-27 08:00
dootbear 发表于 2025-1-27 08:41
大家有没有发现一个问题,这一波AI浪潮,没有啥巴拉特的事儿。

为啥呢?

巴拉特忙着阅兵,昨天实在无聊看了会直播,那雾霾,真怕炸鸡
作者: Kdst494    时间: 2025-1-27 08:02
有没有chatgpt牛逼,拿出来给人用用就知道了
作者: dootbear    时间: 2025-1-27 08:03
adamfuzhou 发表于 2025-1-27 09:00
巴拉特忙着阅兵,昨天实在无聊看了会直播,那雾霾,真怕炸鸡

根据历史的经验,一个新的技术革命到改变人类生活方式,需要经历:

投资养号,生产创造,居民消费。

这三个顺序阶段才刚刚开始。

中美现在是在前排。

巴拉特作为全球第一大人口国,再不追赶,就要被抛弃了。


作者: nvy    时间: 2025-1-27 08:14
dootbear 发表于 2025-1-27 08:41
大家有没有发现一个问题,这一波AI浪潮,没有啥巴拉特的事儿。

为啥呢?

中国已经成功建立了美国硅谷的机制,把资金 人才 市场有机结合起来,印度只有人才还是远远不够的。
作者: nvy    时间: 2025-1-27 08:20
dootbear 发表于 2025-1-27 09:03
根据历史的经验,一个新的技术革命到改变人类生活方式,需要经历:

投资养号,生产创造,居民消费。

这是表面的顺序,不是内在的机理。第一步的资金哪里来?西方是殖民掠夺,中国是压榨几亿农民。印度没法弄。
作者: dootbear    时间: 2025-1-27 08:24
到目前为止,大家都认为,行业贡献而言:

GPT>deepseek>gemini>llama及其它




作者: dootbear    时间: 2025-1-27 08:25
很多人的着眼点在于DS用很少的卡也能训练出效果差不多的模型,但这是结果,更重要的他能做到这一点的技术:

DS这次最亮眼的是证明了纯粹的outcome reward RL能够直接把模型提到o1水平,在他出来之前,业内所有人(包括deepmind)都认为需要prm (process reward model)才能做到这点。

这就已经是颠覆行业的发现了,现在所有除gpt外的llm大组,都在推倒重来,各大模型都正在copying他们的训练方法。



  

作者: dootbear    时间: 2025-1-27 08:26
另外非常重要的是DS还研发出这种训练方式,甚至能够让模型自己学会longer-chain reasoning以及reflection,他们所谓“aha moment”。

相当于只训练llm得到更准确的结果,LLM就能自己学会反思,思考到一半知道自己这样做下去会错,然后尝试自己纠错。

这种模型“自我进化”的特性,是业内仅次于GPT intelligence emergence的重大发现。


作者: dootbear    时间: 2025-1-27 08:28
就结果而言,“用更少的卡训练出效果差不多的模型”可能不仅仅是节约成本这么简单,更是一种improvement of scaling law。

这意味着这种方法往上堆更多的卡,有可能把模型能力再往上提升一个数量级,甚至直接达到AGI/ASI

这就是为什么这次业内这么沸腾,DS开源的价值远大于llama,llama基本是大家已知的方法堆卡训练。

DS的研发和开源,改变了AI赛道的游戏规则,带来了太多的惊喜。


作者: DDD888    时间: 2025-1-27 08:41
dootbear 发表于 2025-1-27 09:25
很多人的着眼点在于DS用很少的卡也能训练出效果差不多的模型


DeepSeek Has 50,000 NVIDIA H100 AI GPUs

https://wccftech.com/chinese-ai- ... i-gpus-says-ai-ceo/

What is the truth?
作者: Hillsroo    时间: 2025-1-27 08:44
太给力
作者: 独步闲庭    时间: 2025-1-27 08:59
拜登捂着不让出口的AI战略被冲击的稀巴烂。以后穷国小国也可以大展身手。
作者: shuobuzuji    时间: 2025-1-27 08:59
提示: 作者被禁止或删除 内容自动屏蔽
作者: yybsn    时间: 2025-1-27 08:59
看到足迹首页头三条新闻全部是 中国智能AI牛逼的 新闻,我怀疑我是不是在看人民日报,头版都是习主席的消息……  
作者: 春暖花开2020    时间: 2025-1-27 09:02
太棒啦!
作者: qzhang10    时间: 2025-1-27 09:07
提示: 作者被禁止或删除 内容自动屏蔽
作者: Evo    时间: 2025-1-27 09:41
dootbear 发表于 2025-1-27 08:28
就结果而言,“用更少的卡训练出效果差不多的模型”可能不仅仅是节约成本这么简单,更是一种improvement of ...

对AI没什么研究。看了红版的注解,感觉这个AI公司最大的成果是改进了AI自我学习的过程,从而有望改变业界的规则,这么理解对吗?

作者: dootbear    时间: 2025-1-27 09:50
Evo 发表于 2025-1-27 10:41
对AI没什么研究。看了红版的注解,感觉这个AI公司最大的成果是改进了AI自我学习的过程,从而有望改变业界 ...

Yann LeCun (Meta副总裁兼首席AI科学家)发文:

给那些看到 DeepSeek 的表现后,觉得「中国在 AI 方面正在超越美国」的人:

- 你们的解读是错的。

- 正确的解读应该是:「开源模型正在超越专有模型。」

DeepSeek 得益于开源研究和开源项目(例如 PyTorch 和来自 Meta 的 Llama)。

DS他们在他人工作的基础上,提出了新想法并进行了构建。

因为他们的工作是公开且开源的,所以每个人都能从中受益。

这就是开放研究与开源的力量!

作者: 凯瑟琳琳    时间: 2025-1-27 10:10
本帖最后由 凯瑟琳琳 于 2025-1-27 11:16 编辑

还是用图说话。

但像‘台积电成就是靠共产党’这种弱智回答,我敢打包票,没有任何AI会说得出口。因为就算算法再差,逻辑再乱,这种程度的低级错误,正常的AI都不至于犯。
作者: jimmyshi    时间: 2025-1-27 10:19
最终还是还要依赖硬件的。
作者: papaxiong    时间: 2025-1-27 10:25
试试
作者: freeaubird    时间: 2025-1-27 10:29
dootbear 发表于 2025-1-27 08:41
大家有没有发现一个问题,这一波AI浪潮,没有啥巴拉特的事儿。

为啥呢?

NVIDIA单词里面藏着INDIA,难道只有我看出来了。巴拉特早就留下记号了。

作者: papaxiong    时间: 2025-1-27 10:29
我已经在的手机上下载, 并打算长期使用.
作者: happyheros    时间: 2025-1-27 10:48
提示: 作者被禁止或删除 内容自动屏蔽
作者: roro99    时间: 2025-1-27 11:36
提示: 作者被禁止或删除 内容自动屏蔽
作者: 来自北方    时间: 2025-1-28 07:36
一个月前就发布了,不过这几天西方媒体才关注,有人就受不了了。赶紧把头埋在沙子里吧!
作者: yxfc2003    时间: 2025-1-28 22:07
梁的基金如果做空了美股,轻松收割1000亿美元
作者: dunkerlc    时间: 2025-1-29 09:25
本帖最后由 dunkerlc 于 2025-1-31 18:25 编辑

1




欢迎光临 新足迹 (https://oursteps.co/bbs/forum.php/bbs/bbs/) Powered by Discuz! X3.4