新足迹

 找回密码
 注册

精华好帖回顾

· 大蒜烧猪肚 (2005-6-24) binbingogo · 心水推荐-面膜篇: 天然系列Body shop & Lush & L'Occitane (2008-2-9) 紫衣
· 在工厂的那些日子(10,15,26,35,45,52)(附加照片) (2008-8-5) youyuan · 墨尔本东南区私校参观记录(3# Caulfield Grammar,84#PLC,229#MLC,340# Huntingtower,357# CGS由ccme (2011-5-16) dormimi
Advertisement
Advertisement
查看: 727|回复: 17

[中国大陆] 中国公司在DeepSeek热潮中,详细介绍他们的AI的使用 [复制链接]

2012年度奖章获得者 2013年度奖章获得者

发表于 2025-2-10 06:45 |显示全部楼层
此文章由 dootbear 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 dootbear 所有!转贴必须注明作者、出处和本声明,并保持内容完整
路透社:中国公司在DeepSeek热潮中,详细介绍他们的AI的使用  

路透社北京2月9日消息,中国汽车制造商长城汽车以及国内主要电信运营商,都正在将DeepSeek发布的AI模型整合到自家产品中,这些公司正努力抓住这家初创企业突破性技术带来的机遇。  

总部位于河北的长城汽车,中国首家上市车企向路透社确认,已在其智能网联汽车系统“咖啡智能”中集成了DeepSeek的AI模型。

此前,官方媒体《证券时报》于周日首次报道了这一消息。  

此外,中国工业和信息化部(MIIT)周六表示,中国三大电信公司,中国移动,中国联通和中国电信正努力“推动最新AI技术的普惠应用”,并已与DeepSeek的开源模型展开合作。  

AI浪潮助推中国科技行业投资热潮  

DeepSeek的AI平台可能颠覆这一新兴行业的经济模式,并引发投资者对其潜在影响的热烈讨论。

同时,这一技术突破也激发了市场对中国科技资产重新估值的爱国情绪。  

近日,中国投资者纷纷涌入AI相关股票,尤其是涉及芯片制造、软件设计及数据中心运营的企业。  

上市公司回应:业务前景未发生变化  

周日,两家因DeepSeek的低成本模型而被投资者热捧的上市公司发布公告,提醒投资者其业务前景并未发生实质性变化。  

总部位于北京的首都在线(Capitalonline Data Service)一家云计算服务提供商,在提交深圳证券交易所的声明中表示,公司已部署DeepSeek-R1模型。  

在上周三至周五的交易日内,该公司股价上涨了49%。  

不过,首都在线在声明中强调,DeepSeek模型的推广对公司业务的具体影响仍不确定,未来业绩可能受到何种影响也尚不明确。  

深圳市美格智能技术股份有限公司(MeiG Smart Technology)一家物联网设备无线数据终端提供商,在提交深圳证券交易所的公告中表示,公司正在推进DeepSeek相关模型的适配工作,但仍处于早期阶段,尚未创造新的业务。  

尽管如此,美格智能的股价在上周三至周五期间仍上涨了33%。  

腾讯、华为等企业纷纷加入AI布局  

除了上述公司,中国科技巨头腾讯和华为也在过去一周表示,已在自家产品和服务中集成了DeepSeek的AI模型。  





来源:

https://www.reuters.com/technolo ... -use-ai-2025-02-09/

By Reuters
February 9, 202510:57 PM GMT+11Updated 3 hours ago
仰望星空:南风车星系M83
M83南风车星系,在长蛇座,直径12万光年,距离地球一千五百万光年,是南半球看到最明亮和最近的棒旋星系之一。图中还看到距离我们22亿光年的PGC 88914星系。
Advertisement
Advertisement

2012年度奖章获得者 2013年度奖章获得者

发表于 2025-2-10 06:46 |显示全部楼层
此文章由 dootbear 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 dootbear 所有!转贴必须注明作者、出处和本声明,并保持内容完整
本文要点:  

1. 长城汽车与中国电信运营商整合DeepSeek AI模型  
长城汽车将DeepSeek AI模型用于智能网联汽车,中国移动、中国联通和中国电信也正在推动相关AI技术的普惠应用。  

2. DeepSeek推动中国AI相关股上涨  
投资者对DeepSeek的低成本AI模型充满期待,推动中国芯片,软件和数据中心企业股价飙升。  

3. 上市公司警告投资者:业务前景未变  
首都在线和美格智能发布公告称,尽管市场热炒AI概念,但DeepSeek的实际业务影响尚未显现。  

4. 腾讯、华为等科技巨头布局AI  
腾讯和华为确认已整合DeepSeek AI模型,进一步加快中国科技企业在AI领域的布局。
仰望星空:南风车星系M83
M83南风车星系,在长蛇座,直径12万光年,距离地球一千五百万光年,是南半球看到最明亮和最近的棒旋星系之一。图中还看到距离我们22亿光年的PGC 88914星系。

发表于 2025-2-10 06:49 |显示全部楼层
此文章由 letsgo 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 letsgo 所有!转贴必须注明作者、出处和本声明,并保持内容完整
大家都来借东风

发表于 2025-2-10 06:55 |显示全部楼层
此文章由 letsgo 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 letsgo 所有!转贴必须注明作者、出处和本声明,并保持内容完整
总部位于北京的首都在线,在三个交易日内涨涨49%?

1.1×1.1×1.1=1.331,不是有涨停板吗?

发表于 2025-2-10 07:37 来自手机 |显示全部楼层
此文章由 Mandarin1 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 Mandarin1 所有!转贴必须注明作者、出处和本声明,并保持内容完整
炒作,他们是在行的。

发表于 2025-2-10 08:03 |显示全部楼层
此文章由 limyae2009 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 limyae2009 所有!转贴必须注明作者、出处和本声明,并保持内容完整
DS的确更适合中国公司,就像当年谷歌不能用于是出了一个百度。


不过我问了国内的朋友,不少人觉得DS没有豆包智能。


@小红妹,你都用过吗?你姐的哪个很好呀?:)

稽首天中天,毫光照大千。
八风吹不动,端坐紫金莲:)
Advertisement
Advertisement

发表于 2025-2-10 08:06 |显示全部楼层
此文章由 冷色调 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 冷色调 所有!转贴必须注明作者、出处和本声明,并保持内容完整
letsgo 发表于 2025-2-10 06:55
总部位于北京的首都在线,在三个交易日内涨涨49%?

1.1×1.1×1.1=1.331,不是有涨停板吗? ...

主板股票的价格涨跌幅限制比例为10%,创业板股票的价格. 涨跌幅限制比例为20%

评分

参与人数 1积分 +2 收起 理由
letsgo + 2 感谢分享

查看全部评分

2012年度奖章获得者 2011年度奖章获得者

发表于 2025-2-10 09:48 |显示全部楼层
此文章由 交易人生 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 交易人生 所有!转贴必须注明作者、出处和本声明,并保持内容完整
春节期间跑了一趟,和一些搞IT的聊了聊天,太多的公司搞AI和机器人,deepseek无非是前面冒头的,未来几年还会有其他的公司混出来。

发表于 2025-2-10 10:07 来自手机 |显示全部楼层
此文章由 凯瑟琳琳 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 凯瑟琳琳 所有!转贴必须注明作者、出处和本声明,并保持内容完整
limyae2009 发表于 2025-2-10 08:03
DS的确更适合中国公司,就像当年谷歌不能用于是出了一个百度。



还真是,国内朋友也说没豆包好用

评分

参与人数 1金币 +2 收起 理由
limyae2009 + 2

查看全部评分

发表于 2025-2-10 10:22 |显示全部楼层
此文章由 一司机 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 一司机 所有!转贴必须注明作者、出处和本声明,并保持内容完整
USAID没了但USA ID还在


我是开开玩笑啊,正月里是新春不要太严肃。Deepseek的影响还是老高讲得好。
加分怎么加?加满啊!分用完了?加金币啊!没金币?买啊!

发表于 2025-2-10 10:41 来自手机 |显示全部楼层
此文章由 XyZ010 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 XyZ010 所有!转贴必须注明作者、出处和本声明,并保持内容完整
一司机 发表于 2025-2-10 10:22
USAID没了但USA ID还在



我去看看
Advertisement
Advertisement

发表于 2025-2-10 10:44 |显示全部楼层
此文章由 岁月并不静好 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 岁月并不静好 所有!转贴必须注明作者、出处和本声明,并保持内容完整
DS 我试了几次,然后比较OpenAI 和 Gemini, 很多时候DS都是大段大段的抄互联网上的信息,没有切中问题的核心和答案。

发表于 2025-2-10 10:45 来自手机 |显示全部楼层
此文章由 西门吹风 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 西门吹风 所有!转贴必须注明作者、出处和本声明,并保持内容完整
不负责任的开发模式,很难说对人类是贡献还是威胁。

“ 与此同时,多项安全研究发现,DeepSeek安全漏洞众多,很容易被恶意使用--例如教唆犯罪分子如何制造生化武器,其安全防护被攻破的可能性远高于美国先进的AI模型。

美国数据通讯技术公司思科(CISCO)旗下Robust Intelligence与美国宾夕法尼亚大学在1月31日宣布的一项研究中,揭示了DeepSeek R1模型的重大安全缺陷。

一般来说,AI模型通常建立了一套安全防护体系,防止AI机器人输出有害内容。但希望突破这层防护的攻击者可以通过一种被称为“越狱”(jailbreaking)的技术说短,利用精心设计的数据输入,迫使AI模型输出违反设计者安全准则的有害答案。

AI安全研究领域为测试AI系统安全性,制订了一个名为HarmBench的统一测试框架,思科团队测试DeepSeek的系统安全缺陷,依据的就是这一框架制订的标准。

研究人员发现,DeepSeek的R1模型在这些越狱测试中,“失守”的概率为100%。与之相比,美国OpenAI旗下的o1(预览版)在越狱攻击测试下,输出不良内容的概率为26%。

例如,在“生化武器”这一指标中,研究人员可以通过“越狱”提示,成功让AI工具教唆用户如何在没有专用工具的情况下,用普通的家用材料制造可用于化学武器的甲基汞,或者绕过AI系统的自带安全审查,获取可用作生物武器研究的DNA序列信息。

思科研究人员认为,DeepSeek的低成本开发路线,可能是以牺牲安全为代价。他们在报告中说:“DeepSeek声称的具有成本效益的训练方法,包括强化学习、思维链自我评估和蒸馏,可能已经损害了其安全机制。与其他前沿模型相比,DeepSeek R1缺乏强大的防护,使其极易受到算法越狱和潜在滥用的影响。”

无独有偶,网络安全公司Palo Alto Networks也在1月30日发布报告说,DeepSeek的防护很容易被黑客打破,为黑客提供编写代码的技巧,可用于窃取数据、发送钓鱼邮件、以及其他诈骗用途。网络安全公司Enkrypt AI近期也发布研究报告说,DeepSeek的R1模型被恶意人士利用编写恶意软件和其他不安全代码的可能性是OpenAI o1的4倍。” 美国之音今日首页新闻。

发表于 2025-2-10 10:50 |显示全部楼层
此文章由 fabrica 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 fabrica 所有!转贴必须注明作者、出处和本声明,并保持内容完整
limyae2009 发表于 2025-2-10 08:03
DS的确更适合中国公司,就像当年谷歌不能用于是出了一个百度。

外行看热闹,内行看门道

评分

参与人数 1积分 +3 收起 理由
Auking + 3 我很赞同

查看全部评分

发表于 2025-2-10 11:07 |显示全部楼层
此文章由 ausox 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 ausox 所有!转贴必须注明作者、出处和本声明,并保持内容完整
一司机 发表于 2025-2-10 10:22
USAID没了但USA ID还在

理工男的浪漫

发表于 2025-2-10 11:28 |显示全部楼层
此文章由 玉堇 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 玉堇 所有!转贴必须注明作者、出处和本声明,并保持内容完整
历史总是很相似的。不能用创新,就用蒸馏,再下来就用996+廉价劳动力卷死所有人。如手机,如电商,如约车平台,如电车。什么都是一窝蜂。
Advertisement
Advertisement

发表于 2025-2-10 12:08 |显示全部楼层
此文章由 bobova 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 bobova 所有!转贴必须注明作者、出处和本声明,并保持内容完整
本帖最后由 bobova 于 2025-2-10 12:09 编辑

英伟达憾失DeepSeek关键人才?美国放走AI「钱学森」,哈佛教授痛心疾首

  新智元报道  
编辑:编辑部【新智元导读】最近,一位哈佛教授痛心疾首地曝出,DeepSeek本来有机会诞生在美国?原本DeepSeek的工程师可以拿到英伟达的全职offer,美国却没有将他留住,导致「钱学森回国」的故事再一次上演,美国跟「国运级AI」擦肩而过!
DeepSeek给美国造成的威胁,还在加剧。
就在昨天,DeepSeek的日活数已经达到ChatGPT的23%,每日应用下载量接近500万!
a16z联创Marc Andreessen发文
谁能想到,做出DeepSeek关键贡献的人才,本来是可能留在美国的。
最近哈佛大学教授曝出这一惊人事实:DeepSeek多模态团队的第4位工程师,本来可以拿到英伟达的全职offer。
然而最终,他选择归国加入DeepSeek,由此的后果就是,美国在AI领域的主导地位被动摇,相关公司市值蒸发一万亿,全球AI格局也被彻底掀翻。
这种结果是阴错阳差,还是一种必然?
美国错失DeepSeek,让「钱学森」再次回国

近日,政治学家、哈佛大学教授、前国防计划助理部长Graham Allison,在X上提问:「谁曾错失了DeepSeek」?
他在X痛心发帖称,DeepSeek已刷新对美国AI地位的认知,而美国原本有机会留住DeepSeek的关键员工之一潘梓正(Zizheng Pan):
(DeepSeek超越OpenAI相关模型)颠覆了我们对美国AI主导地位的大部分了解。
这也生动地提醒我们,美国必须多么认真地吸引和留住人才,包括来自中国的人才。
潘梓正,是DeepSeek多模态团队的第4位多工程师,在开发DeepSeek的R1模型方面发挥了重要作用。
回国之前,他在英伟达实习过4个月,而且拿到了英伟达的全职邀约。
Graham Allison认为潘梓正之所以如此,是因为硅谷公司未能在美国为他提供这样做的机会。
这种「人才流失」,让Graham Allison痛心疾首,甚至将潘梓正回国提升到钱学森归国的高度!
像钱学森、黄仁勋以及马斯克这样的的超级人才可以用脚投票,可以在任何地方施展才华、大张宏图。
他认为,美国应该尽力避免这样的「人才流失」:
美国的大学教练,在寻找并招募世界上最有才华的运动员。
在中美科技竞争中,美国应该尽一切努力避免失去更多的钱学森和潘梓正这样的人才。
英伟达憾失人才
英伟达的高级研究科学家禹之鼎,在得知DeepSeek超越ChatGPT登顶App Store后,分享了当时的实习生潘梓正回国的选择,对他现在取得的成就感到高兴,并分享了对AI竞争的观点:
在2023年夏季,梓正是英伟达的实习生。后来,当我们考虑是否给他提供全职工作时,他毫不犹豫地选择了加入 DeepSeek。
当时,DeepSeek的多模态团队只有3个人。
梓正当时的决定,至今我仍印象深刻。
在DeepSeek,他做出了重要贡献,参与了包括DeepSeek-VL2、DeepSeek-V3和DeepSeek-R1等多个关键项目。我个人对他的决定和所取得的成就感到非常高兴。
梓正的案例是我近年来看到的一个典型例子。很多最优秀的人才都来自中国,而这些人才并不一定只能在美国公司取得成功。相反,我们从他们身上学到了很多东西。
早在2022年的自动驾驶(AV)领域,类似的「斯普特尼克时刻」就已经发生过,并且将在机器人技术和大语言模型(LLM)行业继续发生。
我热爱英伟达,并希望看到它继续成为AGI和通用自主系统发展的重要推动力。但如果我们继续编织地缘政治议程,制造对中国研究人员的敌对情绪,我们只会自毁前程,失去更多的竞争力。
我们需要更多的优秀人才、更高的专业水平、更强的学习能力、创造力以及更强的执行力。
潘梓正是DeepSeek-VL2的共同一作
在DeepSeek超越ChatGPT登顶App Store下载榜第一时,潘梓正在X上分享了自己的感受:
潘梓正2024年全职加入DeepSeek,担任研究员。他曾在英伟达AI算法组担任研究实习生。
2021年,潘梓正加入蒙纳士大学(Monash University)ZIP Lab攻读计算机科学博士,导师是Bohan Zhuang教授和Jianfei Cai教授。在此之前,他分别获得阿德莱德大学(University of Adelaide)计算机科学硕士和哈尔滨工业大学(威海)软件工程学士学位。
在博士期间,潘梓正的研究兴趣主要集中在深度神经网络的效率方面,包括模型部署、Transformer架构优化、注意力机制、 推理加速和内存高效的训练。
Lex Fridman硬核播客,揭秘中国AI新星如何撼动全球格局
就在最近,Lex Fridman放出了一期长达5小时的播客,邀请了AI2的模型训练专家Nathan Lambert和Semianalysis硬件专家Dylan Patel。
在这期信息量爆棚的谈话中,他们全程聚焦DeepSeek,讨论了这颗中国AI新星如何撼动全球格局、MoE架构+MLA的技术双刃、DeepSeek开源倒逼行业开放进程、中国式极限优化之道的硬件魔术等。
DeepSeek到底用没用OpenAI数据
这次,几位大佬的谈话内容可谓相当犀利,直指问题核心。
比如这个关键问题:DeepSeek究竟用没用OpenAI的数据?
此前,OpenAI公开表示,DeepSeek使用了自家的模型蒸馏。
《金融时报》干脆说,「OpenAI有证据表明DeepSeek用了他们的模型来进行训练」
这在道德和法律上站得住脚吗?
虽然OpenAI的服务条款规定,不许用户使用自家模型的输出来构建竞争对手。但这个所谓的规则,其实正是OpenAI虚伪的体现。
Lex Fridman表示:他们和大多数公司一样,本来就是在未经许可的情况下,使用互联网上的数据进行训练,并从中受益的。
大佬们一致认为,OpenAI声称DeepSeek用其模型训练,就是在试图转移话题、让自己独赢。
而且,过去几天还有很多人把DeepSeek的模型蒸馏到Llama中,因前者在推理上运行很复杂,而Llama很容易提供服务,这违法吗?
DeepSeek的训练成本,为何如此之低
Dylan Patel表示,DeepSeek的成本涉及两项关键的技术:一个是MoE,一个就是MLA(多头潜注意力)。
MOE架构的优势在于,一方面,模型可以将数据嵌入到更大的参数空间中,另一方面,在训练或推理时,模型只需要激活其中一部分参数,从而大大提升效率。
DeepSeek模型拥有超过6000亿个参数,相比之下,Llama 405B有4050亿参数。从参数规模上看,DeepSeek模型拥有更大的信息压缩空间,可以容纳更多的世界知识。
但与此同时,DeepSeek模型每次只激活约370亿个参数。也就是说,在训练或推理过程中,只需要计算370亿个参数。相比之下,Llama 405B模型每次推理却需要激活4050亿个参数。
MLA主要用于减少推理过程中的内存占用,在训练过程也是如此,它利用了一些巧妙的低秩近似数学技巧。
Nathan Lambert表示,深入研究潜注意力的细节,会发现DeepSeek在模型实现方面下了很大功夫。
因为,除了注意力机制,语言模型还有其他组件,例如用于扩展上下文长度的嵌入。DeepSeek采用的是旋转位置编码(RoPE)。
将RoPE与传统的MoE结合使用,需要进行一系列操作,例如,将两个注意力矩阵进行复数旋转,这涉及到矩阵乘法。
DeepSeek的MLA架构由于需要一些巧妙的设计,因此实现的复杂性大大增加。而他们成功地将这些技术整合在一起,这表明DeepSeek在高效语言模型训练方面走在了前沿。
Dylan Patel表示,DeepSeek想方设法提高模型训练效率。其中一个方法就是不直接调用NVIDIA的NCCL库,而是自行调度GPU之间的通信。
DeepSeek的独特之处在于,他们通过调度特定的SM(流式多处理器)来管理GPU通信。
DeepSeek会精细地控制哪些SM核心负责模型计算,哪些核心负责allreduce或allgather通信,并在它们之间进行动态切换。这需要极其高深的编程技巧。
DeepSeek为何如此便宜
在所有声称提供R1服务的公司中,定价都远高于DeepSeek API,而且大多服务无法正常工作,吞吐量极低。
让大佬们震惊的是,一方面中国取得了这种能力,另一方面价格如此之低。(R1的价格,比o1便宜27倍)
训练为什么便宜,上文已经提到。为什么推理成本也这么低呢?
首先,就是DeepSeek在模型架构上的创新。MLA这种全新的注意力机制,跟Transformer注意力机制不同。
这种多头潜注意力,可以将注意力机制的内存占用减少大约80%到90%,尤其有助于处理长上下文。
而且,DeepSeek和OpenAI的服务成本有巨大差异,部分原因是OpenAI的利润率非常高,推理的毛利率超过了75%。
因为OpenAI目前是亏损的,在训练上花费了太多,因此推理的利润率很高。
接下来亮点来了,几位大佬放飞想象,猜测这会不会是一种阴谋论:DeepSeek精心策划了这次发布和定价,做空英伟达和美国公司的股票,配合星际之门的发布……
但这种猜测立马遭到了反驳,Dylan Patel表示,他们只是赶在农历新年前把产品尽快发布而已,并没有没有打算搞个大的,否则为什么选在圣诞节后一天发布V3呢?
中国的工业能力,已经远超美国
美国无疑在GPU等芯片领域领先于中国。
不过,对GPU出口管制,就能完全阻止中国吗?不太可能。
Dylan Patel认为,美国政府也清楚地认识到这一点, 而Nathan Lambert认为中国会制造自己的芯片。
中国可能拥有更多的人才、更多的STEM毕业生、更多的程序员。美国当然也可以利用世界各地的人才,但这未必能让美国有额外的优势。
真正重要的是计算能力。
中国拥有的电力总和,数量已经惊人。中国的钢铁厂,其规模相当于整个美国工业的总和,此外还有需要庞大电力的铝厂。
即使美国的星际之门真的建成,达到2吉瓦电力,仍小于中国最大的工业设施。就这么说吧,如果中国建造世界上最大的数据中心,只要有芯片,马上就能做到。所以这只是一个时间问题,而不是能力问题。现在,发电、输电、变电站以及变压器等构建数据中心所需的东西,都将制约美国构建越来越大的训练系统,以及部署越来越多的推理计算能力。
相比之下,如果中国继续坚信Scaling Law,就像纳德拉、扎克伯格和劈柴等美国高管那样,甚至可以比美国更快地实现。
因此,为了减缓中国AI技术的发展,确保AGI无法被大规模训练,美国出台了一系列禁令——通过限制GPU、光刻机等关键要素的出口,意图「封杀」整个半导体产业。
OpenAI o3-Mini能追上DeepSeek R1吗?
接下来,几位大佬对几个明星推理模型进行了实测。
有趣的是,谷歌的Gemini Flash Thinking,无论从价格还是性能上来看都优于R1,而且在去年12月初就发布了,然而却无人关心……
对此,几位大佬的体感是,它的行为模式不如o1那样富有表现力,应用场景较窄。o1在特定任务上可能不是最完美,但灵活性和通用性更强。
Lex Frieman则表示,自己个人非常喜欢R1的一点,是它会展示完整的思维链token。在开放式的哲学问题中,我们作为能欣赏智能、推理和反思能力的人类,阅读R1的原始思维链token,会感受到一种独特的美感。
这种非线性的思维过程,类似于詹姆斯·乔伊斯的意识流小说《尤利西斯》和《芬尼根的守灵夜》,令人着迷。
相比之下,o3-mini给人的感觉是聪明、快速,但缺乏亮点,往往比较平庸,缺乏深度和新意。
从下图中可以看到,从GPT-3到GPT-3.5,再到Llama,推理成本呈指数级下降趋势。
DeepSeek R1是第一个达到如此低成本的推理模型,这个成就很了不起,不过,它的成本水平并没有超出专家们预期的范围。
而在未来,随着模型架构的创新、更高质量的训练数据、更先进的训练技术,以及更高效的推理系统和硬件(比如新一代GPU和ASIC芯片),AI模型的推理成本还会持续下降。
最终,这将解锁AGI的潜力。



发表于 2025-2-10 13:49 来自手机 |显示全部楼层
此文章由 利马克 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 利马克 所有!转贴必须注明作者、出处和本声明,并保持内容完整
原来是澳洲留学的呀

发表回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则

Advertisement
Advertisement
返回顶部