新足迹

 找回密码
 注册

精华好帖回顾

· 人民homemade童装- 手工旗袍上装(含过程图) (2008-9-16) 人民 · 西澳南部6天2000多公里自驾游(全文完) (2007-10-9) 樱桃
· 8月美食活动-烧肉是这样上色的 3楼上做法了哦 (2009-8-15) rongerchen · (第一箱油开完鸟,80.01升870km,百公里9.1升)) 我们吉普精神是在一起滴 交作业!2012grand cherokee overland CRD (2012-3-1) funday
Advertisement
Advertisement
楼主:dootbear

[北美] 谷歌推出低成本AI模型 [复制链接]

发表于 2025-2-7 10:04 |显示全部楼层
此文章由 go2home 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 go2home 所有!转贴必须注明作者、出处和本声明,并保持内容完整
有不少人在研究开发用AI把现有代码转换为底层代码运行,以提高效率,甚至让AI自动生成/改进底层代码。细思恐极,底层代码晦涩难懂,很有可能超出人类控制,有一天AI真的产生意识并不断修改/进化......
Advertisement
Advertisement

发表于 2025-2-7 10:13 |显示全部楼层
此文章由 mcrlanglang 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 mcrlanglang 所有!转贴必须注明作者、出处和本声明,并保持内容完整
blahblah 发表于 2025-2-7 09:25
AI小白,不太明白这个所谓的“蒸馏“,就是在别人已经装了鱼的小桶里钓鱼?

如果是这样,那要是别人把小桶 ...

蒸馏在AI学术指的是知识蒸馏 (KD)。 KD的目的是把训练好的大模(老师),通过知识转移,减少参数,在尽可能保持原有知识度的情况下,变成一个更轻量化的小模型(学生)。 要做知识蒸馏,需要有老师的输入输出和logits, 换句话说老师必须是自己的模型(能看到内部参数),或者是开源的模型,因为用别的模型生成数据那是hard labels,是没有logits的。 网上任何说能蒸馏GPT的,基本都是不懂AI的, 因为没有人能拿到GPT的内部logits。这也是为什么Deepseek在业内能有这么大轰动,不单是它技术进步,而是它的开源,这让所有AI工程师和爱好者都可以在其基础上进行任何操作。

发表于 2025-2-7 10:16 |显示全部楼层
此文章由 cycle8 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 cycle8 所有!转贴必须注明作者、出处和本声明,并保持内容完整
AI开始竞相杀价

发表于 2025-2-7 10:23 |显示全部楼层
此文章由 mcrlanglang 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 mcrlanglang 所有!转贴必须注明作者、出处和本声明,并保持内容完整
dootbear 发表于 2025-2-7 09:43
如果可以by pass cuda,老黄要哭了。

Deepseek用了cuda底层的PTX汇编,并不直接说明完全绕过了cuda。但是从论文来看,DS用PTX和其他一系列方法,完全释放了NV GPU的性能,侧面证实网友的说法,那就是老黄的精湛刀法,用软件锁硬件性能,我们大部分所用NV的显卡,性能并没有被完全释放。

另外从梁的采访来看,基本吃透了CUDA,另外他们这次可以用PTX,那么下次就可以用cann, rocm的底层语言,硬件对于他们来说已经不是问题。

评分

参与人数 1积分 +4 收起 理由
dootbear + 4 感谢分享

查看全部评分

发表于 2025-2-7 10:25 |显示全部楼层
此文章由 john-2204 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 john-2204 所有!转贴必须注明作者、出处和本声明,并保持内容完整

周承菼 朱通伯 ..

发表于 2025-2-7 10:27 |显示全部楼层
此文章由 potter.leon 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 potter.leon 所有!转贴必须注明作者、出处和本声明,并保持内容完整
john-2204 发表于 2025-2-7 10:25
周承菼 朱通伯 ..

这两人百度百科里都有,DS不会屏蔽吧?
以有涯随无涯,殆已
Advertisement
Advertisement

发表于 2025-2-7 10:36 |显示全部楼层
此文章由 john-2204 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 john-2204 所有!转贴必须注明作者、出处和本声明,并保持内容完整
potter.leon 发表于 2025-2-7 10:27
这两人百度百科里都有,DS不会屏蔽吧?

估计不是屏蔽,而是没有给它提供信息,也就是说这机器人还没学会到其他公开的平台寻找有关信息的本事..

发表于 2025-2-7 10:39 |显示全部楼层
此文章由 potter.leon 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 potter.leon 所有!转贴必须注明作者、出处和本声明,并保持内容完整
john-2204 发表于 2025-2-7 10:36
估计不是屏蔽,而是没有给它提供信息,也就是说这机器人还没学会到其他公开的平台寻找有关信息的本事.. ...

那应该怪它“蒸馏”的那个模型,巧妇难为无米之炊啊,这数据本来也没墙,它没有cover到
以有涯随无涯,殆已

发表于 2025-2-7 10:52 |显示全部楼层
此文章由 john-2204 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 john-2204 所有!转贴必须注明作者、出处和本声明,并保持内容完整
potter.leon 发表于 2025-2-7 10:39
那应该怪它“蒸馏”的那个模型,巧妇难为无米之炊啊,这数据本来也没墙,它没有cover到 ...

所以说,如今的AI ,不管是何处产生的,离智慧差远了,要完全替代人类的方方面面,还有很长的日子..

发表于 2025-2-7 10:54 |显示全部楼层
此文章由 mcrlanglang 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 mcrlanglang 所有!转贴必须注明作者、出处和本声明,并保持内容完整
potter.leon 发表于 2025-2-7 10:39
那应该怪它“蒸馏”的那个模型,巧妇难为无米之炊啊,这数据本来也没墙,它没有cover到 ...

你这就是我上面所说的不懂装懂,“蒸馏“GPT根本就不可能,顶多是用GPT成的hard lebels参与到了预训练,但是占比也很小,因为全部使用模型生成的数据训练会产生AI幻觉,所以还要用大量的real world data 来稀释AI generated data。 另外GPT也用别的模型,比如文心的hard lebels 来参与训练它的中文部分,这个在业界是常用的方法

发表于 2025-2-7 11:13 |显示全部楼层
此文章由 limyae2009 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 limyae2009 所有!转贴必须注明作者、出处和本声明,并保持内容完整
mcrlanglang 发表于 2025-2-7 10:23
Deepseek用了cuda底层的PTX汇编,并不直接说明完全绕过了cuda。但是从论文来看,DS用PTX和其他一系列方法 ...

用PTX根本就不是什么新概念,很多AI的从业者或者论文都在讨论过。

https://forums.developer.nvidia.com/t/c-vs-ptx/186791/2


但DS或许是第一个去大规模实践的,能提高多少现在【目前】全凭它们自己的论文在讲。因为DS只开源了模型参数,所以Hugging Face在反编译DS的其它代码。

稽首天中天,毫光照大千。
八风吹不动,端坐紫金莲:)
Advertisement
Advertisement

发表于 2025-2-7 11:21 |显示全部楼层
此文章由 mcrlanglang 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 mcrlanglang 所有!转贴必须注明作者、出处和本声明,并保持内容完整
limyae2009 发表于 2025-2-7 11:13
用PTX根本就不是什么新概念,很多AI的从业者或者论文都在讨论过。

https://forums.developer.nvidia.c ...

谁说PTX是新概念了,说的是DS已经吃透了CUDA和NV的卡。 另外你不太懂, AI模型的核心就是参数和训练调试的方法,它的代码就是完形填空,填参数进去。 行业内训练完一个模型,要保存的就是它的hyperparameter。

2012年度奖章获得者 2013年度奖章获得者

发表于 2025-2-7 11:26 |显示全部楼层
此文章由 dootbear 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 dootbear 所有!转贴必须注明作者、出处和本声明,并保持内容完整
mcrlanglang 发表于 2025-2-7 11:21
谁说PTX是新概念了,说的是DS已经吃透了CUDA和NV的卡。 另外你不太懂, AI模型的核心就是参数和训练调试 ...

阿姨不是读电脑,芯片,电池,工程,飞机制造,军舰,潜艇和航天制造出身的。

阿姨是文科生,你记住这一条就好。

仰望星空:南风车星系M83
M83南风车星系,在长蛇座,直径12万光年,距离地球一千五百万光年,是南半球看到最明亮和最近的棒旋星系之一。图中还看到距离我们22亿光年的PGC 88914星系。

发表于 2025-2-7 11:27 |显示全部楼层
此文章由 limyae2009 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 limyae2009 所有!转贴必须注明作者、出处和本声明,并保持内容完整
john-2204 发表于 2025-2-7 10:52
所以说,如今的AI ,不管是何处产生的,离智慧差远了,要完全替代人类的方方面面,还有很长的日子.. ...

DS这1-2周很多专业人士用下来:


1,算法的改进的确有,所以它很擅长数学推理题;

2,因为受限于资源,高算力的部分(例如科学探索)它无法同比Open Ai,要知道后者都已经大量参与医学研究(譬如GPT-4B mini)

3,又正因为DS把钱都用到了解题领域,所以一旦登陆的人多,它就会显示“服务器繁忙”,很不稳定;

4,DS通过开源和低价在吸引更多的数据 — 这是他们的策略。


我们很多时候会看到Deepseek在【自信地乱回答】,因为【当你要节省成本和算力时,你就不得不牺牲准确性】。


这一点是无法避免的,这也就是美国AI公司会“啊”一下,但又不会像“狼来了”那样惊慌失措。


最后,“山寨机”在十几年前就用低廉的价格、开源的态度引起了手机行业的一波“震动”,但这并不是未来手机行业的反向,所以你们看现在还有谁在用山寨机?:)

稽首天中天,毫光照大千。
八风吹不动,端坐紫金莲:)

发表于 2025-2-7 11:30 |显示全部楼层
此文章由 limyae2009 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 limyae2009 所有!转贴必须注明作者、出处和本声明,并保持内容完整
mcrlanglang 发表于 2025-2-7 11:21
谁说PTX是新概念了,说的是DS已经吃透了CUDA和NV的卡。 另外你不太懂, AI模型的核心就是参数和训练调试 ...

层主,我看是你在觉得PTX很了不起呐,所以告知您一下这不是什么“天翻地覆”的变化:)


至于DS反编译,你参加了吗?能证明其论文说的都是真实数据了吗?:)


https://github.com/huggingface/open-r1

稽首天中天,毫光照大千。
八风吹不动,端坐紫金莲:)

发表于 2025-2-7 11:30 |显示全部楼层
此文章由 limyae2009 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 limyae2009 所有!转贴必须注明作者、出处和本声明,并保持内容完整
dootbear 发表于 2025-2-7 11:26
阿姨不是读电脑,芯片,电池,工程,飞机制造,军舰,潜艇和航天制造出身的。

阿姨是文科生,你记住这一 ...

小红妹,你又在忽悠小伙伴啦:)

稽首天中天,毫光照大千。
八风吹不动,端坐紫金莲:)
Advertisement
Advertisement

发表于 2025-2-7 11:31 来自手机 |显示全部楼层
此文章由 yanqishui32 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 yanqishui32 所有!转贴必须注明作者、出处和本声明,并保持内容完整
想起了内存条的价格。
当年三星一家独大,不是地震就是水灾,每次都暴涨价格。
然后国产内存崛起。
你别说,马上风调雨顺,三星再也没碰上灾害了,价格一降再降。
现在内存基本白菜价格了。
AI我不懂,但是套路我懂。
国产介入,老百姓收益。

发表于 2025-2-7 11:48 |显示全部楼层
此文章由 mcrlanglang 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 mcrlanglang 所有!转贴必须注明作者、出处和本声明,并保持内容完整
limyae2009 发表于 2025-2-7 11:30
层主,我看是你在觉得PTX很了不起呐,所以告知您一下这不是什么“天翻地覆”的变化:)

那是你觉得,不是我觉得,我只是在对他绕过英伟达硬件做解释,而你只是为了来抬杠。 我对DS的评价一项很保守,还达不到是么全民狂欢国运的级别,因为核心算法并没有突破。但是这并不妨碍DS对整个AI行业的贡献。

另外我不建议你们这些连蒸馏最是什么都搞不明白的,就在网上学别人科普。高科技行业是有门槛的,像你们这样的一天电动汽车专家,一天AI专家的,只会让别人当成娱乐项目,就像马戏团里卖力表演的小丑来看。

评分

参与人数 1积分 +2 收起 理由
eddie9874 + 2 感谢分享

查看全部评分

发表于 2025-2-7 11:50 |显示全部楼层
此文章由 mcrlanglang 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 mcrlanglang 所有!转贴必须注明作者、出处和本声明,并保持内容完整
dootbear 发表于 2025-2-7 11:26
阿姨不是读电脑,芯片,电池,工程,飞机制造,军舰,潜艇和航天制造出身的。

阿姨是文科生,你记住这一 ...

哈哈,明白明白。

发表于 2025-2-7 11:58 |显示全部楼层
此文章由 potter.leon 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 potter.leon 所有!转贴必须注明作者、出处和本声明,并保持内容完整
dootbear 发表于 2025-2-7 11:26
阿姨不是读电脑,芯片,电池,工程,飞机制造,军舰,潜艇和航天制造出身的。

阿姨是文科生,你记住这一 ...

我看有些足友自己标的就是博士,估计这里搞研究的人也不少吧,说出来的话听着就那么霸气十足
以有涯随无涯,殆已

发表于 2025-2-7 12:02 |显示全部楼层
此文章由 limyae2009 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 limyae2009 所有!转贴必须注明作者、出处和本声明,并保持内容完整
mcrlanglang 发表于 2025-2-7 11:48
那是你觉得,不是我觉得,我只是在对他绕过英伟达硬件做解释,而你只是为了来抬杠。 我对DS的评价一项很 ...

层主,您有道理就讲,我们可以分享


人生攻击可不好哦。


稽首天中天,毫光照大千。
八风吹不动,端坐紫金莲:)
Advertisement
Advertisement

发表于 2025-2-7 12:04 |显示全部楼层
此文章由 limyae2009 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 limyae2009 所有!转贴必须注明作者、出处和本声明,并保持内容完整
为什么质疑“DS遥遥领先”的回复就要被部分小伙伴攻击呢?


难道像#44这样的专业评论也说不得了吗?:)


2012年度奖章获得者 2013年度奖章获得者

发表于 2025-2-7 12:08 |显示全部楼层
此文章由 dootbear 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 dootbear 所有!转贴必须注明作者、出处和本声明,并保持内容完整
今天悉尼这么大热天,阿姨喝一杯凉茶清宝凉吧。

工地热死了,不要中暑了。



发表于 2025-2-7 12:10 |显示全部楼层
此文章由 zn7726 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 zn7726 所有!转贴必须注明作者、出处和本声明,并保持内容完整
dootbear 发表于 2025-2-7 11:26
阿姨不是读电脑,芯片,电池,工程,飞机制造,军舰,潜艇和航天制造出身的。

阿姨是文科生,你记住这一 ...

我觉得人家是全才,什么都懂,至少说话的气势和态度是这样的。我非常敬重人家,所以他说话我从来不敢回复。

评分

参与人数 1积分 +2 收起 理由
limyae2009 + 2 你太有才了

查看全部评分

发表于 2025-2-7 12:14 |显示全部楼层
此文章由 s970022 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 s970022 所有!转贴必须注明作者、出处和本声明,并保持内容完整
DS的成就是打破了川建国的布局,砸了别人准备坐着捞钱的饭碗

发表于 2025-2-7 12:19 |显示全部楼层
此文章由 mcrlanglang 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 mcrlanglang 所有!转贴必须注明作者、出处和本声明,并保持内容完整
limyae2009 发表于 2025-2-7 12:02
层主,您有道理就讲,我们可以分享

什么是人身攻击,马戏团里的小丑?小丑在西方社会是正经职业,在澳洲妓女都是合法职业,怎么你在西方的土地上还要搞职业歧视,政治不正确?
Advertisement
Advertisement

发表于 2025-2-7 12:21 |显示全部楼层
此文章由 mcrlanglang 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 mcrlanglang 所有!转贴必须注明作者、出处和本声明,并保持内容完整
人身攻击是指侮辱性的语言,马戏团里的小丑可不是,这是合法正当的职业,你来澳洲这么久了,还搞职业歧视?

发表于 2025-2-7 12:35 |显示全部楼层
此文章由 limyae2009 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 limyae2009 所有!转贴必须注明作者、出处和本声明,并保持内容完整
dootbear 发表于 2025-2-7 12:08
今天悉尼这么大热天,阿姨喝一杯凉茶清宝凉吧。

工地热死了,不要中暑了。

哈哈,你这个小坏蛋:)


对了小红妹,最近DS为什么掉线那么多呀?别人问了那么简单的问题,它为什么要绕一大圈呢:)



本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
稽首天中天,毫光照大千。
八风吹不动,端坐紫金莲:)

2012年度奖章获得者 2013年度奖章获得者

发表于 2025-2-7 12:38 来自手机 |显示全部楼层
此文章由 dootbear 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 dootbear 所有!转贴必须注明作者、出处和本声明,并保持内容完整
阿姨凌晨4点18分玩DS? 敬佩敬佩!

失敬失敬!

发表于 2025-2-7 13:27 |显示全部楼层
此文章由 yybsn 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 yybsn 所有!转贴必须注明作者、出处和本声明,并保持内容完整
本帖最后由 yybsn 于 2025-2-7 13:28 编辑

这个ds,也是蒸馏人家弄好的东西。

开始的时候我不知道他们为什么这么嗨,后来发现是有一起欺骗一个老中医粉丝:

不过,不应该是在视察成都的时候指明这个方向吗?

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x

发表回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则

Advertisement
Advertisement
返回顶部