哦，天哪，有人从OpenAI偷东西了吗？ [复制链接]

发表于 2025-1-30 15:39 |显示全部楼层

此文章由 nvy 原创或转贴，不代表本站立场和观点，版权归 oursteps.com.au 和作者 nvy 所有！转贴必须注明作者、出处和本声明，并保持内容完整

potter.leon 发表于 2025-1-30 13:09
这种AI一般分为训练和应用两个阶段，其中训练阶段需要大量数据，也是最费时间和计算的，训练之后就得到一 ...

似乎是用OpenAI做一个蒸馏的过程，不是训练。训练耗费资源太大了，就好比你家的电表是10安的，你接1个30安的空调是不行的。

发表于 2025-1-30 16:26 |显示全部楼层

此文章由 dunkerlc 原创或转贴，不代表本站立场和观点，版权归 oursteps.com.au 和作者 dunkerlc 所有！转贴必须注明作者、出处和本声明，并保持内容完整

本帖最后由 dunkerlc 于 2025-1-31 17:31 编辑

1

发表于 2025-1-30 16:38 来自手机 |显示全部楼层

此文章由企鹅男孩原创或转贴，不代表本站立场和观点，版权归 oursteps.com.au 和作者企鹅男孩所有！转贴必须注明作者、出处和本声明，并保持内容完整

我觉得有个漫画比喻的挺好

openai是在鱼塘里钓鱼，当然，有的鱼塘是免费的可以钓，有的是鱼塘主人不允许偷偷钓的

deepseek直接在openai钓完鱼的鱼桶里钓

唯一可以确认的是，Nvidia安全了

评分

参与人数 1	积分 +1	收起理由
凯瑟琳琳	+ 1	我很赞同

查看全部评分

发表于 2025-1-30 16:39 |显示全部楼层

此文章由 dunkerlc 原创或转贴，不代表本站立场和观点，版权归 oursteps.com.au 和作者 dunkerlc 所有！转贴必须注明作者、出处和本声明，并保持内容完整

本帖最后由 dunkerlc 于 2025-1-31 17:31 编辑

1

maxdll

发表于 2025-1-30 17:01 |显示全部楼层

此文章由 maxdll 原创或转贴，不代表本站立场和观点，版权归 oursteps.com.au 和作者 maxdll 所有！转贴必须注明作者、出处和本声明，并保持内容完整

本帖最后由 maxdll 于 2025-1-30 16:04 编辑

科学技术的发展，不是有站在巨人的肩膀上一说吗，爱因斯坦等向老前辈们交专利费吗？诺贝尔奖奖学金得主有孝敬老师和前辈要求吗？

赛道上其他的ai训练用的大数据都交了费用吗？

if you never never go, you never never know

cwb1000

发表于 2025-1-30 17:58 来自手机 |显示全部楼层

此文章由 cwb1000 原创或转贴，不代表本站立场和观点，版权归 oursteps.com.au 和作者 cwb1000 所有！转贴必须注明作者、出处和本声明，并保持内容完整

凯瑟琳琳发表于 2025-1-30 12:53
这文章的逻辑：OpenAI自己也是靠别人数据训练的，所以它没资格质疑DeepSeek是不是爬了ChatGPT的回答。但问 ...

就算用了有什么问题 openai本来也是个工具也是给人用的。又不是用了他们的源代码或者说该交每个月20块订阅费没交。

要黑也要讲到点子上

丰田把比亚迪买回去拆了研究还写成书咧你觉得有问题吗？

Ksharp

发表于 2025-1-30 17:59 来自手机 |显示全部楼层

此文章由 Ksharp 原创或转贴，不代表本站立场和观点，版权归 oursteps.com.au 和作者 Ksharp 所有！转贴必须注明作者、出处和本声明，并保持内容完整

说你偷，你就偷，不偷也偷

nvy

发表于 2025-1-30 18:02 |显示全部楼层

此文章由 nvy 原创或转贴，不代表本站立场和观点，版权归 oursteps.com.au 和作者 nvy 所有！转贴必须注明作者、出处和本声明，并保持内容完整

rockbox 发表于 2025-1-30 14:54
我觉得你说反了......对比也不很恰当。

比如路边人家分享自种的水果，你拿了吃饱了，别人问你这么好吃的 ...

没有人会这样问，因为开源就是一个社区，你做出来的就是社区的。

nvy

发表于 2025-1-30 18:05 |显示全部楼层

此文章由 nvy 原创或转贴，不代表本站立场和观点，版权归 oursteps.com.au 和作者 nvy 所有！转贴必须注明作者、出处和本声明，并保持内容完整

企鹅男孩发表于 2025-1-30 16:38
我觉得有个漫画比喻的挺好

openai是在鱼塘里钓鱼，当然，有的鱼塘是免费的可以钓，有的是鱼塘主人不允许偷 ...

OpenAI没说DS在他的鱼桶里钓鱼，是用了他抄鱼的网。

ozkids2011

发表于 2025-1-30 18:20 来自手机 |显示全部楼层

此文章由 ozkids2011 原创或转贴，不代表本站立场和观点，版权归 oursteps.com.au 和作者 ozkids2011 所有！转贴必须注明作者、出处和本声明，并保持内容完整

我觉得最好的做法是让两个AI自己撰文互相文PK，每日更新公开发布

其它AI可以写评论

dogyi

发表于 2025-1-30 18:33 来自手机 |显示全部楼层

此文章由 dogyi 原创或转贴，不代表本站立场和观点，版权归 oursteps.com.au 和作者 dogyi 所有！转贴必须注明作者、出处和本声明，并保持内容完整

戾气太重，对身体不好

看着国内一帮高学历，有文化，有水平的年轻人，做出让全球人瞩目的事情，咱们华人不该开心吗？

如果是印度娃做出同样的事，我也会为之开心，当然因为不是同族，感同身受会少点。

想想，您如果有孩子，同辈别人家的孩子做出了好成绩，让世人瞩目，在这戾气发帖的您，私底下会怎么评价别人家孩子，然后您还表面还热情洋溢，好惨。

所以，戾气少点，对身体好。

评分

参与人数 3	积分 +6	收起理由
zxie8	+ 3	感谢分享
letsgo	+ 2	你太有才了
lqbzddx	+ 1	某些人封中必反的

查看全部评分

发表于 2025-1-30 19:15 来自手机 |显示全部楼层

此文章由企鹅男孩原创或转贴，不代表本站立场和观点，版权归 oursteps.com.au 和作者企鹅男孩所有！转贴必须注明作者、出处和本声明，并保持内容完整

dunkerlc 发表于 2025-1-30 16:39
世界上所有类型的GPU都能跑，英伟达怎么安全啊。。。

最大竞争对手已经放出教程了。DS首发还支持华为升 ...

如果deepseek的数据是从openai蒸馏的这个事是真的，那人家会让你接着蒸馏吗？各种法律、技术手段肯定一起上。就好像从别人鱼桶里偷鱼，偷一次不可能有第二次，还是要自己去钓，最后还是要靠老黄。

发表于 2025-1-30 19:21 来自手机 |显示全部楼层

此文章由企鹅男孩原创或转贴，不代表本站立场和观点，版权归 oursteps.com.au 和作者企鹅男孩所有！转贴必须注明作者、出处和本声明，并保持内容完整

nvy 发表于 2025-1-30 18:05
OpenAI没说DS在他的鱼桶里钓鱼，是用了他抄鱼的网。

如果主楼的文章是真的，那就是从鱼桶偷鱼

正常AI要从原始数据开始训练。主楼的文章说的是deepseek直接问openai海量问题，然后从openai的答案里再训练

发表于 2025-1-30 19:25 |显示全部楼层

此文章由 dunkerlc 原创或转贴，不代表本站立场和观点，版权归 oursteps.com.au 和作者 dunkerlc 所有！转贴必须注明作者、出处和本声明，并保持内容完整

本帖最后由 dunkerlc 于 2025-1-31 17:31 编辑

1

发表于 2025-1-30 19:33 来自手机 |显示全部楼层

此文章由企鹅男孩原创或转贴，不代表本站立场和观点，版权归 oursteps.com.au 和作者企鹅男孩所有！转贴必须注明作者、出处和本声明，并保持内容完整

dunkerlc 发表于 2025-1-30 19:25
一个2014年的技术，各大厂商早用烂了。。。

用一个自己或者别人的大模型训练自己的小模型，这是行业内普 ...

人家是大公司蒸馏自己的模型，推出轻量版的模型

或者小公司、个人自娱自乐，去蒸馏别人的模型

正儿八经的大公司怎么可能明目张胆的蒸馏别人的数据，还不得被告到冒烟

xji

铜靴族

发表于 2025-1-30 19:42 |显示全部楼层

此文章由 xji 原创或转贴，不代表本站立场和观点，版权归 oursteps.com.au 和作者 xji 所有！转贴必须注明作者、出处和本声明，并保持内容完整

我觉得问题不在于deepseek是否用了gpt生成的数据做模型训练。就像大家说的那样，训练数据无非是找别人的，没有任何一个公司靠自家生成的数据训练模型。用模型生成数据训练模型，这也不稀奇，大家都这样做。

问题在于，事情是不是变成这样：如果有一个100分的模型放在那里，那么deepseek可以利用这个模型，用很低的成本训练生成一个90分的模型。但是如果没有那个100分的模型，deepseek就不能用低成本训练一个90分的模型。如果是这样，那deepseek的成果意义就不大了。这就意味着deepseek只能在别人模型的基础上用低成本训练一个差不多的，但永远突破不了别人的上限。

如果利用现有的100分的模型，deepseek可以增加一些成本，做一个120分的模型超过它，先不要压太多成本，只要用不超过100分模型的成本，做一个120分的模型，那deepseek的工作就非常意义。这样deepseek就可以突破原有上限。

或者gpt可以利用deepseek的技术，降低自己做100分模型的成本，又或者利用deepseek的技术，可以保持成本不变做出120分的模型，那都说明deepseek的工作非常有意义。

我觉得目前最好的模型还不够强大，所以美国人本来没想着压成本，应该是先砸钱把模型做强大，等到模型足够强大了，再回头优化成本。就好像编程序一样，程序没跑通之前，不要想优化效率，等跑通了，证明算法行得通，再不断优化。美国现在是突破上限的阶段。没想到中国人反过来通过压成本，打了个措手不及。结果就是美国人前面想突破模型上限，后面被deepseek追着屁股赶，一下变得踉跄了。

评分

参与人数 1	积分 +3	收起理由
ninegumtrees	+ 3	感谢分享

查看全部评分

llee

布鞋族

发表于 2025-1-30 19:57 来自手机 |显示全部楼层

此文章由 llee 原创或转贴，不代表本站立场和观点，版权归 oursteps.com.au 和作者 llee 所有！转贴必须注明作者、出处和本声明，并保持内容完整

liangyu42087 发表于 2025-1-30 14:49
过程不一样，但是本质都是一样。

Open AI用爬虫 + 其他网站的 API来训练自己 - 其中包括没有授权的dat ...

应该是有用用OpenAI的接口获取数据的，但是考虑到带宽的影响和服务器端可以对大量访问的限流，这个占比多大也不好说。

bbc007

发表于 2025-1-30 20:07 |显示全部楼层

此文章由 bbc007 原创或转贴，不代表本站立场和观点，版权归 oursteps.com.au 和作者 bbc007 所有！转贴必须注明作者、出处和本声明，并保持内容完整

刚才问了一下CHATGPT，CHATGPT说DEEPSEEK没有抄袭自己，属于合理模仿。

fxdestiny1

发表于 2025-1-30 21:20 |显示全部楼层

此文章由 fxdestiny1 原创或转贴，不代表本站立场和观点，版权归 oursteps.com.au 和作者 fxdestiny1 所有！转贴必须注明作者、出处和本声明，并保持内容完整

都开源啦，而且ds的团队也没否认过早起使用openai的api来训练模型呀。
都是付费服务，有什么问题吗。而且蒸馏对手的模型也是正常的手段，google和meta就没用过吗？
openai没开源啊，从哪里抄，难道又是核心团队成员卖代码吗？

发表于 2025-1-30 21:26 |显示全部楼层

此文章由 dunkerlc 原创或转贴，不代表本站立场和观点，版权归 oursteps.com.au 和作者 dunkerlc 所有！转贴必须注明作者、出处和本声明，并保持内容完整

本帖最后由 dunkerlc 于 2025-1-31 17:31 编辑

1

yelleft

发表于 2025-1-30 21:36 |显示全部楼层

此文章由 yelleft 原创或转贴，不代表本站立场和观点，版权归 oursteps.com.au 和作者 yelleft 所有！转贴必须注明作者、出处和本声明，并保持内容完整

让子弹多飞一会.

flyspirit

发表于 2025-1-30 21:50 |显示全部楼层

此文章由 flyspirit 原创或转贴，不代表本站立场和观点，版权归 oursteps.com.au 和作者 flyspirit 所有！转贴必须注明作者、出处和本声明，并保持内容完整

这种事情很快就会水落石出，让子弹多飞两天。

业界的人根据DeepSeek的白皮书，自己训练，看看能不能训练出类似水平的模型。

6000亿参数的一个模型，训练成本这么便宜， too good to be true.

dnr

发表于 2025-1-30 22:35 |显示全部楼层

此文章由 dnr 原创或转贴，不代表本站立场和观点，版权归 oursteps.com.au 和作者 dnr 所有！转贴必须注明作者、出处和本声明，并保持内容完整

看到好多堂吉诃德。。。

zhangwei7461