新足迹

 找回密码
 注册

精华好帖回顾

· 散步奇遇记 (2011-12-14) 虞宅与美丽 · 三个月的努力终成正果[第五篇之大结局,不容错过] (2005-2-1) wilson
· Lanshan:瑞典味道之八-给春天的礼物-惊艳的 Chocolate Swirl Cheesecake (详细流程图)剖面图来了 (2011-10-26) lanshan · 水果炒鸡柳 (2005-7-11) samdong
Advertisement
Advertisement
楼主:dootbear

哦,天哪,有人从OpenAI偷东西了吗? [复制链接]

发表于 2025-1-30 14:49 |显示全部楼层
此文章由 liangyu42087 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 liangyu42087 所有!转贴必须注明作者、出处和本声明,并保持内容完整
goal 发表于 2025-1-30 14:34
经过AI处理数据 和未经过AI处理数据,对AI来说性质,难度,过程都不一样

过程不一样,但是本质都是一样。

Open AI用 爬虫 + 其他网站的 API来训练自己 - 其中包括没有授权的data,反正先训练了再说。

DS (如果真如网上传言)就是用 爬虫 + API (其中包括Opan AI)来训练自己 - 其中也包括没有授权的data,反正先训练了再说。

本质上都是乱用别人的data,说白了就是初一十五的关系

Advertisement
Advertisement

发表于 2025-1-30 14:54 来自手机 |显示全部楼层
此文章由 rockbox 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 rockbox 所有!转贴必须注明作者、出处和本声明,并保持内容完整
本帖最后由 rockbox 于 2025-1-30 12:57 编辑
InTheEnd 发表于 2025-1-30 12:33
已经开源了,好比你说一个妹子胸和屁股是假的,妹子当着你的面脱光了,让你白嫖了

然后你说:你既然脱光 ...


我觉得你说反了......对比也不很恰当。

比如路边人家分享自种的水果,你拿了吃饱了,别人问你这么好吃的东西哪儿卖的?你非要说这么好吃的东西当然是自己种的。这就不厚道了,不要脸。
世间生死劫未尽,天下苦乐事不停。(Copy right reserved.)

发表于 2025-1-30 15:00 |显示全部楼层
此文章由 总有刁民要害朕 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 总有刁民要害朕 所有!转贴必须注明作者、出处和本声明,并保持内容完整
limyae2009 发表于 2025-1-30 11:21
https://community.openai.com/t/looks-like-deep-seek-r1-v3-was-distilled-from-gpt-4-3-5-can-anyone-co ...

其实挺好的,

DeepSeek 给中国人和某些华人用就好了阿。
头像被屏蔽

禁止发言

发表于 2025-1-30 15:00 |显示全部楼层
此文章由 InTheEnd 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 InTheEnd 所有!转贴必须注明作者、出处和本声明,并保持内容完整
rockbox 发表于 2025-1-30 14:54
我觉得你说反了......对比不恰当。

比如路边人家分享自种的水果,你拿了吃饱了,别人问你这么好吃的东西 ...

理解不对,自己都是个糊涂车子!叫人承认

不是只是分享水果,把种子都给了,你要是觉的给的水果不好吃,你自己去种
头像被屏蔽

禁止发言

发表于 2025-1-30 15:06 |显示全部楼层
此文章由 InTheEnd 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 InTheEnd 所有!转贴必须注明作者、出处和本声明,并保持内容完整
rockbox 发表于 2025-1-30 14:54
我觉得你说反了......对比也不很恰当。

比如路边人家分享自种的水果,你拿了吃饱了,别人问你这么好吃的 ...

最后一句是对的

发表于 2025-1-30 15:39 |显示全部楼层
此文章由 nvy 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 nvy 所有!转贴必须注明作者、出处和本声明,并保持内容完整
potter.leon 发表于 2025-1-30 13:09
这种AI一般分为训练和应用两个阶段,其中训练阶段需要大量数据,也是最费时间和计算的,训练之后就得到一 ...

似乎是用OpenAI做一个蒸馏的过程,不是训练。训练耗费资源太大了,就好比你家的电表是10安的,你接1个30安的空调是不行的。
Advertisement
Advertisement

发表于 2025-1-30 16:26 |显示全部楼层
此文章由 dunkerlc 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 dunkerlc 所有!转贴必须注明作者、出处和本声明,并保持内容完整
最简单的道理,虽然蒸馏自家模型是常态,但是蒸馏别家模型又不是之前没发生过,脸书的llama一直在干,也是开源的,问题干不过GPT啊。

DS不仅干过了,还成本少个0,还绕过CUDA。什么GPU都能跑。

真是酸葡萄。。。。

发表于 2025-1-30 16:38 来自手机 |显示全部楼层
此文章由 企鹅男孩 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 企鹅男孩 所有!转贴必须注明作者、出处和本声明,并保持内容完整
我觉得有个漫画比喻的挺好

openai是在鱼塘里钓鱼,当然,有的鱼塘是免费的可以钓,有的是鱼塘主人不允许偷偷钓的

deepseek直接在openai钓完鱼的鱼桶里钓

唯一可以确认的是,Nvidia安全了



评分

参与人数 1积分 +1 收起 理由
凯瑟琳琳 + 1 我很赞同

查看全部评分

发表于 2025-1-30 16:39 |显示全部楼层
此文章由 dunkerlc 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 dunkerlc 所有!转贴必须注明作者、出处和本声明,并保持内容完整
本帖最后由 dunkerlc 于 2025-1-30 16:58 编辑
企鹅男孩 发表于 2025-1-30 16:38
我觉得有个漫画比喻的挺好

openai是在鱼塘里钓鱼,当然,有的鱼塘是免费的可以钓,有的是鱼塘主人不允许偷 ...


世界上所有类型的GPU都能跑,英伟达怎么安全啊。。。

最大竞争对手已经放出教程了。DS首发还支持华为升腾。

https://www.tomshardware.com/tec ... pus-and-radeon-gpus

为啥H100敢卖你4万美刀一片,GB200敢卖你7万美刀一片?

有竞争他敢吗?原料都是地上的砂子,谁比谁高贵?

以前一块顶级显卡首发500美金能到手,现在一块顶级显卡首发5000美金才能到手。因为啥?AMD不给力啊!没竞争啊!算力卡英伟达有CUDA护城河啊!

老黄刀法,闻名天下。各种砍芯片规格,随心所欲卖高价。

发表于 2025-1-30 17:01 |显示全部楼层
此文章由 maxdll 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 maxdll 所有!转贴必须注明作者、出处和本声明,并保持内容完整
本帖最后由 maxdll 于 2025-1-30 16:04 编辑

科学技术的发展,不是有站在巨人的肩膀上一说吗,爱因斯坦等向老前辈们交专利费吗?诺贝尔奖奖学金得主有孝敬老师和前辈要求吗?赛道上其他的ai训练用的大数据都交了费用吗?
if you never never go, you never never know

发表于 2025-1-30 17:58 来自手机 |显示全部楼层
此文章由 cwb1000 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 cwb1000 所有!转贴必须注明作者、出处和本声明,并保持内容完整
凯瑟琳琳 发表于 2025-1-30 12:53
这文章的逻辑:OpenAI自己也是靠别人数据训练的,所以它没资格质疑DeepSeek是不是爬了ChatGPT的回答。但问 ...

就算用了有什么问题 openai本来也是个工具也是给人用的。又不是用了他们的源代码 或者说该交每个月20块订阅费没交。

要黑也要讲到点子上

丰田把比亚迪买回去拆了研究还写成书咧 你觉得有问题吗?
Advertisement
Advertisement

发表于 2025-1-30 17:59 来自手机 |显示全部楼层
此文章由 Ksharp 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 Ksharp 所有!转贴必须注明作者、出处和本声明,并保持内容完整
说你偷,你就偷,不偷也偷

发表于 2025-1-30 18:02 |显示全部楼层
此文章由 nvy 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 nvy 所有!转贴必须注明作者、出处和本声明,并保持内容完整
rockbox 发表于 2025-1-30 14:54
我觉得你说反了......对比也不很恰当。

比如路边人家分享自种的水果,你拿了吃饱了,别人问你这么好吃的 ...

没有人会这样问,因为开源就是一个社区,你做出来的就是社区的。

发表于 2025-1-30 18:05 |显示全部楼层
此文章由 nvy 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 nvy 所有!转贴必须注明作者、出处和本声明,并保持内容完整
企鹅男孩 发表于 2025-1-30 16:38
我觉得有个漫画比喻的挺好

openai是在鱼塘里钓鱼,当然,有的鱼塘是免费的可以钓,有的是鱼塘主人不允许偷 ...

OpenAI没说DS在他的鱼桶里钓鱼,是用了他抄鱼的网。

发表于 2025-1-30 18:20 来自手机 |显示全部楼层
此文章由 ozkids2011 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 ozkids2011 所有!转贴必须注明作者、出处和本声明,并保持内容完整
我觉得最好的做法是让两个AI自己撰文互相文PK,每日更新公开发布

其它AI可以写评论

发表于 2025-1-30 18:33 来自手机 |显示全部楼层
此文章由 dogyi 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 dogyi 所有!转贴必须注明作者、出处和本声明,并保持内容完整
戾气太重,对身体不好

看着国内一帮高学历,有文化,有水平的年轻人,做出让全球人瞩目的事情,咱们华人不该开心吗?

如果是印度娃做出同样的事,我也会为之开心,当然因为不是同族,感同身受会少点。

想想,您如果有孩子,同辈别人家的孩子做出了好成绩,让世人瞩目,在这戾气发帖的您,私底下会怎么评价别人家孩子,然后您还表面还热情洋溢,好惨。

所以,戾气少点,对身体好。

评分

参与人数 2积分 +3 收起 理由
letsgo + 2 你太有才了
lqbzddx + 1 某些人封中必反的

查看全部评分

Advertisement
Advertisement

发表于 2025-1-30 19:15 来自手机 |显示全部楼层
此文章由 企鹅男孩 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 企鹅男孩 所有!转贴必须注明作者、出处和本声明,并保持内容完整
dunkerlc 发表于 2025-1-30 16:39
世界上所有类型的GPU都能跑,英伟达怎么安全啊。。。

最大竞争对手已经放出教程了。DS首发还支持华为升 ...

如果deepseek的数据是从openai蒸馏的这个事是真的,那人家会让你接着蒸馏吗?各种法律、技术手段肯定一起上。就好像从别人鱼桶里偷鱼,偷一次不可能有第二次,还是要自己去钓,最后还是要靠老黄。

发表于 2025-1-30 19:21 来自手机 |显示全部楼层
此文章由 企鹅男孩 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 企鹅男孩 所有!转贴必须注明作者、出处和本声明,并保持内容完整
nvy 发表于 2025-1-30 18:05
OpenAI没说DS在他的鱼桶里钓鱼,是用了他抄鱼的网。

如果主楼的文章是真的,那就是从鱼桶偷鱼

正常AI要从原始数据开始训练。主楼的文章说的是deepseek直接问openai海量问题,然后从openai的答案里再训练

发表于 2025-1-30 19:25 |显示全部楼层
此文章由 dunkerlc 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 dunkerlc 所有!转贴必须注明作者、出处和本声明,并保持内容完整
本帖最后由 dunkerlc 于 2025-1-30 19:28 编辑
企鹅男孩 发表于 2025-1-30 19:15
如果deepseek的数据是从openai蒸馏的这个事是真的,那人家会让你接着蒸馏吗?各种法律、技术手段肯定一起 ...


一个2014年的技术,各大厂商早用烂了。。。

用一个自己或者别人的大模型训练自己的小模型,这是行业内普遍的做法。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x

发表于 2025-1-30 19:33 来自手机 |显示全部楼层
此文章由 企鹅男孩 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 企鹅男孩 所有!转贴必须注明作者、出处和本声明,并保持内容完整
dunkerlc 发表于 2025-1-30 19:25
一个2014年的技术,各大厂商早用烂了。。。

用一个自己或者别人的大模型训练自己的小模型,这是行业内普 ...

人家是大公司蒸馏自己的模型,推出轻量版的模型

或者小公司、个人自娱自乐,去蒸馏别人的模型

正儿八经的大公司怎么可能明目张胆的蒸馏别人的数据,还不得被告到冒烟

发表于 2025-1-30 19:42 |显示全部楼层
此文章由 xji 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 xji 所有!转贴必须注明作者、出处和本声明,并保持内容完整
我觉得问题不在于deepseek是否用了gpt生成的数据做模型训练。就像大家说的那样,训练数据无非是找别人的,没有任何一个公司靠自家生成的数据训练模型。用模型生成数据训练模型,这也不稀奇,大家都这样做。

问题在于,事情是不是变成这样:如果有一个100分的模型放在那里,那么deepseek可以利用这个模型,用很低的成本训练生成一个90分的模型。但是如果没有那个100分的模型,deepseek就不能用低成本训练一个90分的模型。如果是这样,那deepseek的成果意义就不大了。这就意味着deepseek只能在别人模型的基础上用低成本训练一个差不多的,但永远突破不了别人的上限。

如果利用现有的100分的模型,deepseek可以增加一些成本,做一个120分的模型超过它,先不要压太多成本,只要用不超过100分模型的成本,做一个120分的模型,那deepseek的工作就非常意义。这样deepseek就可以突破原有上限。

或者gpt可以利用deepseek的技术,降低自己做100分模型的成本,又或者利用deepseek的技术,可以保持成本不变做出120分的模型,那都说明deepseek的工作非常有意义。

我觉得目前最好的模型还不够强大,所以美国人本来没想着压成本,应该是先砸钱把模型做强大,等到模型足够强大了,再回头优化成本。就好像编程序一样,程序没跑通之前,不要想优化效率,等跑通了,证明算法行得通,再不断优化。美国现在是突破上限的阶段。没想到中国人反过来通过压成本,打了个措手不及。结果就是美国人前面想突破模型上限,后面被deepseek追着屁股赶,一下变得踉跄了。

评分

参与人数 1积分 +3 收起 理由
ninegumtrees + 3 感谢分享

查看全部评分

Advertisement
Advertisement

发表于 2025-1-30 19:57 来自手机 |显示全部楼层
此文章由 llee 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 llee 所有!转贴必须注明作者、出处和本声明,并保持内容完整
liangyu42087 发表于 2025-1-30 14:49
过程不一样,但是本质都是一样。

Open AI用 爬虫 + 其他网站的 API来训练自己 - 其中包括没有授权的dat ...

应该是有用用OpenAI的接口获取数据的,但是考虑到带宽的影响和服务器端可以对大量访问的限流,这个占比多大也不好说。

发表于 2025-1-30 20:07 |显示全部楼层
此文章由 bbc007 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 bbc007 所有!转贴必须注明作者、出处和本声明,并保持内容完整
刚才问了一下CHATGPT,CHATGPT说DEEPSEEK没有抄袭自己,属于合理模仿。

发表于 2025-1-30 21:20 |显示全部楼层
此文章由 fxdestiny1 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 fxdestiny1 所有!转贴必须注明作者、出处和本声明,并保持内容完整
都开源啦,而且ds的团队也没否认过早起使用openai的api来训练模型呀。
都是付费服务,有什么问题吗。而且蒸馏对手的模型也是正常的手段,google和meta就没用过吗?
openai没开源啊,从哪里抄,难道又是核心团队成员卖代码吗?

发表于 2025-1-30 21:26 |显示全部楼层
此文章由 dunkerlc 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 dunkerlc 所有!转贴必须注明作者、出处和本声明,并保持内容完整
本帖最后由 dunkerlc 于 2025-1-30 21:34 编辑
企鹅男孩 发表于 2025-1-30 19:33
人家是大公司蒸馏自己的模型,推出轻量版的模型

或者小公司、个人自娱自乐,去蒸馏别人的模型


我刚刚仔细研究了下,的确需要授权才可以蒸馏其他公司的模型。没有授权就蒸馏属于侵权行为。

我又研究了下,这种蒸馏其他家公司模型只能从大模型到小模型,不可能像这样从大模型到大模型。

不管怎样拭目以待吧。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x

发表于 2025-1-30 21:36 |显示全部楼层
此文章由 yelleft 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 yelleft 所有!转贴必须注明作者、出处和本声明,并保持内容完整
让子弹多飞一会.
Advertisement
Advertisement

发表于 2025-1-30 21:50 |显示全部楼层
此文章由 flyspirit 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 flyspirit 所有!转贴必须注明作者、出处和本声明,并保持内容完整
这种事情很快就会水落石出, 让子弹多飞两天。

业界的人根据DeepSeek的白皮书,自己训练,看看能不能训练出类似水平的模型。

6000亿参数的一个模型, 训练成本这么便宜, too good to be true.

发表于 2025-1-30 22:35 |显示全部楼层
此文章由 dnr 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 dnr 所有!转贴必须注明作者、出处和本声明,并保持内容完整
看到好多堂吉诃德。。。

发表于 2025-1-30 23:55 |显示全部楼层
此文章由 zhangwei7461 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 zhangwei7461 所有!转贴必须注明作者、出处和本声明,并保持内容完整
InTheEnd 发表于 2025-1-30 11:15
说OpenAI长期依赖他人成果
一派胡言,我感到非常的气愤!
为了自证清白,OpenAI请开源把 ...


你手下的人也准备找大使馆庇护?

发表于 2025-1-31 03:22 |显示全部楼层
此文章由 hpehpe 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 hpehpe 所有!转贴必须注明作者、出处和本声明,并保持内容完整
其实是无头公案 最好的办法 就是open AI也开源 这样
双方通过代码对比 不就真相大白吗

发表回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则

Advertisement
Advertisement
返回顶部