Advertisement
Advertisement

新足迹

 找回密码
 注册
新足迹 门户 工作学习 查看内容

通俗地解释一下,什么是DeepSeek开源以及有什么用

2025-2-9 09:16| 发布者: leoyin2014 | 查看: 896| 原文链接

DeepSeek号称跟其他大模型最不同就是”开源“。
但是很多同学有误解,以为拿到了开源代码,自己也能做出大模型了。

我大致看了一下它的开源代码,简单地说,其实你能做的,就是对DeepSeek大模型做各种微调,定制,蒸馏等等,但是你无法根据这些开源,来做出一个DeepSeek类似的大模型。

通俗解释就是,DeepSeek好比一个百科全书,里面什么都有,但是你用DeepSeek开源代码,只能做一些精华提炼,小百科,某些方面的知识,比如专注于法律,建筑,医疗等等的DeepSeek”精华版“。要知道DeepSeek最大的版本也有300GB,这样大的数据,运行也需要64G显存的显卡,不太可能在便携式设备上快捷使用,所谓蒸馏,就是把百科全书变成某方面小专家,你可以在机器人上运行。

”微调“,就是通过你输入一些新的训练材料,调整不同的权重,让DeepSeek在某些方面更聪明,生成一个在某些方面比原版DeepSeek更聪明的小DeepSeek。 一个比喻就是假如天龙八部这本书是DeepSeek,很多导演就开始微调,换换情节,加加人物,弄出一个新电影,本质上还是天龙八部,但是在某些方面有创新有看头,但是你让这些导演自己写本天龙八部,那是不可能的。

这里的开源代码,没有提供训练材料和方法,所以你无法真正的从头开始训练一个大模型,因为这是顶级商业机密,如果有人拿到了这种代码,可以自己训练一个”邪恶的“大模型,就会危害社会了。而且从头训练大模型,需要的资源,不是普通人能负担的,需要显卡,大量的人员来标注训练数据,以保证AI不走邪路,这不是简单的一个代码能描述的了。选择训练数据的源,都是一个商业机密,据说DeepSeek使用大量中文训练,因为中文更简练,各种词的组合很方便,所以DeepSeek拥有更高的智力和更少的训练时间。所以一般来说,你想要训练一个大模型,你要解决这两方面问题:人力和算力。

所谓训练其实也不复杂,就是练习填空,比如 天空是___色的,你让AI填空,一开始它会胡说,红色,白色,绿色,你每次都给它低分,当它回答蓝色的时候,你给高分,它就记住了,原来说蓝色,会得高分,那它以后就永远回答蓝色了。所以训练者的反馈很重要,这就是supervised training, 如果让AI自己自问自答,就是unsupervised training。  

当然,即便你训练出邪恶的AI,也会被互联网封杀,你本人也会锒铛入狱,很多国家已经立法禁止训练邪恶AI,请不要以身试法,比如有人曾经训练出合成毒品的AI,被瞬间下架。

最后,使用DeepSeek创业的方向,我认为仍在便携设备和智能体上最有意义,你研究出一些家用机器人,配置DeepSeek,可以拥有更高的智力,不止于跟你聊天,基本上可以当人使唤了。

Advertisement
Advertisement


Advertisement
Advertisement
返回顶部