deepseek 的源代码开源在哪里啊?
想拿来膜拜一下,V3 和 R1 的。还有量化方案也在里面么?
没有开源源代码 ,只有论文,你去复现吧
好像是模型免费下载, 国产就是善于创造概念,这么算 gimmy 也是开源的
huggingface.co/deepseek-ai
看看这里有没有
github.com/deepseek-ai 上?
?第一次听说大模型领域模型开源不算开源的,模型结构都给你了还要咋样
感觉 LLM 模型之类的开源,不等同于工程项目的开源
好比我写了一篇文章,允许随意使用,但我也不需要提供字/词典吧,LLM/CV 模型训练更像是一个 cooking 的过程,食谱,食材都端上来了,毕竟它不像是一个工程项目。
至于楼上那位国产创造概念的观点,我不太清楚 llama 开源是不是也是这种形式,可以考证一下
llama3 的代码仓库: github.com/meta-llama/llama3 ,虽然我到现在都没跑起来
deepseek 的仓库没有代码的: github.com/deepseek-ai/DeepSeek-R1 ,v3 还没试: github.com/deepseek-ai/DeepSeek-V3
大部分模型所谓开源就是指训练好的模型权重开源, 反正你直接可以用
但不会告诉你怎么训练出来的, 更不会给你训练材料
LLM 的开源多数只提供 inference 的代码,想训练只能自己尝试复现了。
我也是第一次听说,没有代码也叫开源的
LLM 领域目前是这样的,DeepSeek 以 MIT 协议开源了模型权重,附赠实现论文,已经让 AI 研究者激动,甚至有人已经复现了: github.com/hkust-nlp/simpleRL-reason/tree/main
赢!
我也是第一次听说 OpenAI 原来是 Close 的
汗……还要人家把业务数据、代码都给你才行?要不要再免费搭上能跑得动的 vps
DeepSeek 是训练过程全写到论文里了,你可以根据论文直接复现。 github.com/huggingface/open-r1
要不怎么说 DeepSeek 是大善人呢
deepseek r1 的代码就是 v3 的仓库,是同一套代码只是权重不一样。这个 README 里有啊
上次 deepseek v3 出来的时候站里就已经闹过不少笑话了
现在怎么还这样啥都不懂就信口开河,不长记性吗😅
动动手问问 llm 也行啊
这就说明搞算法的和搞开发的”隔行如隔山“了 。
可以参考一下其他组织的复现尝试 github.com/huggingface/open-r1
#10 大模型的训练代码是非常工程的,可能都还包含了一些公司内部基建的代码,这些是肯定不会开源的,训练一次要几千张卡,开源又怎么样,难不成还真能跑起来不成
不过一般 LLM 开源,会同步放出模型结构、怎么推理、怎么微调的代码,如果非要较真这个,deepseek r1 确实少做了一点,不过目前开源的部分已经很够用了
openAI 也叫 open 你告诉我 openAI open 在哪里
训练代码其实都不会开源,很多公司“开源”出来的和他们实际使用的代码并不同。
因为训练一个超大模型要考虑的事情非常多,例如服务器硬件故障之后要怎么处理。有些代码会涉及到公司的云设施核心代码,如果完整开源出来,你甚至可以用来搭建一个阿里云、腾讯云……
确实不太理解这种开“源”
楼上列举的各种,那个算源么?你们自己去看看开源软件中的源是什么意思啊。
如果展示其中的一部分代码就算是开源了,那我给你放个 https 的链接,算开源网页吗?
楼上举 OpenAI 的例子更滑稽,啥时候人家自己说过自己是开源的啊?
程序开源和模型开源本来就是不同的领域,为啥要一样?
这个概念也不是国内发明的,OpenAI 的 GPT-3 之前的版本也是开源的,但只开放了权重。
Meta 的 LLaMA 系列也是开源模型,同样不提供训练数据,但它进一步在论文中公开了一些训练细节,因此不妨碍它成为国内套壳模型的鼻祖。
而 DeepSeek 在论文中公开的细节比 LLaMA 的论文更多,且不少是前人未走过的捷径,这足以让业界震撼了。
deepseek 这次是开源的权重, 以及那个五十多页的技术报告, 实际上搞算法的有大量的代码是 dirty work , 就是各种数据处理技巧, 因为这次的技术报告非常详细,短短几天已经有好几家复现成功 R1 了, 比如 huggingface 的官方复刻版本。 huggingface.co/open-r1
推理代码和权重开源了,推理代码直接合并到了 VLLM 主线,权重在 HF
另外具体的模型细节通过论文形式提供
那么我的问题很简单,“开源”的定义是什么呢?
据我所知,开源二字是源于开源软件,open source software en.wikipedia.org/wiki/Open_source 这里的定义很清晰。
“开放了权重”即为“开源”,这是那个组织定义的,我不知道,以及到底哪个协议里有提到过这一条呢?
我从未听说过 OpenAI 是开源的,您可以提供一下相应的信息来源。你甚至可以问 chatgpt ,你是不是开源的。我相信 100 次的结果都是一样的。
推理代码开源就不是开源了吗?🤣
权重只是配置,配置怎么来的不是另外一个故事吗
你连 openai 开源过模型都不知道,你还谈什么开源,按你自己理解就好了,没必要扣字眼。
训练部分的代码目前没见过哪家开源过的。训练部分代码大量耦合自家公司的各种基建代码,没法开。
对这个有纠结的话感觉可以看看国外其他的开源模型对比下
大模型的「开源」确实不是传统意义上的「开源」。
FSF 最近在推进这方面的建设: www.fsf.org/news/fsf-is-working-on-freedom-in-machine-learning-applications
不过看样子会比较困难。尤其是训练数据,巨头们就算愿意,也不敢或者说无权「开源」。因为里面不可避免地存在着大量本来就涉嫌侵权的东西。
模型重要的是架构设计,而不是功能差不多的训练和推理的具体代码。
leetcode 看代码,没人注意你是怎么怎么 cin 和 cout 的,
告诉你架构设计就能复现核心代码,告诉你是动态规划,你就能写个差不多了。
我再给你模型参数就证明了我的算法不是吹的,这时你就是 oj 平台,你给个输入他给输出,发现他的算法还真是 O(1)的时间复杂度。
#32 GPT3 以前都是开源的,但是 OpenAI 没说自己非要开源。OpenAI 是一家商业公司,不是 NGO 。Open 也不是非要 Open Source, 可以是 Open Collaboration, Open Minded ,不是很理解为什么楼上那么多人举 Open AI 的例子。我寻思恁中华人民共和国既不中华也不人民甚至 12 之后已经不是共和国,也没人敢逼逼啊?
举 closeai 的例子不是说它也叫过开源,没说不让赚钱啊。
OpenAI 是 nonprofit organization ,只是前两天才改成商业公司的
人家说的开源模型,你要求的有点多啊
既然简单,你为何不自己查证呢?这些知识哪怕是 AI 界的初学者也是常识啊。
GPT-3 之前的版本开源,你现在能访问到的都是闭源版本的,所以当然告诉你它是闭源的。在 GPT-2 的 wiki ( en.wikipedia.org/wiki/GPT-2 )中可以看到这样一句:It was superseded by the GPT-3 and GPT-4 models, which are no longer open source. 意思是 GPT-2 之后的版本「不再」是开源的。
www.llama.com/ 第一句话就是:The open-source AI models you can fine-tune, distill and deploy anywhere.
你找找看它们是否公布了训练代码和训练集?
「 open-source AI model 」是外国公司在 5 年前就抢先定义了的,业界也早已认可了,不是 DeepSeek 临时炒作的概念。
en.wikipedia.org/wiki/Open-source_artificial_intelligence 里也提到了「 The Open Source Initiative and others stated that Llama is not open-source despite Meta describing it as open-source, due to Llama's software license prohibiting it from being used for some purposes.」 Open Source Initiative 是最权威的开源协议组织了吧?它质疑 Llama 不开源也只针对了它不能用于某些用途,而不是没有开放训练代码和训练集。
隔行如隔山,CRUD 民工就别拿自己的认知评价另一个领域了😇
没彻底开源,项目试图重复这个 参考 github.com/huggingface/open-r1?tab=readme-ov-file
谢谢,我搜索的时候没有看到你提的。你引用的这个页面: en.wikipedia.org/wiki/Open-source_artificial_intelligence
。这个确实是最权威的,但我看到里面的 1.0 版本也是 2024-11-14 这个时间才制作的。我确实没有这个 AI 界的常识。
所以此处提到的开源、这个“开源”的在这里的全称是开源模型(open source model),也就是能够看到参数权重。
学到了,谢谢。
但对于这个开源模型或是开源 AI 与 开源软件 直接的巨大差异,我依然保留自己的一部分观点:现在的开源软件很重要的一点是:除了可以自由使用,修改等等以外,也提供源代码,即:我的制作过程从第一步开始展示给所有人,你可以从原材料都看得清清楚楚。而现在开源模型对于封装和使用来看,更像是我提供一个 .exe 或者 .app 文件,我也让你免费用,随便改,但是这个 .exe 文件是怎么制作出来的,抱歉,我没有义务告诉你。我认为这个差异是巨大的。无论是开源的源还是 open source 的 source ,语义上都是有差异的,因为根本没开放“源”。
举一个不那么准确的例子,一个是从原料到制作工艺的标准都写的十分详细。可以得到:只要你用我说的原料和工艺,你就能生产出跟我一样的可口可乐。另一个是,我给你提供一模一样的可乐糖浆,我也告诉你配料表,我也允许你拿去研究,但是可乐糖浆是怎么制作的,抱歉,保密。
那么你的定义下确实世界上并不存在真正的开源模型了。但是在 OSI 的定义下,deepseek 就是开源模型。
另外纠正一下,你看到的是收录时间,并不是发布时间。实际上的发布时间要更早一点。
在这很正常,都是意识形态为主
#13 村通网
怎么叫我定义呢?我这里全都是引用的。
如果叫 open model / 开放模型,是没有任何歧义的;甚至依照 free software 叫 free model 我觉得都完全合乎沿用规范。因为他开放的仅仅就是模型权重。
我上一贴也讲过“source/源”了。source/源,无论你查中文和英文的字典,基本都是同一个意思。大家都认同叫开源那就开源吧,没打算纠正别人。我已经搞清楚了。
谢谢你的纠正。
etc
多说两句:
“free software/自由软件”在鄙人看来,是当时一个伟大的倡议。而 "open source software/开源软件"是在这个基础上的又一极大进步。
这两个概念不是什么新鲜东西了,具体的定义很好查到。
在回头看大模型中的开“源”概念,我很难得出其中的语义没有冲突的结论。我也相信未来在更大范围会形成更清晰的共识的。
Google voice 保号 不想搞两个号 求两个朋友,我这边每个月固定 1 号给这两个号发短信,求回复 我的号 +1 (859) 444 4744 麻烦直接每个月给微软…
每隔几年都要来学一遍,每次都是入门到放弃。直接上代码,懒得解释。 //常规脑回路,写的代码,抱歉了,bug 成堆 $list=array(); for($i=0;$i‘ 确实…
rt.领导让学习下 ROS 开发,还说用 Java ,问他就是给个官网。找到的资料都是 c++和 python 。求高手入门指导.......是不是就是学安卓?还是......…