2023年11月2日突破1 分钟阅读

代码模型第一枪:谁说开源不行?

2023 年 11 月 2 日,DeepSeek-Coder 发布:1.3B 至 33B 四种尺寸,全部开源。2 万亿 token 训练,87% 代码 + 13% 自然语言,覆盖 80 多种编程语言。33B 版本在多基准上超越当时显赫的 CodeLlama-34B。距离公司独立不到 4 个月。

DeepSeek-Coder系列发布,1.3B至33B四种尺寸,从第一天起全部开源。模型在2万亿token上训练,混合87%代码与13%自然语言,覆盖80多种编程语言。33B版本在多个基准上超越当时显赫的CodeLlama-34B。更令开发者震动的是:它不是某个大企业的副产品,而是一个刚独立不到四个月的团队推出的、完全为写代码而生的模型。GitHub星星一夜涌入,HuggingFace排行攀升,程序员第一次真切感受到,开源代码模型的“用爱发电”可以来自一个没有商业路演的神秘公司。

参考来源