2023年11月2日突破
代码模型第一枪:谁说开源不行?
DeepSeek-Coder系列发布,1.3B至33B四种尺寸,从第一天起全部开源。模型在2万亿token上训练,混合87%代码与13%自然语言,覆盖80多种编程语言。33B版本在多个基准上超越当时显赫的CodeLlama-34B。更令开发者震动的是:它不是某个大企业的副产品,而是一个刚独立不到四个月的团队推出的、完全为写代码而生的模型。GitHub星星一夜涌入,HuggingFace排行攀升,程序员第一次真切感受到,开源代码模型的“用爱发电”可以来自一个没有商业路演的神秘公司。
参考来源