2023年11月29日突破1 分钟阅读

中英双语基座立起

仅隔 27 天,DeepSeek-LLM 7B 与 67B 发布:中英双语基座模型。无发布会、无 PR,只有 arXiv 论文和 HuggingFace 上的可下载权重。「隔周发模型」的极简发布节奏从此成为 DeepSeek 的标志。

仅隔27天,DeepSeek-LLM 7B和67B发布。这是团队在基座模型上的首次完整亮相,覆盖中英双语。它的出现补上了拼图:Coder专注代码,LLM承担通用理解。支撑这两个模型训练的,是萤火集群日夜不歇的轰鸣。外界开始留意这个“隔周发模型”的节奏——没有发布会,只有arxiv的一篇论文和HuggingFace上可下载的权重。这种发布方式后来成为DeepSeek的标志:把工程事实摊在桌面上,让开发者自己判断。

参考来源