2023年11月29日突破
中英双语基座立起
仅隔27天,DeepSeek-LLM 7B和67B发布。这是团队在基座模型上的首次完整亮相,覆盖中英双语。它的出现补上了拼图:Coder专注代码,LLM承担通用理解。支撑这两个模型训练的,是萤火集群日夜不歇的轰鸣。外界开始留意这个“隔周发模型”的节奏——没有发布会,只有arxiv的一篇论文和HuggingFace上可下载的权重。这种发布方式后来成为DeepSeek的标志:把工程事实摊在桌面上,让开发者自己判断。
参考来源
仅隔27天,DeepSeek-LLM 7B和67B发布。这是团队在基座模型上的首次完整亮相,覆盖中英双语。它的出现补上了拼图:Coder专注代码,LLM承担通用理解。支撑这两个模型训练的,是萤火集群日夜不歇的轰鸣。外界开始留意这个“隔周发模型”的节奏——没有发布会,只有arxiv的一篇论文和HuggingFace上可下载的权重。这种发布方式后来成为DeepSeek的标志:把工程事实摊在桌面上,让开发者自己判断。
参考来源