突破 · 2023.11 – 2024.7
用结构创新撬开闭源高墙
独立后不到四个月,DeepSeek 推出第一个开源 Coder。接下来 9 个月,节奏是「隔周一个模型」:LLM、Coder V2,到 2024 年 5 月 V2 用 MLA 把 KV 缓存砍 93.3%,定价 0.14 元/百万 token,直接把国内 API 价格打穿地板。7 月,梁文锋在 36 氪那句「中国不能永远做追随者」第一次被海外认真转译。
本时代事件
- 2023年11月2日完整阅读 →
代码模型第一枪:谁说开源不行?
2023 年 11 月 2 日,DeepSeek-Coder 发布:1.3B 至 33B 四种尺寸,全部开源。2 万亿 token 训练,87% 代码 + 13% 自然语言,覆盖 80 多种编程语言。33B 版本在多基准上超越当时显赫的 CodeLlama-34B。距离公司独立不到 4 个月。
- 2023年11月29日完整阅读 →
中英双语基座立起
仅隔 27 天,DeepSeek-LLM 7B 与 67B 发布:中英双语基座模型。无发布会、无 PR,只有 arXiv 论文和 HuggingFace 上的可下载权重。「隔周发模型」的极简发布节奏从此成为 DeepSeek 的标志。
- 2024年5月7日完整阅读 →
MLA改写注意力规则,价格战自此打响
2024 年 5 月 7 日,DeepSeek-V2 登场:236B 总参数、21B 激活参数、128K 上下文。首发的多头潜在注意力(MLA)将 KV 缓存暴降 93.3%,推理吞吐提升 5.76 倍。定价每百万 tokens 仅 0.14 元,引爆国内 API 价格血战。
- 2024年6月完整阅读 →
338种语言,代码对标GPT-4 Turbo
2024 年 6 月,DeepSeek-Coder V2 采用 MoE 架构,支持 338 种编程语言,上下文窗口大幅扩展。在多个高级编程基准上追平甚至超越 GPT-4 Turbo。距离最初的 Coder 发布仅 7 个月。
- 2024年7月完整阅读 →
「中国不能永远做追随者」
2024 年 7 月,梁文锋接受《36 氪》深度采访。三句金句:「开源发论文并不会失去什么。」「中国不能永远做追随者。」「更多投入不一定产生更多创新。」采访被翻译成英文,在海外技术社区引发广泛共鸣。