2024年5月7日突破

MLA改写注意力规则，价格战自此打响

DeepSeek-V2以236B总参数、21B激活参数登场，128K长上下文。它首次亮相的多头潜在注意力机制（MLA）将KV缓存需求暴降93.3%，推理吞吐提升5.76倍。训练成本比前代67B模型还低42.5%。更激进的是定价：每百万tokens仅0.14元人民币，直接击穿了当时国内API市场的底线。各大云厂紧急跟进降价，舆论称之为“由一家量化基金引发的价格血战”。这一天，MLA不仅成为架构创新的代名词，也把DeepSeek从“有意思的开源团队”推至“让所有人都紧张的对手”。

关联产品

DeepSeek-V2

KV缓存锐减93.3%，定价击穿行业地板 →

参考来源

https://arxiv.org/abs/2405.04434
https://api-docs.deepseek.com/updates

查看完整 DeepSeek 故事 →