2024年5月7日突破

MLA改写注意力规则,价格战自此打响

DeepSeek-V2以236B总参数、21B激活参数登场,128K长上下文。它首次亮相的多头潜在注意力机制(MLA)将KV缓存需求暴降93.3%,推理吞吐提升5.76倍。训练成本比前代67B模型还低42.5%。更激进的是定价:每百万tokens仅0.14元人民币,直接击穿了当时国内API市场的底线。各大云厂紧急跟进降价,舆论称之为“由一家量化基金引发的价格血战”。这一天,MLA不仅成为架构创新的代名词,也把DeepSeek从“有意思的开源团队”推至“让所有人都紧张的对手”。

参考来源