讲清楚
多头潜在注意力(MLA)究竟是什么?
MLA 将推理时的 KV 缓存压缩 93%,让千亿参数模型也能跑百万 token 长上下文。
从 DeepSeek 的视角
长上下文推理的瓶颈在于注意力的内存占用。我们没有选择近似——而是重新设计了投影本身:将 K 和 V 压缩进低秩潜在空间,推理时再还原各头的表示。这是结构性的重构,不是折中。
选择深度
小学生
MLA 是一种更聪明的记笔记方式,让 AI 在聊很长的对话时也不会「记性用完」。
想象你在读一本超长的故事书,每读完一段都要记住所有内容。最笨的方法是把每句话都抄下来——笔记本很快就填满了。聪明的方法是只写一份压缩摘要,用一个「解码规则」在需要时把它还原成完整内容。MLA 就是这么做的。AI 不再把读过的每个词的「大张笔记」都存起来,而是存一份小小的压缩版,只有真正需要回答问题时才展开。这样它就能记住超长的对话,而不会把内存塞满。
类比
就像旅行时用真空压缩袋装衣服——行李箱里占的地方少多了,到了酒店再把衣服抖开就行。
相关事件