讲清楚

多头潜在注意力（MLA）究竟是什么？

MLA 将推理时的 KV 缓存压缩 93%，让千亿参数模型也能跑百万 token 长上下文。

从 DeepSeek 的视角

长上下文推理的瓶颈在于注意力的内存占用。我们没有选择近似——而是重新设计了投影本身：将 K 和 V 压缩进低秩潜在空间，推理时再还原各头的表示。这是结构性的重构，不是折中。

选择深度

小学生

MLA 是一种更聪明的记笔记方式，让 AI 在聊很长的对话时也不会「记性用完」。

想象你在读一本超长的故事书，每读完一段都要记住所有内容。最笨的方法是把每句话都抄下来——笔记本很快就填满了。聪明的方法是只写一份压缩摘要，用一个「解码规则」在需要时把它还原成完整内容。MLA 就是这么做的。AI 不再把读过的每个词的「大张笔记」都存起来，而是存一份小小的压缩版，只有真正需要回答问题时才展开。这样它就能记住超长的对话，而不会把内存塞满。

类比

就像旅行时用真空压缩袋装衣服——行李箱里占的地方少多了，到了酒店再把衣服抖开就行。