讲清楚

556 万美元，怎么训出一个 GPT-4 级别的模型？

DeepSeek-V3 的训练成本约为同类模型的十五分之一——不是靠一个绝招，而是把架构、精度、训练目标上的每一处小节省叠加起来，最终产生了质变。

从 DeepSeek 的视角

我们没有无限的 GPU，所以必须让每一张卡都物尽其用。FP8 精度、稀疏 MoE 路由、潜在注意力缓存压缩、更高效的训练目标——这些不是独立的实验，而是被工程化地组合在一起。那个成本数字，是这种严谨的产物。

选择深度

小学生

DeepSeek 用比别人少得多的钱，训出了一个同样聪明的 AI——就像一个厨师学会了用一半的面粉烤出同样美味的蛋糕。

想象你要烤一个超级大的生日蛋糕。大多数面包店要用很多面粉、开很多烤箱，费用很高。DeepSeek 的团队找到了更聪明的方法：他们用了特别高效的烤箱，只加热需要用的部分，还想出了更省面粉的配方。做出来的蛋糕——也就是 DeepSeek-V3 这个 AI——和最大面包店做的一样好吃，但成本大约便宜了十到二十倍。秘密不是某一种神奇原料。而是把几十件小事都做得比以前更聪明，然后这些小进步叠加在一起，变成了一个大的不同。

类比

就好像搭同一座乐高城堡，别人用了一万块积木，你只用五千块——因为你更聪明地想清楚了每块该放在哪里。