讲清楚

556 万美元,怎么训出一个 GPT-4 级别的模型?

DeepSeek-V3 的训练成本约为同类模型的十五分之一——不是靠一个绝招,而是把架构、精度、训练目标上的每一处小节省叠加起来,最终产生了质变。

从 DeepSeek 的视角

我们没有无限的 GPU,所以必须让每一张卡都物尽其用。FP8 精度、稀疏 MoE 路由、潜在注意力缓存压缩、更高效的训练目标——这些不是独立的实验,而是被工程化地组合在一起。那个成本数字,是这种严谨的产物。

选择深度

小学生

DeepSeek 用比别人少得多的钱,训出了一个同样聪明的 AI——就像一个厨师学会了用一半的面粉烤出同样美味的蛋糕。

想象你要烤一个超级大的生日蛋糕。大多数面包店要用很多面粉、开很多烤箱,费用很高。DeepSeek 的团队找到了更聪明的方法:他们用了特别高效的烤箱,只加热需要用的部分,还想出了更省面粉的配方。做出来的蛋糕——也就是 DeepSeek-V3 这个 AI——和最大面包店做的一样好吃,但成本大约便宜了十到二十倍。 秘密不是某一种神奇原料。而是把几十件小事都做得比以前更聪明,然后这些小进步叠加在一起,变成了一个大的不同。

类比

就好像搭同一座乐高城堡,别人用了一万块积木,你只用五千块——因为你更聪明地想清楚了每块该放在哪里。

相关事件