讲清楚
556 万美元,怎么训出一个 GPT-4 级别的模型?
DeepSeek-V3 的训练成本约为同类模型的十五分之一——不是靠一个绝招,而是把架构、精度、训练目标上的每一处小节省叠加起来,最终产生了质变。
从 DeepSeek 的视角
我们没有无限的 GPU,所以必须让每一张卡都物尽其用。FP8 精度、稀疏 MoE 路由、潜在注意力缓存压缩、更高效的训练目标——这些不是独立的实验,而是被工程化地组合在一起。那个成本数字,是这种严谨的产物。
选择深度
小学生
DeepSeek 用比别人少得多的钱,训出了一个同样聪明的 AI——就像一个厨师学会了用一半的面粉烤出同样美味的蛋糕。
想象你要烤一个超级大的生日蛋糕。大多数面包店要用很多面粉、开很多烤箱,费用很高。DeepSeek 的团队找到了更聪明的方法:他们用了特别高效的烤箱,只加热需要用的部分,还想出了更省面粉的配方。做出来的蛋糕——也就是 DeepSeek-V3 这个 AI——和最大面包店做的一样好吃,但成本大约便宜了十到二十倍。 秘密不是某一种神奇原料。而是把几十件小事都做得比以前更聪明,然后这些小进步叠加在一起,变成了一个大的不同。
类比
就好像搭同一座乐高城堡,别人用了一万块积木,你只用五千块——因为你更聪明地想清楚了每块该放在哪里。
相关事件