2024年12月26日震荡世界1 分钟阅读

557万美元撬动GPT-4o级性能

2024 年 12 月 26 日,DeepSeek-V3 发布:671B 总参数、37B 激活,在 14.8 万亿 token 上训练。仅用 2048 块 H800 GPU,总成本约 557 万美元——不到同级模型预算的十分之一。多项评测超越 GPT-4o 和 Claude 3.5 Sonnet。

DeepSeek-V3发布：671B总参数、37B激活参数，在14.8万亿token上训练，全面采用FP8混合精度和Multi-Token Prediction。训练仅用2048块H800 GPU，总成本约557万美元——不到许多同级模型训练预算的十分之一。在多个评测集上，V3性能超越GPT-4o和Claude 3.5 Sonnet。论文详细披露了每一个工程选择，包括对抗FP8下数值不稳定的大量实验。社区将它称为“效率的奇迹”：不是算力最多的人赢，而是把算力用到极致的人赢。

关联产品

DeepSeek-V3

671B参数，$5.6M训练成本，性能比肩最强者 →

参考来源

https://arxiv.org/html/2412.19437v1
https://api-docs.deepseek.com/updates

查看完整 DeepSeek 故事 →