2024年12月26日震荡世界
557万美元撬动GPT-4o级性能
DeepSeek-V3发布:671B总参数、37B激活参数,在14.8万亿token上训练,全面采用FP8混合精度和Multi-Token Prediction。训练仅用2048块H800 GPU,总成本约557万美元——不到许多同级模型训练预算的十分之一。在多个评测集上,V3性能超越GPT-4o和Claude 3.5 Sonnet。论文详细披露了每一个工程选择,包括对抗FP8下数值不稳定的大量实验。社区将它称为“效率的奇迹”:不是算力最多的人赢,而是把算力用到极致的人赢。
参考来源