震荡世界 · 2024.12 – 2025.3
557 万美元把 Nvidia 推下神坛
2024 年圣诞次日,V3 用 2048 块 H800、557 万美元训出 671B,性能压过 GPT-4o。一个月后,R1 用纯强化学习把推理能力开源,成本仅为 o1 的 1/27。1 月 27 日,DeepSeek App 登顶美区 App Store,同日 Nvidia 单日蒸发 6000 亿美元,成为美股单公司最大日跌幅。「堆算力就赢」的叙事,在这一刻被一家中国开源团队当众撕碎。
本时代事件
- 2024年12月26日完整阅读 →
557万美元撬动GPT-4o级性能
2024 年 12 月 26 日,DeepSeek-V3 发布:671B 总参数、37B 激活,在 14.8 万亿 token 上训练。仅用 2048 块 H800 GPU,总成本约 557 万美元——不到同级模型预算的十分之一。多项评测超越 GPT-4o 和 Claude 3.5 Sonnet。
- 2025年1月20日完整阅读 →
纯强化学习的推理觉醒
2025 年 1 月 20 日,DeepSeek-R1 以 MIT 协议开源:671B 模型完全通过纯强化学习训练推理能力——无 SFT 冷启动。多项推理基准对标 OpenAI o1,推理成本仅为后者的 1/27。同时开源 6 个蒸馏版本,小至 1.5B。
- 2025年1月27日完整阅读 →
App登顶美区,Nvidia单日蒸发$600亿
2025 年 1 月 27 日,DeepSeek 官方 App 在美区 App Store 免费榜超过 ChatGPT 登顶。同一天,Nvidia 单日蒸发约 600 亿美元市值——美股单公司单日最大跌幅纪录。投资者开始重估「堆算力就赢」的 AI 军备叙事。
- 2025年3月24日完整阅读 →
静默升级,数学编程再越界
2025 年 3 月 24 日,DeepSeek-V3-0324 静默更新:强化推理、前端代码生成、中文写作、函数调用。无发布会,只有 HuggingFace 上一份刷新的 model card。基准显示其在数学与编程上超越 GPT-4.5。