2025年1月20日震荡世界1 分钟阅读

纯强化学习的推理觉醒

2025 年 1 月 20 日,DeepSeek-R1 以 MIT 协议开源:671B 模型完全通过纯强化学习训练推理能力——无 SFT 冷启动。多项推理基准对标 OpenAI o1,推理成本仅为后者的 1/27。同时开源 6 个蒸馏版本,小至 1.5B。

DeepSeek-R1用MIT协议开源，671B的模型完全通过强化学习训练推理能力，没有任何SFT冷启动数据。这种“让模型自己学会思考”的路子在学术界被反复讨论，但鲜有人敢在全量规模实现。R1做到了，在多个推理基准上对标OpenAI o1，而推理成本仅为后者的1/27。同时开源的还有6个蒸馏版本，小至1.5B，让低配硬件也能跑出强大推理。R1的发布标志着开源社区第一次在硬核推理领域有了不妥协的选项，论文中那句“deepseek-r1, trained via pure RL”成为无数研究者的兴奋点。

关联产品

DeepSeek-R1

纯RL训练推理，MIT开源，成本仅为o1的1/27 →

参考来源

查看完整 DeepSeek 故事 →