2025年1月20日震荡世界1 分钟阅读
纯强化学习的推理觉醒
2025 年 1 月 20 日,DeepSeek-R1 以 MIT 协议开源:671B 模型完全通过纯强化学习训练推理能力——无 SFT 冷启动。多项推理基准对标 OpenAI o1,推理成本仅为后者的 1/27。同时开源 6 个蒸馏版本,小至 1.5B。
DeepSeek-R1用MIT协议开源,671B的模型完全通过强化学习训练推理能力,没有任何SFT冷启动数据。这种“让模型自己学会思考”的路子在学术界被反复讨论,但鲜有人敢在全量规模实现。R1做到了,在多个推理基准上对标OpenAI o1,而推理成本仅为后者的1/27。同时开源的还有6个蒸馏版本,小至1.5B,让低配硬件也能跑出强大推理。R1的发布标志着开源社区第一次在硬核推理领域有了不妥协的选项,论文中那句“deepseek-r1, trained via pure RL”成为无数研究者的兴奋点。
参考来源