2025年1月20日震荡世界
纯强化学习的推理觉醒
DeepSeek-R1用MIT协议开源,671B的模型完全通过强化学习训练推理能力,没有任何SFT冷启动数据。这种“让模型自己学会思考”的路子在学术界被反复讨论,但鲜有人敢在全量规模实现。R1做到了,在多个推理基准上对标OpenAI o1,而推理成本仅为后者的1/27。同时开源的还有6个蒸馏版本,小至1.5B,让低配硬件也能跑出强大推理。R1的发布标志着开源社区第一次在硬核推理领域有了不妥协的选项,论文中那句“deepseek-r1, trained via pure RL”成为无数研究者的兴奋点。
参考来源