DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning

Guo, Daya; Yang, Dejian; Zhang, Haowei; Song, Junxiao; Wang, Peiyi; Zhu, Qihao; Xu, Runxin; Zhang, Ruoyu; Ma, Shirong; Bi, Xiao; Zhang, Xiaokang; Yu, Xingkai; Wu, Yu; Wu, Zhenhua; Gou, Zhibin; Shao, Zhihong; Li, Zhuoshu; Gao, Ziyi; Liu, Aixin; Xue, Bing; Wang, Bingxuan; Wu, Bowen; Feng, Bei; Lu, Chengda; Zhao, Chenggang; Deng, Chengqi; Ruan, Chong; Dai, Damai; Chen, Deli; Ji, Dongjie; Li, Erhang; Lin, Fangyun; Dai, Fucong; Luo, Fuli; Hao, Guangbo; Chen, Guan-Ting; Li, Guowei; Zhang, Hongjun; Xu, Hanwei; Ding, Honghui; Gao, Huazuo; Qu, Hui; Li, Hui; Guo, Jianzhong; Li, Jiashi; Chen, Jingchang; Yuan, Jingyang; Tu, Jiagang; Qiu, Junjie; Li, Junlong; Cai, Jiali; Ni, Jiaqi; Liang, Jian; Chen, Jing; Dong, Kai; Hu, Kai; You, Kaichao; Gao, Kaige; Guan, Kang; Huang, Kexin; Yu, Kuai; Wang, Lean; Zhang, Lecong; Zhao, Liang; Wang, Litong; Zhang, Liyue; Xu, Lei; Xia, L.; Zhang, Mingchuan; Zhang, Minghua; Tang, Minghui; Zhou, Mingxu; Li, Meng; Wang, Miaojun; Li, Mingming; Tian, Ning; Huang, Panpan; Zhang, Peng; Wang, Qiancheng; Chen, Qinyu; Du, Qiushi; Ge, Ruiqi; Zhang, Ruisong; Pan, Ruizhe; Wang, Runji; Chen, R. J.; Jin, Rong; Chen, Ruyi; Lu, Shanghao; Zhou, Shangyan; Chen, Shanhuang; Ye, Shengfeng; Wang, Shiyu; Yu, Shuiping; Zhou, Shunfeng; Pan, Shuting; Li, Sansan; Zhou, Shuang; Wu, Shaoqing; Yun, Tao; Pei, Tian; Sun, Tianyu; Wang, Tianfu; Zeng, Wangding; Liu, Wen; Liang, Wenfeng; Gao, Wenjun; Wu, Yu; Zhang, Wentao; Xiao, Wenlian; An, Wei Guang; Liu, Xiaodong; Wang, Xiaohan; Chen, Xiaokang; Nie, Xiaotao; Cheng, Xin; Liu, Xin; Xie, Xin; Liu, Xingchao; Yang, Xinyu; Li, Xinyuan; Su, X.-J; Lin, Xuheng; Li, X. Q.; Jin, Xiangyue; Shen, Xiaojin; Chen, Xiaosha; Sun, Xiaowen; Wang, Xiaoxiang; Song, Xinnan; Zhou, Xinyi; Wang, X.G.; Shan, X. Y.; Li, Y. K.; Wang, Yufei; Wei, Yunxie; Zhang, Yang; Xu, Yanhong; Li, Yao; Zhao, Yao; Sun, Yaofeng; Wang, Yaohui; Yu, Yi; Zhang, Yichao; Shi, Yifan; Xiong, Yiliang; He, Ying; Piao, Yishi; Wang, Yisong; Tan, Yixuan; Ma, Yiyang; Liu, Yiyuan; Guo, Yongqiang; Ou, Yangjie; Wang, Yuduan; Gong, Yue; Zou, Yuheng; He, Yujia; Xiong, Yunfan; Luo, Yuxiang; You, Yuxiang; Liu, Yuxuan; Zhou, Yuyang; Zhu, Yuxin; Huang, Yanping; Li, Yaohui; Zheng, Yi; Zhu, Yi; Ma, Y.; Tang, Ying; Zha, Yukun; Yan, Yuting; Ren, Z. Z.; Ren, Zehui; Sha, Zhangli; Fu, Zhe; Xu, Z. L.; Xie, Zhenda; Zhang, Zhengyan; Hao, Zhewen; Ma, Zhicheng; Yan, Zhigang; Wu, Zhiyu; Gu, Zihui; Zhu, Zijia; Liu, Zijun; Li, Zilin; Xie, Ziwei; Song, Ziyang; Pan, Zizheng; Huang, Zhen; Xu, Zhipeng; Zhang, Zhongyu; Zhang, Zhen

doi:10.1038/s41586-025-09422-z

articleNatureSep 17, 2025HYBRID OA

DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning

DGDaya Guo DYDejian Yang HZHaowei Zhang JSJunxiao Song PWPeiyi Wang

Individual Differences · Shanghai Jinyuan Senior High School · +5 more institutions

PubMed

Indexed incrossrefpubmed

Abstract

Abstract General reasoning represents a long-standing and formidable challenge in artificial intelligence (AI). Recent breakthroughs, exemplified by large language models (LLMs) 1,2 and chain-of-thought (CoT) prompting 3 , have achieved considerable success on foundational reasoning tasks. However, this success is heavily contingent on extensive human-annotated demonstrations and the capabilities of models are still insufficient for more complex problems. Here we show that the reasoning abilities of LLMs can be incentivized through pure reinforcement learning (RL), obviating the need for human-labelled reasoning trajectories. The proposed RL framework facilitates the emergent development of advanced reasoning…

Citation impact

492

total citations

FWCI: 919.55
Percentile: 100%
References: 15

Citations per year

Authors

194

Topics & keywords

Topics

Keywords

Reinforcement learning
Verbal reasoning
Verifiable secret sharing
Coding (social sciences)
Automated reasoning
Reasoning system
Non-monotonic logic
Case-based reasoning

No related works found for this paper.