DeepSeek-V3 Technical Report

DeepSeek-AI; Liu, Aixin; Feng, Bei; Xue, Bing; Wang, Bingxuan; Wu, Bowen; Lu, Chengda; Zhao, Chenggang; Deng, Chengqi; Zhang, Chenyu; Ruan, Chong; Dai, Damai; Guo, Daya; Yang, Dejian; Chen, Deli; Ji, Dongjie; Li, Erhang; Lin, Fangyun; Fucong, Dai,; Luo, Fuli; Hao, Guangbo; Chen, Guan-Ting; Li, Guowei; Zhang, H.; Bao, Han; Xu, Hanwei; Wang, Haocheng; Zhang, Haowei; Ding, Honghui; Xin, Huajian; Gao, Huazuo; Li, Hui; Qü, Hui; Cai, Jiali; Liang, Jian; Guo, Jianzhong; Jiang, Ni; Li, Jiashi; Wang, J.; Jin, Chen; Chen, Jingchang; Yuan, Jingyang; Qiu, Junjie; Li, Junlong; Song, Junxiao; Dong, Kai; Hu, Kai; Gao, Kaige; Guan, Kang; Huang, Kexin; Yu, Kuai; Wang, Lean; Zhang, Lecong; Xu, Lei; Xia, L.; Zhao, Liang; Wang, Litong; Zhang, Liyue; Li, Meng; Wang, Miaojun; Zhang, Mingchuan; Zhang, Minghua; Tang, Minghui; Li, Mingming; Tian, Ning; Huang, Panpan; Wang, Peiyi; Zhang, Peng; Wang, Qiancheng; Zhu, Qihao; Chen, Qinyu; Du, Qiushi; Chen, R. J.; Jin, Rong; Ge, Ruiqi; Zhang, Ruisong; Ruizhe, Pan,; Wang, Runji; Xu, Runxin; Zhang, Ruoyu; Chen, Ruyi; Li, Shangrong; Lu, Shanghao; Zhou, Shangyan; Chen, Shanhuang; Wu, Shaoqing; Ye, Shengfeng; Ye, Shengfeng; Ma, Shirong; Wang, Shiyu; Zhou, Shuang; Yu, Shuiping; Zhou, Shunfeng; Pan, Shuting; Wang, Tong; Yun, Tao; Pei, Tian; Sun, Tianyu; Xiao, Wenlian; Zeng, Wangding; Zhao, Wanjia; An, Wei; Wen, Liu,; Liang, Wenfeng; Gao, Wenjun; Yu, Wenqin; Zhang, Wentao; Li, Xinqiao; Xiangyue, Jin,; Wang, X.G.; Bi, Xiao; Liu, Xiaodong; Wang, Xiaohan; Shen, Xiaojin; Chen, Xiaokang; Zhang, Xiaokang; Chen, Xiaosha; Nie, Xiaotao; Sun, Xiaowen; Wang, Xiaoxiang; Cheng, Xin; Liu, Xin; Xie, Xin; Liu, Xingchao; Yu, Xingkai; Song, Xinnan; Shan, X. Y.; Zhou, Xinyi; Yang, Xinyu; Li, Xinyuan; Su, X.-J; Lin, Xuheng; Li, Yanxun; Wang, Y. Q.; Wei, Yunxie; Zhu, Yuxin; Zhang, Yang; Xu, Yanhong; Xu, Yanhong; Huang, Yanping; Li, Yao; Yao, Zhao,; Sun, Yaofeng; Li, Yaohui; Wang, Yaohui; Yu, Yi; Zheng, Yi; Zhang, Yichao; Shi, Yifan; Xiong, Yiliang; He, Ying; Tang, Ying; Piao, Yishi; Wang, Yisong; Tan, Yixuan; Ma, Yiyang; Liu, Yiyuan; Guo, Yongqiang; Wu, Yu‐Chi; Ou, Yangjie; Zhu, Yuchen; Wang, Yuduan; Gong, Yue; Zou, Yuheng; He, Yujia; Zha, Yukun; Yunfan, Xiong,; Ma, Y.; Yan, Yuting; Luo, Yuxiang; You, Yuxiang; Liu, Yuxuan; Zhou, Yuyang; Wu, Zixuan; Ren, Z. Z.; Ren, Zehui; Sha, Zhangli; Fu, Zhe; Xu, Z. L.; Huang, Zhen; Zhang, Zhen; Xie, Zhenda; Zhang, Zhengyan; Hao, Zhewen; Gou, Zhibin; Ma, Zhicheng; Yan, Zhigang; Shao, Zhihong; Xu, Zhipeng; Wu, Zhiyu; Zhang, Zhongyu; Li, Zhuoshu; Gu, Zihui; Zhu, Zijia; Liu, Zijun; Li, Zilin; Xie, Ziwei; Song, Ziyang; Gao, Ziyi; Zizheng, Pan,

doi:10.48550/arxiv.2412.19437

preprintarXiv (Cornell University)Dec 27, 2024GREEN OA

DeepSeek-V3 Technical Report

DDeepSeek-AI ALAixin Liu BFBei Feng BXBing Xue BWBingxuan Wang

Indexed inarxivdatacite

Abstract

We present DeepSeek-V3, a strong Mixture-of-Experts (MoE) language model with 671B total parameters with 37B activated for each token. To achieve efficient inference and cost-effective training, DeepSeek-V3 adopts Multi-head Latent Attention (MLA) and DeepSeekMoE architectures, which were thoroughly validated in DeepSeek-V2. Furthermore, DeepSeek-V3 pioneers an auxiliary-loss-free strategy for load balancing and sets a multi-token prediction training objective for stronger performance. We pre-train DeepSeek-V3 on 14.8 trillion diverse and high-quality tokens, followed by Supervised Fine-Tuning and Reinforcement Learning stages to fully harness its capabilities. Comprehensive evaluations reveal that DeepSeek-V3…

Citation impact

222

total citations

FWCI: —
Percentile: —
References: 0

Citations per year

Authors

200

Topics & keywords

Topics

Keywords

Computer science

No related works found for this paper.