Distributional Soft Actor-Critic With Three Refinements

Duan, Jingliang; Wang, Wenxuan; Xiao, Liming; Gao, Jiaxin; Li, Shengbo Eben; Liu, Chang; Zhang, Ya-Qin; Cheng, Bo; Li, Keqiang

doi:10.1109/tpami.2025.3537087

articleIEEE Transactions on Pattern Analysis and Machine IntelligenceJan 30, 2025Closed access

Distributional Soft Actor-Critic With Three Refinements

JDJingliang Duan WWWenxuan Wang LXLiming Xiao JGJiaxin Gao SEShengbo Eben Li

University of Science and Technology Beijing · Tsinghua University · +1 more institution

PubMed

Indexed incrossrefpubmed

Abstract

Reinforcement learning (RL) has shown remarkable success in solving complex decision-making and control tasks. However, many model-free RL algorithms experience performance degradation due to inaccurate value estimation, particularly the overestimation of Q-values, which can lead to suboptimal policies. To address this issue, we previously proposed the Distributional Soft Actor-Critic (DSAC or DSACv1), an off-policy RL algorithm that enhances value estimation accuracy by learning a continuous Gaussian value distribution. Despite its effectiveness, DSACv1 faces challenges such as training instability and sensitivity to reward scaling, caused by high variance in critic gradients due to return randomness. In this…

Citation impact

53

total citations

FWCI: 60.70
Percentile: 100%
References: 38

Citations per year

Authors

9

Topics & keywords

Topics

Computability, Logic, AI Algorithms60%

Keywords

Computer science
Artificial intelligence
Computer vision

No related works found for this paper.

Funding

FR
Fundamental Research Funds for the Central Universities
Award: FRF-OT-23-02