1
基于值函数估计的参数探索策略梯度算法
Function approximation for policy gradients with parameter-based exploration
2023年第8期 : 2404-2410
doi:10.19734/j.issn.1001-3695.2022.11.0781