首页

芒果体育

当前位置: 首页 >> 芒果体育 >> 正文

公司联培硕士研究生研究成果被CCF A类会议ICML 2024录用

发布日期：2024-05-20 点击：

近日，第41届国际机器学习大会ICML（International Conference on Machine Learning）公布2024年论文最终录用结果。芒果体育官方网站联培研究生雷丰豪（导师文世挺教授）为第一作者的论文“Langevin Policy for Safe Reinforcement Learning”被大会接收。作为机器学习领域的顶级国际会议之一，国际机器学习大会ICML在计算机科学领域享有崇高的声望，被公认为是人工智能、机器学习领域难度最高的国际会议之一。因其论文录用标准及其严苛，ICML受到中国计算机学会CCF高度推荐并列为A类会议。本届大会在奥地利维也纳召开，在本届大会共收到投稿量9473篇，录用2609篇，论文采用双盲评审机制，录用率仅27.5%。论文第一作者是公司22级计算机技术专业浙大联培硕士研究生雷丰豪，通信作者为芒果体育官方网站文世挺教授。

强化学习（RL）在许多具有挑战性的任务中取得了显著的成就，广泛用在机器人控制、自动驾驶和手术机器人等领域，是当前人工智能领域研究的热点之一。

论文提出了一种安全强化学习（Safe RL）策略，名为朗之万策略（Langevin policy）。朗之万策略是一种基于采样的强化学习方法，它直接从动作空间中生成动作，而不需要对策略参数进行优化。为了使朗之万策略在RL任务中更加实用有效，论文提出了Langevin Actor-Critic（LAC）。LAC通过积累由朗之万策略所诱导得到的转换（transitions），并使用一个生成器重现这些转换，从而在保持探索能力的同时提高了利用率。提出这种新的基于采样的策略，用于安全强化学习领域。提出的LAC方法在多个高维仿真任务上超越了当前的基准方法，在满足约束限制的同时实现了更高的激励。