今天是:

首页

芒果体育

当前位置: 首页 >> 芒果体育 >> 正文

公司联培硕士研究生研究成果被CCF A类会议ICML 2024录用

发布日期:2024-05-20    点击:

近日,第41届国际机器学习大会ICML(International Conference on Machine Learning)公布2024年论文最终录用结果。芒果体育官方网站联培研究生雷丰豪(导师文世挺教授)为第一作者的论文“Langevin Policy for Safe Reinforcement Learning”被大会接收。作为机器学习领域的顶级国际会议之一,国际机器学习大会ICML在计算机科学领域享有崇高的声望,被公认为是人工智能、机器学习领域难度最高的国际会议之一。因其论文录用标准及其严苛,ICML受到中国计算机学会CCF高度推荐并列为A类会议。本届大会在奥地利维也纳召开,在本届大会共收到投稿量9473篇,录用2609篇,论文采用双盲评审机制,录用率仅27.5%。论文第一作者是公司22级计算机技术专业浙大联培硕士研究生雷丰豪,通信作者为芒果体育官方网站文世挺教授。

强化学习(RL)在许多具有挑战性的任务中取得了显著的成就,广泛用在机器人控制、自动驾驶和手术机器人等领域,是当前人工智能领域研究的热点之一。

论文提出了一种安全强化学习(Safe RL)策略,名为朗之万策略(Langevin policy)。朗之万策略是一种基于采样的强化学习方法,它直接从动作空间中生成动作,而不需要对策略参数进行优化。为了使朗之万策略在RL任务中更加实用有效,论文提出了Langevin Actor-Critic(LAC)。LAC通过积累由朗之万策略所诱导得到的转换(transitions),并使用一个生成器重现这些转换,从而在保持探索能力的同时提高了利用率。提出这种新的基于采样的策略,用于安全强化学习领域。提出的LAC方法在多个高维仿真任务上超越了当前的基准方法,在满足约束限制的同时实现了更高的激励。