转载自《机器之心》
来源:石虎
作者:蒋正耀
本文简要介绍了基于序列建模的强化学习技术。
过去两年,大规模生成模型给自然语言处理甚至计算机视觉带来了显着进步。最近,这种趋势也影响了强化学习,尤其是离线强化学习(offline RL),例如决策变换(DT)[1]、轨迹变换(TT)[2]、Gato [3]和扩散器[4]。是。这种方法将强化学习数据(包括状态、动作、奖励和回报)视为一组非结构化序列数据,并将这些序列数据建模为学习的中心任务。这些模型可以使用监督或自监督学习方法进行训练,避免传统强化学习中不稳定的梯度信号。即使使用复杂的策略改进和价值估计技术,它在离线强化学习中表现也非常好。
本文简要介绍了这些基于序列建模的强化学习技术。在下一篇文章中,我们介绍了一种新提出的轨迹自动编码规划器(TAP),它使用矢量量化变分自动编码器(VQ-VAE)进行序列建模。在潜在的行动空间内进行有效的规划。
转化学习和强化学习
Transformer 架构[5] 于2023 年提出,逐渐彻底改变了自然语言处理。随后的BERT和GPT-3逐渐将自监控+Transformer组合推向新的高度,新技术不断涌现。虽然它在自然语言处理领域具有小样本学习等特性,但它也开始扩展到计算机视觉等领域[6][7]。
然而,就强化学习而言,这种进展直到2023 年才显得特别明显。 2023年,强化学习中也引入了多头注意力机制[8]。这类研究基本上应用在类似于半符号的领域,解决强化学习中的泛化问题。从那时起,此类尝试一直乏善可陈。根据我个人的经验,Transformer在强化学习方面并不具有稳定的压倒性优势,而且训练起来比较困难。 20 年来第一个使用Relational GCN 进行强化学习的研究[9] 在幕后对Transformer 进行了实验,发现它本质上远不如传统结构(类似于CNN),对我来说很难保持稳定和稳定。学习。获取您可以使用的政策。为什么Transformer 与传统的在线强化学习(在线RL)不兼容仍然是一个悬而未决的问题。例如,Melo [10]解释说,这是因为传统的Transformer 参数初始化不适合强化学习。更多这里。
2023 年中期,随着Decision Transformer (DT) 和Trajectory Transformer (TT) 的发布,RL 中新一波Transformer 应用开始兴起。这两项研究的想法其实很简单。如果Transformer 和在线强化学习算法兼容性不太好,为什么不简单地将强化学习视为自监督学习任务呢?利用离线强化学习概念也很流行的事实,我们可以将这两项研究固定为它们的首要目标任务?对离线数据集进行建模并使用该序列模型进行控制和决策。
在强化学习中,所谓的序列由状态和动作组成。
,由奖励r 和价值v 组成的轨迹。现在,这个值通常被return-to-go所取代,这可以被认为是蒙特卡洛估计。离线数据集由这些轨迹组成。环境(dynamics)和行动策略(action policy)的轨迹和动态模型的生成
有关的。所谓的序列建模是对生成该序列的概率分布(分布)或更准确地说是条件概率的一部分进行建模。
决策变压器
DT方法是对从历史数据和值到动作(返回条件策略)的映射进行建模,它对动作的条件概率的数学期望进行建模。这个想法与Upside Down RL [11] 非常相似,但其背后的直接动机可能是模仿GPT2/3 根据提示完成下游任务的方法,成本会非常高。这种方法的一个问题是确定最佳目标值是多少。
没有比这更系统的方法了。然而DT的作者发现,即使将目标值设置为整个数据集中最高的回报,DT的最终性能也可以非常好。
决策转换器,图1
对于有强化学习背景的人来说,像DT 这样的方法能够实现卓越的性能是非常违反直觉的。虽然DQN 和策略梯度等技术只能将神经网络视为可用于插值泛化的拟合函数,但强化学习中的策略细化和评估仍然是策略构建的核心。 DT可以说是完全基于神经网络的。将潜在不切实际的目标值与适当的行动联系起来的整个过程完全是一个黑匣子。可以说,从强化学习的角度来看,DT 的成功有些牵强,但我认为这正是这类实证研究的吸引力所在。作者认为,神经网络(变压器)的泛化能力有潜力超出整个RL 社区之前的预期。
DT 是所有序列建模技术中最简单的,几乎所有核心强化学习问题都在Transformer 中解决。这种简单性是它目前最受欢迎的原因之一。然而,其黑盒性质意味着在算法设计层面丢失了很多可见性,使得传统强化学习中的一些成果很难融入到强化学习中。这些结果的有效性已在多个超大规模实验(例如AlphaGo、AlphaStar、VPT)中得到反复证实。
轨道变压器
TT 的方法更类似于传统的基于模型的强化学习(model-based RL)规划技术。在建模时,我们将整个序列的元素离散化,并使用像GPT-2这样的离散自回归方法对整个离线数据集进行建模。这允许您对给定序列的延续减去返回进行建模。 TT对后续序列的分布进行建模,因此它实际上是一个序列生成模型。 TT 可以通过在生成的序列中搜索给出更好值估计的序列来输出“最佳计划”。作为寻找最优序列的方法,TT 使用了自然语言中常用的方法:束搜索的一种变体。基本上,它是关于始终保留展开序列的最佳部分。
,并根据它们找到下一步的最优序列集。
从强化学习的角度来看,TT 比DT 更不传统。有趣的是(和DT一样)我们完全放弃了强化学习中原始马尔可夫决策过程的因果图结构。之前基于模型的方法如PETS、World Model、dramarv2等都遵循马尔可夫过程(或隐式马尔可夫)中策略函数、传递函数、奖励函数等的定义,即:状态分布是上一步的状态,动作、奖励、值都是由当前状态决定的。尽管强化学习社区总体上认为这可以提高样本效率,但这种图结构实际上是有限制的。自然语言领域从RNN到Transformers,以及计算机视觉领域从CNN到Transformers的转变,实际上反映了:随着数据的增长,让网络自行学习图结构可以帮助您获得性能更好的模型。
DreamerV2,图3
TT 本质上将所有序列预测任务交给Transformer,从而使Transformer 能够更灵活地从数据中学习更好的图形结构。如下图所示,TT 建模的行为策略根据不同的任务和数据集呈现出不同的图结构。图的左侧对应于传统的马尔可夫策略,图的右侧对应于动作移动平均策略。
轨道变压器,图4
Transformer强大的序列建模功能为长序列建模提供了更高的准确性。下图显示,超过100 步的TT 预测仍然保持很高的精度,但是遵循马尔可夫性质的单步预测模型非常快。
轨道变压器,图2
尽管TT在具体的建模和预测方面与传统方法有所不同,但它提供的预测能力是未来与强化学习集成的其他结果的良好起点。然而,TT 有一个重要的问题:预测速度。由于我们需要对序列上的分布进行建模,因此序列中的所有元素都根据其维度进行离散化。这意味着100 维状态必须占据序列中的100 个元素。由于位置的原因,正在建模的序列的实际长度可能会很长。对于Transformer 来说,序列长度N 的计算复杂度为:
因此,从TT 中采样未来预测变得非常昂贵。即使对于小于100 维的任务TT,也需要几秒甚至几十秒才能做出一步决策。将此类模型纳入实时机器人控制或在线学习是很困难的。
加托
Gato是Deepmind发布的“通才模型”,实际上是一个跨模态多任务生成模型。同一个Transformer 可用于执行各种任务,从自然语言问答、图像描述、视频游戏到机器人控制。 Gato 的连续控制建模方法与TT 基本相似。然而,Gato 并不执行严格意义上的强化学习;它只是对专家策略生成的序列数据进行建模,并在执行动作时对下一个动作进行采样。
蛋糕博客
其他序列生成模型:扩散模型
DALLE-2和Stable Diffusion可以说是现在图像生成领域非常流行的。 Diffuser 也将这种技术应用到了离线强化学习中。这个想法是首先对序列的条件分布进行建模,然后根据未来序列的当前状态对其进行采样。
扩散器比TT 更灵活,可以在设置起点和终点的同时填充模型中的中间路径,从而实现目标驱动的控制(而不是最大化奖励函数)。您还可以结合多个目标和实现目标的先决条件来帮助您的模型完成任务。
扩散器图1
与传统的强化学习模型相比,Diffuser 也具有很强的破坏性。生成的计划并不是在时间轴上逐渐展开,而是在整个序列的意义上逐渐从模糊到精确。对扩散模型本身的进一步研究也是计算机视觉领域的热门话题,模型本身的突破很可能在未来几年内出现。
然而,目前流行的模型本身有一个特殊的缺点,即生成速度比其他生成模型慢。许多相关领域的专家认为,这个问题在未来几年可能会得到缓解。然而,对于强化学习需要实时控制的场景,几秒的生成时间目前是不可接受的。 Diffuser提出了一种方法,通过在上一步的计划中添加少量噪声,然后重新生成下一步的计划来加速生成,但这会在一定程度上降低模型的性能。
参考
Decision Transformer: 序列建模强化学习https://arxiv.org/abs/2106.01345离线强化学习作为一个大型序列建模问题https://arxiv.org/abs/2106.02039A 通才代理https://arxiv.org/abs/2205.06175Di 用于规划灵活的行为综合https://arxiv 的融合。 org /abs/2205.09991 你需要的只是注意力https://arxiv.org/abs/1706.03762 一张图像相当于16×16 个单词: 用于大规模图像识别的Transformer https://arxiv.org/abs/2010.11929 蒙版自动编码器是可扩展的视觉学习器3335 9arxiv.org/abs/2111.06377 深度关系强化学习https://arxiv.org/abs/1806.01830Grid-to-Graph: 强化学习的灵活空间关系归纳偏差https://arxiv.org/abs/2102.04220 Transformers 是元强化学习器https://arxiv.org/abs/2206.066 14强化学习颠倒: 预测你不应该做的奖励——只需映射到行动https://arxiv.org/abs/1912.02875
本文和图片来自网络,不代表火豚游戏立场,如若侵权请联系我们删除:https://www.huotun.com/game/583596.html