RankQ：通过自监督动作排序实现离线到在线强化学习

强化学习领域有一个老大难问题：离线到在线的迁移。

强化学习的训练方式分两种。离线学习是在已有的数据集上训练，不出现在线交互——优点是安全、可控，缺点是学到的策略不一定能在真实环境中用好。在线学习是在真实环境中边做边学——效果好，但代价是过程中可能会犯错、会出问题。对于自动驾驶、医疗诊断这种场景来说，在线的"试错"成本是不可接受的。

RankQ的创新点在于，它通过"自监督动作排序"巧妙地解决了从离线到在线的迁移问题。传统的方法试图让模型在离线阶段就学会精确预测每个动作的"绝对值"——这个动作值多少分，那个动作值多少分。但在数据不完整、分布有偏差的情况下，这种"绝对值预测"非常不可靠，到了在线环境里往往直接崩溃。

RankQ换了一个思路：不需要预测绝对值，只需要学会相对排序——动作A比动作B好，动作B比动作C好，就可以了。这就好比一个品酒师不需要精确说出每瓶酒打了多少分，只需要能正确排序哪瓶比哪瓶好喝。

为什么相对排序比绝对值预测更容易？因为排序对数据的质量要求更低。你不需要知道"好"到底是多少分，只需要知道"A比B好"这个相对关系。在离线数据集中，这种相对关系是更容易被一致地提取和学习的。

实验结果显示，RankQ在多个标准测试环境中的表现都超过了现有的方法，尤其是在从离线切换到在线环境的"零时刻"——这是最考验迁移能力的时刻——RankQ几乎没有出现性能下降。

这个研究的实际意义很大。在机器人技能学习、工业控制、自动驾驶等领域，最安全的方式是先在海量的离线数据上预训练，再在真实环境中进行有限的在线微调。RankQ为这种"安全训练→高效迁移"的范式提供了一个更可靠的技术方案。

🏷️ 声明：本文为 AI 翻译转载，原文版权归原作者所有。