Axin科技博客

AI 前沿 2026-05-14

RankQ：通过自监督动作排序实现离线到在线强化学习

强化学习领域有一个老大难问题：离线到在线的迁移。强化学习的训练方式分两种。离线学习是在已有的数据集上训练，不出现在线交互——优点是安全、可控，缺点是学到的策略不一定能在真实环境中用好。在线学习是在真实环境中边做边学——效果好，但代价是过程中可能会犯错、会出问题。对于自动驾驶、医疗诊断这种场景来说，在线的"试错"成本是不可接受的。RankQ的创新点在于，它通过"自监督动作排序"巧妙地解决了从离...

阅读全文 →