Axin科技博客

科技|AI|前言探索|深度分析

RankQ:通过自监督动作排序实现离线到在线强化学习

强化学习领域有一个老大难问题:离线到在线的迁移。强化学习的训练方式分两种。离线学习是在已有的数据集上训练,不出现在线交互——优点是安全、可控,缺点是学到的策略不一定能在真实环境中用好。在线学习是在真实环境中边做边学——效果好,但代价是过程中可能会犯错、会出问题。对于自动驾驶、医疗诊断这种场景来说,在线的"试错"成本是不可接受的。RankQ的创新点在于,它通过"自监督动作排序"巧妙地解决了从离...
阅读全文 →
15476