OLIVIA:通过推理时动作适应实现LLM ReAct智能体在线决策学习
大语言模型做"智能体"(Agent)是今年的热门方向——给LLM一些工具调用能力,让它能在真实环境中自主完成任务。但这个方向有个致命的弱点:LLM Agent在面对没见过的新任务时,表现非常不稳定。问题出在哪?传统的LLM Agent在使用前已经训练好了,它的知识截止于训练数据,在推理时不会更新。这就意味着,如果任务场景和训练数据不太一样,Agent就会"卡住"——用错误的方式反复尝试同一个...
阅读全文 →
科技|AI|前言探索|深度分析