Axin科技博客

AI 前沿 2026-05-14

OLIVIA：通过推理时动作适应实现LLM ReAct智能体在线决策学习

大语言模型做"智能体"（Agent）是今年的热门方向——给LLM一些工具调用能力，让它能在真实环境中自主完成任务。但这个方向有个致命的弱点：LLM Agent在面对没见过的新任务时，表现非常不稳定。问题出在哪？传统的LLM Agent在使用前已经训练好了，它的知识截止于训练数据，在推理时不会更新。这就意味着，如果任务场景和训练数据不太一样，Agent就会"卡住"——用错误的方式反复尝试同一个...

阅读全文 →