Axin科技博客

AI前沿 2026-05-14

Auto Research时代，47个没有标准答案的任务成了Agent能力必测榜

# Auto Research 时代，47 个没有标准答案的任务成了 Agent 能力必测榜今年开年，大模型领域的风向悄然变了。大家不再热衷于比拼“能不能考上公务员”或者“小学数学及格率”，而是把目光转向了一个更硬核的赛道——**让 AI 自己搞科研**。从谷歌的“AI 科学家”到国内团队推的“科研助手”，越来越多的 Agent 开始走进实验室，尝试阅读论文、设计实验、分析数据。可问题来了：...

阅读全文 →