Axin科技博客

科技|AI|前言探索|深度分析

Auto Research时代,47个没有标准答案的任务成了Agent能力必测榜

# Auto Research 时代,47 个没有标准答案的任务成了 Agent 能力必测榜今年开年,大模型领域的风向悄然变了。大家不再热衷于比拼“能不能考上公务员”或者“小学数学及格率”,而是把目光转向了一个更硬核的赛道——**让 AI 自己搞科研**。从谷歌的“AI 科学家”到国内团队推的“科研助手”,越来越多的 Agent 开始走进实验室,尝试阅读论文、设计实验、分析数据。可问题来了:...
阅读全文 →
13571