OpenAI推出AI Agent评测基准PaperBench

观点网

2025-04-03 09:01

  • 4月3日,美国开放人工智能研究中心(OpenAI)推出AI Agent评测基准PaperBench,旨在评估AI智能体复现前沿AI研究的能力。该基准要求智能体从零开始复现20篇ICML2024 Spotlight和Oral论文,涵盖理解论文贡献、开发代码库及成功执行实验等环节。

    观点网讯:4月3日,美国开放人工智能研究中心(OpenAI)宣布推出AI Agent评测基准PaperBench。该基准旨在评估AI智能体复现前沿AI研究的能力,要求智能体从零开始复现20篇ICML2024 Spotlight和Oral论文,涵盖理解论文贡献、开发代码库及成功执行实验等环节。

    在测试中,表现最佳的智能体Claude3.5Sonnet(新版)结合开源框架,平均复现得分为21.0%。即便招募顶尖机器学习博士尝试部分测试集,其表现也未超越人类基线。

    免责声明:本文内容与数据由观点根据公开信息整理,不构成投资建议,使用前请核实。

    审校:杨晓敏



    相关话题讨论



    你可能感兴趣的话题

    AI

    科技