OpenAI推出AI Agent评测基准PaperBench

观点网 •

2025-04-03 09:01

4月3日，美国开放人工智能研究中心（OpenAI）推出AI Agent评测基准PaperBench，旨在评估AI智能体复现前沿AI研究的能力。该基准要求智能体从零开始复现20篇ICML2024 Spotlight和Oral论文，涵盖理解论文贡献、开发代码库及成功执行实验等环节。

观点网讯：4月3日，美国开放人工智能研究中心（OpenAI）宣布推出AI Agent评测基准PaperBench。该基准旨在评估AI智能体复现前沿AI研究的能力，要求智能体从零开始复现20篇ICML2024 Spotlight和Oral论文，涵盖理解论文贡献、开发代码库及成功执行实验等环节。

在测试中，表现最佳的智能体Claude3.5Sonnet（新版）结合开源框架，平均复现得分为21.0%。即便招募顶尖机器学习博士尝试部分测试集，其表现也未超越人类基线。

免责声明：本文内容与数据由观点根据公开信息整理，不构成投资建议，使用前请核实。

审校：杨晓敏

致信编辑打印

相关话题讨论

我要提问...

全时数据

专栏在线投稿+

杨光华：武汉，何时迎来4万+地王？杨光华

王韶：夜游拙政园，夜经济下别样...王韶

夏磊：一线城市房地产市场怎么走夏磊

冯毅成解读全国两会《政府工作报...冯毅成