红杉中国正式开源AI基准测试xbench评测集

观点网

2025-06-18 09:36

  • 红杉中国6月18日开源AI基准测试工具xbench的两个评测集xbench-ScienceQA和xbench-DeepSearch,采用动态更新机制和黑白盒评估方法,旨在解决大模型开发中的过拟合问题。该工具将为AI开发者提供长期有效的性能基准支持。

    观点网讯:6月18日,红杉中国在中国正式开源其AI基准测试工具xbench的两个评测集xbench-ScienceQA和xbench-DeepSearch,旨在服务大模型和AI Agent开发者,避免静态评测集常见的过拟合问题,确保工具长期有效。

    该开源举措将基于AI发展动态更新评测集,采用“黑白盒”机制提升模型评估准确性。红杉中国表示,这有助于推动AI技术创新,并为开发者提供可靠基准支持。

    免责声明:本文内容与数据由观点根据公开信息整理,不构成投资建议,使用前请核实。

    审校:杨晓敏



    相关话题讨论



    你可能感兴趣的话题

    AI

    科技