AI代码能力的市场化检验:OpenAI用真金白银考验大模型
“在软件工程领域,AI的真实价值究竟几何?OpenAI用100万美元的真实项目给出了答案。”
在评估AI编程能力时,我们一直面临着一个问题:那些学术基准真的能反映现实世界中的软件工程工作吗?
今天OpenAI发布了一个新基准测试SWE-Lancer,用一种前所未有的方式评估AI的编程能力 - 直接用真实的自由职业者软件项目来考验AI。整个测试数据集包含了近1500个来自Upwork(这是一家线上接活的平台)的软件工程项目,总价值100万美元!