资讯

传统的基准测试类似于让AI解决小型编程谜题或修复简单错误。而GSO则是让AI面对真实世界的大型代码库,完成专业开发者在实际工作中遇到的性能优化任务。这就像是从"在厨房做简单的三明治"升级到"在繁忙的五星级餐厅准备复杂的多道菜宴会"。