首页 > 生活分享 > 免费教学 > OpenAI 推出名为 GDPval 的全新 AI 评估基准,旨在衡量前沿模型在真实经济价值任务中的表现,以弥补学术测试与实际应用间的差距

OpenAI 推出名为 GDPval 的全新 AI 评估基准,旨在衡量前沿模型在真实经济价值任务中的表现,以弥补学术测试与实际应用间的差距

发布时间:2025-09-27 12:31:49

9 月 27 日消息,科技媒体 ZDNet 昨日(9 月 26 日)发布博文,报道称 OpenAI 推出名为 GDPval 的全新 AI 评估基准,旨在衡量前沿模型在真实经济价值任务中的表现,以弥补学术测试与实际应用间的差距。

尽管当前大量 AI 工具涌入市场并承诺提升生产力,但其在企业中的实际应用效果却参差不齐。为解决 AI 模型在学术基准测试与真实世界表现之间的脱节问题,OpenAI 于周四发布了一套名为 GDPval 的全新评估体系,其核心目标是“衡量 AI 在具有经济价值的真实世界任务中的表现”,从而为行业提供一个更贴近实践的评判标准。

GDPval 的设计深度模拟了真实工作场景。它覆盖了对美国 GDP 贡献最高的九大行业中的 44 个职业,共计 1320 项具体任务。这些任务由平均拥有 14 年相关领域经验的专业人士创建,确保了其真实性和复杂性。

与传统依赖文本提示的评测不同,GDPval 要求 AI 模型处理文件、生成幻灯片和格式化文档等多模态交付物,以此更真实地检验模型在实际工作环境中的综合能力。

在首轮测试中,OpenAI 邀请行业专家对多个前沿模型的输出进行盲评,其中包括自家的 GPT-5、GPT-4o,以及 Anthropic 的 Claude Opus 4.1、谷歌的 Gemini 2.5 Pro 等。

评测结果出人意料:Claude Opus 4.1 凭借在文档格式、幻灯片布局等“美学”方面的出色表现,成为综合性能最佳的模型;而备受关注的 GPT-5 则在特定领域知识的“准确性”方面拔得头筹。

该研究还揭示了 AI 模型性能的飞速进步与巨大的成本优势。数据显示,从 2024 年春季发布的 GPT-4o 到预计 2025 年夏季发布的 GPT-5,模型性能提升超过一倍。

更引人注目的是,研究发现前沿模型完成 GDPval 任务的速度比行业专家快约 100 倍,成本也仅为后者的百分之一。

不过,OpenAI 强调,这些数据仅反映了纯粹的模型推理成本,并未包含现实工作中必要的人工监督、迭代和集成步骤。

OpenAI 也坦诚 GDPval 目前存在局限性。作为一个初期版本,该基准主要进行一次性任务评估,尚无法衡量模型处理需要多轮修改的复杂项目或应对充满模糊性的现实工作的能力。

例如,它无法评估模型根据客户反馈修改方案或处理数据异常等动态、交互式的任务。OpenAI 表示,未来的迭代将覆盖更多行业和更难自动化的任务,并会发布部分数据集供研究人员使用。

免费教学更多>>

闯过反垄断关卡:谷歌320亿美元收购云安全公司Wiz获美司法部批准 辉瑞与诺和诺德,争的到底是什么? 台积电先进工艺被曝提价3~10%,苹果iPhone 18系列成本压力剧增 网 易云音乐回应“迟迟不适配鸿蒙” OpenAI大建数据中心需美政府纾困?奥特曼否认 Kimi迄今能力最强开源思考模型,月之暗面Kimi K2 Thinking发布 速度快4倍多,谷歌“最强芯片”来袭,A股概念股已大涨 微软称将打造超级智能AI 且不会对人类造成危害 雷军都喊贵 AI害你买不到便宜的手机了 受不可抗力影响 知名资源网站\"低端影视\"宣布关站 1-8月燃料电池重卡销量同比、环比双降,背后原因是什么? 警惕造车新势力的“表演式复活” 奔驰全新纯电CLA、零跑D19、极氪8X,第四季度新车抢先看 新势力车企们2025年的年度KPI,还差多少没有完成? 特斯拉FSD迎来巨大升级?马斯克放话“车已有意识” 华为“阴影”下,蔚小理紧急“换防”? 英伟达宣布与优步合作:推进自动驾驶汽车技术研发! 中国官方:美国是全球最大的网络攻击策源国!非常不负责任 美造车新势力Rivian CEO透露拆解小米SU7 给出了这样的评价 王兴兴回应“新款宇树人形机器人长得吓人”:前几代头部过于简单 20万级方盒子对决:深蓝G318和钛7,谁才是全能王者? 豪门对阵新贵,奥迪E5 Sportback 与特斯拉Model 3争夺高端电动车市场话语权 三款大型SUV都是国货之光 风云T11订单火 零跑D19参数抢眼 灵巧好开,隔音有惊喜!试驾长安启源全新Q05 隐藏门把手,“堵命式”创新 岚图追光L正式开启预订 12月上市交付 四十载伴NI行 日产中国携两款全新车型开启在华首秀 东京车展前瞻:马自达全新概念车与CX-5换代车型即将揭晓 2026款路虎揽胜极光L正式上市,起售价42.98万元 Campus挖来Meta前AI负责人:Altman押的教育科技放大招