OpenAI称GPT-5在众多职业领域表现比肩人类

  • 2025-09-27 15:10:24
  • 626

OpenAI于周四发布一项新基准测试,旨在评估其人工智能模型在各类行业及职业中与人类专业人士的表现差异。这项名为GDPval的测试,是该公司为了解自身系统在“高经济价值工作”上与人类表现的接近程度所做的初步尝试——而实现这一目标,正是OpenAI成立使命中“研发通用人工智能(AGI)”的关键组成部分。

OpenAI表示,研究发现其GPT-5模型及Anthropic公司的ClaudeOpus4.1模型“在工作质量上已接近行业专家水平”。

但这并不意味着OpenAI的模型即将立即取代人类岗位。尽管部分首席执行官预测人工智能将在数年内取代人类工作,但OpenAI承认,目前GDPval测试仅覆盖了人类实际工作中极为有限的一部分任务。不过,这仍是该公司衡量人工智能向“超越人类”这一里程碑迈进的最新方式之一。

GDPval测试基于对美国国内生产总值(GDP)贡献最大的9个行业,涵盖医疗健康、金融、制造业、政府服务等领域。该基准测试评估人工智能模型在这些行业的44种职业中的表现,职业范围从软件工程师、护士到记者不等。

在GDPval测试的首个版本(GDPval-v0)中,OpenAI邀请资深专业人士对人工智能生成的报告与其他人类专业人士生成的报告进行对比,并选出表现更优的一份。例如,其中一项测试要求投资银行家撰写“最后一公里配送行业”的竞争对手分析报告,并将其与人工智能生成的报告对比。随后,OpenAI会计算该人工智能模型在所有44种职业的测试中,其报告“优于或与人类报告持平”的胜率平均值。

对于GPT-5的增强版本——GPT-5-high(配备额外计算能力),OpenAI表示该模型在40.6%的测试场景中,表现被评定为“优于或与行业专家持平”。

OpenAI还对Anthropic公司的ClaudeOpus4.1模型进行了测试,结果显示该模型在49%的任务中表现“优于或与行业专家持平”。不过OpenAI认为,Claude能取得如此高的评分,更多是因为其擅长生成视觉效果出色的图表,而非单纯依靠任务表现本身。

值得注意的是,大多数职场人士的工作远不止“向老板提交研究报告”——而这正是GDPval-v0测试的全部内容。OpenAI也承认这一局限性,并表示计划在未来开发更全面的测试,纳入更多行业及交互式工作流程的评估。

尽管如此,OpenAI仍认为在GDPval测试中取得的进展值得关注。

在接受TechCrunch(科技媒体)采访时,OpenAI首席经济学家亚伦・查特吉(AaronChatterji)博士表示,GDPval的测试结果表明,从事这些职业的人如今可以借助人工智能模型,将时间投入到更有意义的任务中。

“(因为)模型在这些任务上的表现越来越出色,”查特吉说,“随着模型能力的不断提升,从事这些工作的人可以越来越多地借助模型分担部分工作,进而去完成潜在价值更高的任务。”

OpenAI评估部门负责人特贾尔・帕特瓦丹(TejalPatwardhan)向TechCrunch表示,GDPval测试中展现的进步速度让她备受鼓舞。约15个月前发布的OpenAIGPT-4o模型,在该测试中“优于或与人类持平”的胜率仅为13.7%;而如今GPT-5的胜率几乎是其3倍,帕特瓦丹预计这一上升趋势还将持续。

硅谷拥有多种用于衡量人工智能模型进展、判断某一模型是否达到“最先进水平”的基准测试,其中最受欢迎的包括AIME2025(竞争性数学题测试)和GPQADiamond(博士级科学问题测试)。然而,部分人工智能模型在这些基准测试中已接近“性能饱和”,许多人工智能研究者表示,亟需更完善的测试来评估模型在实际任务中的能力。

随着OpenAI不断证明其人工智能模型对多个行业具有实用价值,GDPval这类基准测试在相关讨论中的重要性可能会日益提升。但要明确宣称其人工智能模型能超越人类,OpenAI或许还需要推出更全面的测试版本。