河南助企源升网络科技有限公司

SEARCH

与我们合作

我们专注提供互联网一站式服务,助力企业品牌宣传多平台多途径导流量。
主营业务:网站建设、移动端微信小程序开发、营销推广、基础网络、品牌形象策划等

您也可通过下列途径与我们取得联系:

地 址: 河南省郑州市国家大学科技园

邮 箱: admin@admin.com

快速提交您的需求 ↓

同样是获得IMO“奥数”金牌,谷歌获赞,OpenAI却引发争议

更新时间:2025-07-23
查看:10

1.png

当地时间7月21日,谷歌DeepMind宣布其Gemini Deep Think模型在第66届国际数学奥林匹克竞赛(IMO)中取得金牌,首次以官方认证方式跨越这一全球顶尖高中生数学竞赛的金牌得分线。这一成就标志着AI在复杂数学推理能力上的重大突破。

在谷歌DeepMind官宣之前,OpenAI在上周六(7月19日)单方面宣布,其实验性推理模型解答了本届IMO竞赛中六道试题中的五道,得分为35分(满分42分),达到金牌水平。虽OpenAI宣布的成绩与谷歌DeepMind随后宣布的成绩相同,却因未正式参赛,且违反IMO竞赛委员会的信息披露规则,引发业界热议。

2.png谷歌DeepMind官宣获得金牌

IMO是全球最负盛名的数学赛事之一,吸引了来自100多个国家的顶尖高中生。今年,第66届IMO在澳大利亚昆士兰阳光海岸举行,630名参赛者中仅有67人(约11%)获得金牌。谷歌DeepMind的Gemini Deep Think模型正式参赛,成功解答五道题目,获得35分,达到金牌标准,其成绩由IMO委员会官方认证。

3.pngOpenAI研究员亚历山大·魏发帖宣布获得金牌

相比之下,OpenAI未正式参与IMO竞赛,而是通过三位前IMO金牌得主独立评分,宣称其实验性推理模型同样解答了五道题目,达到金牌水平。这一非官方评估引发争议,因其不仅未经过IMO委员会的正式验证,还违反了该委员会的相关规定。

如何获奖IMO

与以往依赖形式化语言(如Lean)或专门数学系统的AI不同,谷歌DeepMind的Gemini Deep Think模型采用通用推理方法,直接处理自然语言问题,并在官方规定的每场4.5小时时限内完成解答

该模型于今年5月谷歌开发者大会上首次亮相,其增强推理模式“Deep Think”通过并行运行多条推理路径,整合结果后生成最终答案。谷歌DeepMind高级科学家、IMO团队负责人卢唐(Thang Luong)表示:“我们实现了端到端的自然语言处理,无需人工干预,彻底革新了去年的方法。”

OpenAI的模型同样以自然语言处理为基础,通过大规模扩展“测试时计算”实现突破,延长模型思考时间并利用并行计算运行多条推理路径。OpenAI研究员诺姆·布朗(Noam Brown)称此过程“成本极高”,但未透露具体费用。他强调,这一方法展示了AI在数学之外的广泛推理潜力。然而,OpenAI未正式参赛,其成绩未获IMO官方认可,削弱了其宣称的突破性意义。

谷歌DeepMind自去年起与IMO官方密切合作,其结果由竞赛委员会正式认证。IMO委员会要求所有AI实验室不要抢学生的风头,在官方结果由独立专家验证并向学生授予应得的荣誉后(即7月21日周一)再发布成绩。IMO主席格雷戈尔·多利纳(Gregor Dolinar)也向媒体确认,合作公司在周一获准公布结果。也就是这一限制,让OpenAI“钻了空子”。

4.png谷歌DeepMind首席执行官哈萨比斯发布的贴子

5.png奥特曼在7月19日发布的贴子中宣称OpenAI模型获奖

相比之下,由于OpenAI未正式参赛,而是由三位前IMO金牌得主独立评分后于周六闭幕式后宣布结果,随即引发争议。在谷歌的成绩获准公布前,OpenAI首席执行官山姆·奥特曼(Sam Altman)在社交媒体X上大张旗鼓地宣布,OpenAI的一款未公开实验性大语言模型在2025年IMO中达到了金牌水平,成功跻身全球顶尖数学竞赛选手行列。

6.png

面对争议,OpenAI的布朗在X上表示,OpenAI几个月前曾受邀参加正式数学竞赛,但因专注于自然语言系统而拒绝,并不知晓IMO的安排

全球数学竞赛的最高平台

IMO是全球数学竞赛的最高平台,旨在鼓励年轻人对数学的兴趣,并通过一系列的复杂题目考察他们的思维与推理能力。每年,来自世界各地的顶尖学生将在代数、几何、数论等多个领域接受考验,考试时间为四个半小时,难度之大,挑战性之强,令其成为全球最具声望的数学竞赛之一。

IMO的题目不仅需要学生具备扎实的数学基础,更考验其创造性思维和批判性分析能力。每年,数百名来自世界各地的学生参加这项赛事,只有排名前8%的参赛学生能够获得金牌。2024年,谷歌DeepMind的AlphaProof和AlphaGeometry 2模型在IMO中答对了四道题,得分为28分,达到银牌标准。今年,Gemini Deep Think模型的突破表明通用推理模型在数学任务上的潜力,超越了专门设计的数学AI。

对于未来,AI的推理能力有望扩展到更多学科,助力科学家在物理学等领域解决复杂的研究难题。谷歌计划将Gemini Deep Think提供给数学家测试,并最终向其AI Ultra订阅用户开放,定价为每月250美元。OpenAI则表示,短期内不会发布这一级别的数学能力模型。(文/腾讯科技特约编译 无忌 编辑/陆陆)