您的位置：首页 > 实时讯息 >

AI奥数大奖出炉，英伟达摘桂冠，14B破解34题暴击DeepSeek R1

0次浏览发布时间：2025-04-14 08:35:00

第二届人工智能数学奥林匹克竞赛（AIMO2）开奖了！

作为大赛顾问委员会的一员，陶哲轩激动地宣布了最新的结果——英伟达团队AI成功破解了34道题（共50题）。

这一次，50道测试题保持了与AIMO1相同「数值答案」形式基础上，进一步提升了「抗暴力破解」的难度。

这场由Kaggle主办的AI竞赛，参赛者必须使用开源LLM，在规定的有限算力条件下，用AI完成解题。

不过，目前最终成绩仍处于审核阶段，但现有数据已能确定大概率的胜者。

英伟达深度学习研究员分享，团队仅用了14B小模型，就拿下了比赛第一。

让人惊喜的是，微调后的14B竟然超越了405B的DeepSeek R1。

那么，他们是如何做到的呢？

英伟达团队摘桂冠，14B攻克34题

AIMO2每年都会评选5名获胜者，第一名便是英伟达团队——NemoSkills。

为了让大家更直观地对这个分数有一个认识：主办方使用了DeepSeek R1 405B在同一个测试数据上，进行了无限计算/时间的测试。

结果发现，R1-405B得分仅仅20分左右。

而英伟达微调出的14B模型，以更小参数规模，以及时间和硬件限制下拿下了惊人的34分。

这款模型便是Qwen-14B，在数百万合成数学测试集上进行了微调，能够支持CoT推理。

最大的亮点是高度优化的推理，仅使用了4个L4 GPU，在短短5小时内解决了50个问题中的34个。

目前，他们尚未提交解决方案，所以一些技术细节还无法窥探。

这个团队一共由7个人组成，他们分别是Christof Henkel、Darragh Hanley、Ivan Sorokin、Benedikt Schifferer、Igor Gitman、Shubham Toshniwal和Ivan Moshkov。

除了英伟达，还有哪些团队取得了精彩的表现？

清华拿下第二

第二名是来自清华和微软的三人团队，分别是清华大学研究助理教授Foxfi Ning、微软的高级研究员Zinan Lin以及清华学子yiyouyc。

在公开排行榜上，他们得分34/50（排名第一），在私有排行榜上得分31/50（排名第二）。

最为关键的是，他们是目前Top-5中唯一公开解决方法的参赛团队。

本次比赛要求同时优化效率和推理性能。

目前，排名前5中，只有排名第二的参赛团队公布了解决方法。

他们的最终解决方案由三个主要部分组成：

第一部分：推理导向训练—— 提升模型的推理能力阶段1 - SFT（监督微调）和阶段2 - DPO（数据增强优化）使用精选数据。

第二部分：效率优化—— 提升推理效率选择合适的推理引擎、权重量化、KV缓存量化。

第三部分：推理时策略—— 改善效率与推理性能的权衡设计有效的提示语、进行自一致性聚合、在样本/问题级别进行早停以及调整一些启发式超参数。

训练脚本基于Light-R1项目。

在本地验证方面，用了AIME 2025测试集（30个问题）以及参考集（10个问题），评估了平均样本准确率和通过自一致性聚合的准确率，以获得参赛团队试验解决方案的初步判断。

第三名，Nokron，AI得分30，4年前加入Kggle。

第四名，Søren Ravn Andersen，AI得分29，10年前加入Kaggle。

第五名，来自浙江杭州的匿名选手，AI得分29，6年前加入了Kaggle。

AIMO2比赛介绍

AIMO是什么来头？

这是第二届AIMO进步奖竞赛，第一届的AIMO进步奖于2024年7月由Project Numina团队赢得。

这次竞赛增加了奖金池，提供了全新的题目数据集，为参赛者提供更多算力支持，并更新了关于使用开源大语言模型（LLM）的规则。

数学推理能力是人工智能发展的一个关键里程碑，是解决许多复杂问题的基石，比如工程奇迹或复杂的金融模型。

然而，目前的人工智能在这方面的能力还比较有限。

人工智能数学奥林匹克（AIMO）是一个总金额高达1000万美元的基金，旨在激励开发能够与国际数学奥林匹克（IMO）顶尖人类选手表现相当的开源AI模型。

本届竞赛包含110道数学题目，涵盖代数、组合数学、几何和数论。

相比第一届，题目难度有所提升，大约达到国家奥林匹克竞赛的水平。

这些题目还被设计为「对AI来说特别难」，需要较强的数学推理能力，并且已经针对当前开源大语言模型的能力进行了测试。

为了避免训练数据与测试数据混淆的问题，竞赛采用了由国际解题团队创作的全新数学题目。

评估方式

参赛者的提交将根据预测结果与真实答案（ground-truth labels）的准确率进行评估。

简单来说，排名依据是预测答案与真实答案之间完全匹配的比例。

在这场比赛中，每个真实答案是一个0到999之间的整数。

奖项设置

本次竞赛总奖金达到了211.7152万美元

排名前五团队的奖金：

第一名：26.2144万美元

第二名：13.1072万美元

第三名：6.5536万美元

第四名：3.2768万美元

第五名：1.6384万美元

总体进步奖：

总体进步奖将颁发给在公开和私有测试集上均获得至少47/50分的最高排名团队。

在前五名奖金分配后，剩余的奖金将全部颁发给总体进步奖得主。

如果某团队获得总体进步奖，奖金将至少为158.9248万美元。

如果本届竞赛没有团队获得总体进步奖，剩余奖金将滚入下一届竞赛，奖金额度和分配规则保持不变。

代码要求

提交必须通过Notebook完成。提交按钮在提交后激活需满足以下条件：

CPU Notebook运行时间 ≤ 9小时

GPU Notebook运行时间 ≤ 5小时

禁用互联网访问

允许使用免费且公开的外部数据，包括预训练模型

提交文件必须通过API生成

参考资料：

https://x.com/kagglingdieter/status/1910591141138886923

https://mathstodon.xyz/@tao/114319952836204640

https://www.kaggle.com/competitions/ai-mathematical-olympiad-progress-prize-2/leaderboard

本文来自微信公众号“新智元”，作者：新智元，编辑：编辑部 NJY，36氪经授权发布。

本文分类：实时讯息
本文标签：团队英伟模型数学奥林匹克奖金进步奖得分
浏览次数：0 次浏览
发布日期：2025-04-14 08:35:00
本文链接：https://www.ynwz.net/news/j5ak1AlvBY.html

上一篇 > 城中村“大变身”，厦门是如何做到的？
下一篇 > 跳水世界杯温莎站结束 “梦之队”斩获8金

深夜，大跳水！

中国基金报记者泰勒兄弟姐妹们啊，今晚，美股又跳水了！一起看看海外市场发生了什么。美股跳水4月14日晚间，美股开盘，三大指数一度大涨，随后大幅跳水！中国资产逆势上涨，中概股指数一度暴涨近6%，随后涨幅收窄。消息面上，特朗普表示，一旦市场适应关税，就会变得非常强劲。摩根士丹利的迈克尔·威尔逊表示：“最

2025-04-15 07:04:00

奥特曼称DeepSeek未影响GPT增长，将推更好的开源模型

在日前举行的TED2025上，OpenAI CEO萨姆・奥尔特曼表示，“DeepSeek的出现并未影响GPT的增长，将推出更好的开源模型。”市场调查机构App Figures日前报告，2025年3月全球非游戏应用下载量方面，ChatGPT以4600万次力压Instagram和TikTok，成为全球下

2025-04-14 14:35:00

AI奥数大奖出炉，英伟达摘桂冠，14B破解34题暴击DeepSeek R1

第二届人工智能数学奥林匹克竞赛（AIMO2）开奖了！作为大赛顾问委员会的一员，陶哲轩激动地宣布了最新的结果——英伟达团队AI成功破解了34道题（共50题）。这一次，50道测试题保持了与AIMO1相同「数值答案」形式基础上，进一步提升了「抗暴力破解」的难度。这场由Kaggle主办的AI竞赛，参赛者必须

2025-04-14 08:35:00

别被你的AI忽悠了

来源：经济日报当前，我国AI大模型的应用呈现迅猛增长态势。QuestMobile发布的最新数据显示，DeepSeek上线次月（2025年2月），活跃用户规模就突破了1.8亿。但在AI应用大众化的同时，也有不少网友惊呼：与AI的蜜月期还没有结束，就发现它在骗我！有人用AI查资料，发现AI会编造假论文，

2025-04-13 06:52:00

《师父》开发商新作：《开球！Rematch》游戏6月19日发行

IT之家 4 月 11 日消息，科技媒体 NeoWin 昨日（4 月 10 日）发布博文，报道称法国游戏开发商 SloClap 宣布将于 2025 年 6 月 19 日发行《开球！Rematch》游戏。SloClap 此前推出了《赦免者》（Absolver）和《师父》（Sifu）武术风格游戏，赢得了

2025-04-11 12:36:00