2025年高考数学新一卷上热搜:6个AI大模型宣布挑战 谁更强?

内容摘要近日,随着高考的落幕,一场别样的“高考”也在各大AI大模型之间展开。此次测试邀请了多家知名科技公司的大模型,参与2025年数学新课标Ⅰ卷中的14道客观题测试,以此检验它们在逻辑推理和数学能力上的表现。测试题目包括8道单选题、3道多选题和3道

近日,随着高考的落幕,一场别样的“高考”也在各大AI大模型之间展开。此次测试邀请了多家知名科技公司的大模型,参与2025年数学新课标Ⅰ卷中的14道客观题测试,以此检验它们在逻辑推理和数学能力上的表现。测试题目包括8道单选题、3道多选题和3道填空题,满分73分,测试过程严格遵循高考判分原则。

测试结果显示,字节跳动的豆包和腾讯的元宝(T1)以68分的总成绩并列第一,仅在第6道单选题上失分。深度求索的DeepSeek和阿里的通义紧随其后,分别获得63分和62分。而百度的文心X1Turbo因在多选题和填空题上频繁失误,仅获得51分。引人注目的是,OpenAI的o3在此次测试中表现不佳,仅获得34分,正确率仅为47%,远低于其他模型。

微信截图_20250609135217.png

在单选题部分,豆包、通义、元宝和文心X1Turbo表现相当,均获得35分。DeepSeek因图片识别问题在两道单选题上失分,而o3则在多道单选题上出现错误,甚至在“送分题”上翻车。多选题部分,豆包、DeepSeek和元宝三道题全部答对,展现出稳定的发挥。通义虽然速度快,但因步骤分析简略导致在一道题上失误。文心X1Turbo在多选题上表现不佳,两道题答错,一道未响应。o3则因不适应多选题规则,一道题都没全对。

填空题部分,豆包、DeepSeek、通义和元宝斩获满分,而文心X1Turbo因最后一步画蛇添足而失分。尽管如此,与去年相比,今年大模型的数学推理能力有了显著提升。去年,大模型在高考数学题上的表现普遍不佳,甚至出现基础计算错误。而今年,除o3外,其他五款模型均突破及格线,豆包和元宝更是保持了93%的正确率。

此外,大模型在反思能力和推理步骤上也展现出进步。今年,大模型在遇到问题时不再固执己见,而是会推倒重来,进行验证。同时,除了通义外,其他大模型都能系统性地展示完整的推理链路,帮助用户深入理解问题本质。然而,测试也暴露出大模型的一些问题,如计算细节错误、公式图形处理能力不足、对题目条件敏感度不够等。

针对此次测试,专家表示,大模型在数学推理能力上的提升是显而易见的,但仍需在细节处理、图形理解和条件敏感度等方面加强。随着技术的不断进化,相信大模型在未来能够弥补这些“偏科”的毛病,为更多领域提供强大的支持。网友们也对此次测试表示关注,纷纷留言讨论各大模型的表现,并对未来大模型的发展充满期待。

如果您对AI大模型感兴趣,或者想了解更多关于AI产品和网站的信息,可以访问 [AIbase](https://top.aibase.com/),这是一个智能匹配最适合您的AI产品和网站的平台,为您提供丰富的AI资源和工具。

 
举报 收藏 打赏 评论 0
今日推荐
浙ICP备19001410号-1

免责声明

本网站(以下简称“本站”)提供的内容来源于互联网收集或转载,仅供用户参考,不代表本站立场。本站不对内容的准确性、真实性或合法性承担责任。我们致力于保护知识产权,尊重所有合法权益,但由于互联网内容的开放性,本站无法核实所有资料,请用户自行判断其可靠性。

如您认为本站内容侵犯您的合法权益,请通过电子邮件与我们联系:675867094@qq.com。请提供相关证明材料,以便核实处理。收到投诉后,我们将尽快审查并在必要时采取适当措施(包括但不限于删除侵权内容)。本站内容均为互联网整理汇编,观点仅供参考,本站不承担任何责任。请谨慎决策,如发现涉嫌侵权或违法内容,请及时联系我们,核实后本站将立即处理。感谢您的理解与配合。

合作联系方式

如有合作或其他相关事宜,欢迎通过以下方式与我们联系: