
这是AI挑战!继续进入大学数学问题的最后阶段。数学以大学入学考试结束后,我们在一夜之间使用了六种大型模型产品。根据普通用户的屏幕截图方法,我们提出了14个最新的大学入学评论问题。但是,一些网民要求审查过程不够严格,因此这次我们添加了答案并再次尝试了答案。参加这项挑战的比赛是:Dubao-1.5-thought-Vision-Pro,DeepSeek R1,Qwen3-235b,Hunyuan-T1-Latest,Wenxin X1 Turbo,O3和Gemini 2.5 Pro期望的。上次我们使用Web端测试,此时除了O3,所有其他称为API的模型。在测试问题方面,我们仍然使用ANG 2025新数学纸张标准I,其中包含14个客观问题,总共73分;和5个回答问题,共77分。由于问题6涉及照片,我们将单独拍摄,然后检查多个通过上传问题的屏幕截图,ODAL模型。文本中的所有其他问题都将转换为乳胶格式,并分别喂入大型模型。这是相同的规则。您不使用系统及时指导,禁用网络搜索和直接直接结果。 。每个具有多个选项的问题是6分,完整的比赛是6分,并且根据正确答案的数量对错过的选项进行评分。如果答案是ABCD,则如果未经选择的选择是1.5分,则如果未提供错误的选择,则不会提供错误的选择,如果未提供错误的选择。如果填写的问题是5分,则正确的填充分数,如果未提供错误的答案,则不会给出任何点。至于回答问题,由于仍然没有具体的评分细节,因此我们询问来自数学的朋友来判断。最主要的是查看大型模型的最终答案,以及解决方案步骤中是否存在严重错误。结果7个大型测试模型如下图所示。根据客观问题的自由裁量权,每个大型模型无法扩大差距,最大标记差仅为3分。问题6中的图像问题甚至使多模式大“ na -impeach”多模式大型模型。在最终分析中,O3的目标问题在下面评分,但是一些网络n表示,这可能是由于后端自动切换到其他模型的几个因素所致。目前,我们选择了没有“减少智慧”的O3,最后对多种选择和填补问题进行了评分。当然,与“减少智慧”版本相比,65点标记实际上是一个很大的进步。回答问题是大型模型中失去点的“严重影响”。除了获得所有分数的Gemini 2.5 Pro外,其他模型丢失了或多或少的分数。其中,DeepSeek R1和Dubao是最多的时间,只有一分。 O3 poiNTS丢失了,最终获得75分。相比之下,N-T1-LATEST和WENXIN X1 TURBO的表现分别为68和66。就总得分而言,Gemini2.5 Pro得分145分,排名第一,其次是Doubao和Deepseek R1,获得144分,并列第二。 O3和Qwen3只是一个不同的观点,分别排名第三和第四。由于回答问题的“被拖累”,Hunyuan-T1-Latest和Wenxin X1 Turbo得分的总数排在最后两个。 。问题15和17,一个测试可能性问题,另一个涉及三维几何知识。所有7个大型型号都获得了完整的印记。问题16是一个全面的问题,其全得到15分。只要您证明它完成了,计算过程就完成了,并且结果是正确的,您就可以获得所有分数。大型模型的总体表现很好,只有qwen3的答案是正确的,但最终答案随着多余的方式增加该假设在某一时刻减少。问题18:椭圆方程和几何形状已经被许多大型模型所困扰。只有Doubao,DeepSeek R1和Gemini2.5 Pro才能得到17分的完整得分,而其他型号则具有自己的还原积分。 qwen3先前的答案很好,并且过程已经完成,但是最后一个小问题| PQ |不需要9等于9等于9的最大量的步骤,导致结果偏差,并将扣除点。 O3表示答案(3)并不能简化答案,并且丢失了点。 Wen Xin X1正确地计算了问题2(2)的T点轨迹,但并未证明极端值。它直接计算最远的点并导致结果错误,从而减少了6分。 Hunyuan-T1-Latest在前两个问题中的答案是正确的。完成问题3中的P点轨迹后,它们都是错误的,并且连续失去5分。对于最后的大结局QuestiON,Gemini2.5 Pro是唯一的大型模型。 Doubao只是简单地指出,振荡期限的幅度大于0,但社会术语的术语也可能相反,因此最大值可能较小,并且证明过程不够紧,并且将扣除一个点。 DeepSeek R1讨论了有关的情况(3),并分为两种类型的解决方案,但没有为第一种解决方案提供后续解释,将会扣除一点点。 O3问题(2)这个想法是正确的,但是由于开放间隔和关闭间隔的差异,“完整的重叠”陈述是不正确的,并且将扣除1分。 Hunyuan-t1-latest这个想法能够提出质疑(2),但次要的过程尚不清楚,将扣除2分。当问题(3)没有判断力时,采取了PHI的数量,将扣除2个。 Wenxin X1和Qwen3也失去了问题2和问题3的积分。2将扣除以确定不清楚的证据,并且未指定问题3。此外,Wenxin X1的误差要比大小的误差,另外1分将被扣除。问题目标:一个图像问题使一些多模型模型陷入困境。不考虑图像识别问题(问题6),问题模型的总体表现很好。 Doubao,Qwen3,Gemini 2.5 Pro,DeepSeek R1,Wenxin X1 Turbo和Hunyuan-T1-Latest的得分高68分,只有O3选择的众多选择问题和丢失点之一。其中,O3在计算问题9的过程中忽略了“正prisma”的基本条件。在建立坐标系统时,它使用(x₀,y₀,0)来表示C点C的坐标,但它并不是常规的三角棱镜的基础,但认为这是常规的三角形,这意味着在这种情况下,这意味着wife ts y y prife ts y a i wire a a i wir a a a quy 3 a quy 3:2y/quart a a a i a i/qul 3; 2y/qual 3; 2Y/qual 3; 2y/qul 3 a i a i a i/qual 3; 2y/qul 3; 2y/qual 3; 2y/qual 3;estion。最低正确识别坐标位置的O3,但仅在风速方向上误认为,而Gemineither无法正确识别主要坐标。通常,该分析的结果表明,大型模型在数学推理能力方面取得了重大发展,但仍然有足够的改进空间。例如,许多模型在回答问题方面失去了积分,反映出大型模型需要通过复杂的推理,严格的争议和多步计算来加强大型模型。此外,所有测量的多模式模型都在识别图像6图像方面都有问题,这也使当前的AI缺点暴露于图形文本理解中。最后,对神经学院的分析结束了。我希望所有候选人都是完美的结果,也是美好的未来!