GOOGLEGemini 2.5 Pro上线即“屠榜”！每经记者实测：可轻松模拟火星登陆，快速制作小游戏，但审美能力有待提升,模型,测试20250327-业界动态-pqbbw.com

GOOGLEGemini 2.5 Pro上线即“屠榜”！每经记者实测：可轻松模拟火星登陆，快速制作小游戏，但审美能力有待提升,模型,测试

2025-03-27 00:27:15

GOOGLEGemini 2.5 Pro上线即“屠榜”！每经记者实测：可轻松模拟火星登陆，快速制作小游戏，但审美能力有待提升,模型,测试

每(mei)经记者：岳楚鹏每(mei)经编(bian)辑：兰素英

图片来源：GOOGLE博(bo)客(ke)

当地时间3月25日，GOOGLE正式揭开其(qi)下一(yi)代AI模型系列——Gemini 2.5的(de)神秘面纱，宣称(cheng)这是其(qi)迄今为止“最智能(neng)的(de)AI模型”。

首(shou)个发布(bu)的(de)版本被(bei)命名为Gemini 2.5 Pro Experimental（以下简(jian)称(cheng)“Gemini 2.5 Pro”）。GOOGLE表示，Gemini 2.5 Pro支撑(chi)100万个token的(de)上下文(wen)窗口(kou)，这意(yi)味着AI模型能(neng)一(yi)次性处理相当于两本《红楼梦》字数的(de)文(wen)本量(liang)。

该模型一(yi)经发布(bu)，便在各大基准测试(shi)上全(quan)面“屠榜”，在所有测试(shi)中都稳居第一(yi)名的(de)位置，包括常见的(de)编(bian)程、数学和科学基准测试(shi)。

GOOGLEDeepmind首(shou)席技(ji)术(shu)官Koray Kavukcuoglu在博(bo)客(ke)中写道：“现在，通过Gemini 2.5，大家结合(he)了显著增强的(de)基础模型和改进后的(de)后续训(xun)练，实现了全(quan)新的(de)性能(neng)水平。未来，大家将(jiang)把(ba)这种思维能(neng)力直接构建到(dao)大家所有的(de)模型中，使其(qi)能(neng)够处理更复杂的(de)问题，并支撑(chi)更强大、更具情境感知能(neng)力的(de)智能(neng)体。”

展开剩(sheng)余 87 %

《每(mei)日经济资讯(wen)》记者（以下简(jian)称(cheng)“每(mei)经记者”）也在第一(yi)时间对Gemini 2.5 Pro进行了测试(shi)，测试(shi)包括数学、火星登陆模拟测试(shi)、网页开发和小游戏制作。

测试(shi)结果显示，该模型在科学类问题和编(bian)程方面实力强大，用户只要会打(da)字，就能(neng)进行编(bian)程。而且，生成速度极快，质量(liang)良好。与每(mei)经记者之前测试(shi)的(de)多款大模型相比，Gemini 2.5 Pro在测试(shi)过程中几乎没有出现bug。不过，在网页设计(ji)审美和玩(wan)家(jia)体验等方面，该模型还有提升的(de)空间。

Gemini 2.5 Pro上线即(ji)“屠榜”

当地时间3月25日，GOOGLE宣布(bu)推出全(quan)新AI模型系列——Gemini 2.5。GOOGLE首(shou)席科学家(jia)Jeff Dean表示，Gemini 2.5是该企业最智能(neng)的(de)模型，具有令人(ren)印(yin)象(xiang)深刻的(de)高级推理和编(bian)码能(neng)力。

Gemini 2.5系列属于“思考模型”，这意(yi)味着该模型在生成最终回应之前，能(neng)够进行内部的(de)“思考”或推理过程。GOOGLE表示，这种能(neng)力旨在显著提升模型的(de)性能(neng)表现和答案的(de)准确性，是GOOGLE在强化学习、思维链提示技(ji)术(shu)领域(yu)长期(qi)深耕，以及对早期(qi) “思考” 模型（如 Gemini 2.0 Flash Thinking ）持(chi)续探(tan)索的(de)重要成果。

Gemini 2.5 Pro是这一(yi)系列模型的(de)首(shou)发产品。GOOGLE表示，Gemini 2.5 Pro支撑(chi)100万个token的(de)上下文(wen)窗口(kou)，这意(yi)味着它一(yi)次性能(neng)处理相当于两本《红楼梦》字数的(de)文(wen)本量(liang)。并且，GOOGLE承诺(nuo)，Gemini 2.5 Pro很快将(jiang)支撑(chi)两倍的(de)上下文(wen)窗口(kou)（即(ji)200万个token）。

目前，Gemini 2.5 Pro已在谷歌 AI Studio和Gemini应用中推出，向(xiang)Gemini Advanced用户开放，并将(jiang)很快在Vertex AI上推出。

一(yi)经发布(bu)，Gemini 2.5 Pro便以出色的(de)性能(neng)吸引了外界的(de)广(guang)泛关注。GOOGLE在博(bo)客(ke)中强调，Gemini 2.5 Pro在一(yi)系列行业基准测试(shi)中达到(dao)了“最先进水平”（state-of-the-art），包括常见的(de)编(bian)程、数学和科学基准测试(shi)。

在“人(ren)类的(de)最后考试(shi)”测试(shi)中，它获(huo)得了18.8%的(de)最高分(fen)数，这是目前为止所有未使用（外接工具）的(de)大模型中最好的(de)成绩。“人(ren)类最后的(de)考试(shi)”是一(yi)个由全(quan)球近千名专(zhuan)家(jia)共同设计(ji)的(de)多模态基准测试(shi)，旨在评估大型语言(yan)模型的(de)能(neng)力极限。该测试(shi)包含3000道涵(han)盖数学、人(ren)文(wen)学科和自然科学等多个领域(yu)的(de)前沿(yan)问题。

“人(ren)类的(de)最后考试(shi)”测试(shi) 图片来源：GOOGLE官网

在专(zhuan)注于人(ren)类理解的(de)大模型竞技(ji)场测试(shi)中，Gemini 2.5 Pro也以创纪录的(de)优势拔(ba)得头筹(chou)，创下了历史最大的(de)分(fen)数跨(kua)越，比Grok-3和GPT-4.5高出40多分(fen)。

图片来源：大模型竞技(ji)场

具体来看，在代号为“nebula”的(de)测试(shi)中，Gemini 2.5 Pro横扫所有类别，夺得第一(yi)，独揽数学、创意(yi)写作、指令遵循、长查(cha)询和多轮对话这五大领域(yu)的(de)冠军；

图片来源：X平台截图

在人(ren)类偏好测试(shi)中，Gemini 2.5 Pro同样是在所有类别中问鼎榜首(shou)，只在困难提示和编(bian)码领域(yu)与Grok-3/GPT-4.5拿到(dao)并列冠军。

人(ren)类偏好测试(shi) 图片来源：大模型竞技(ji)场

在网页开发领域(yu)，Gemini 2.5 Pro也是脱颖而出，在WebDev Arena上排名第二，它较上一(yi)代Gemini有了巨大的(de)飞跃，超(chao)越了Claude 3.5 Sonnet，是第一(yi)款能(neng)与Claude抗(kang)衡的(de)模型，但仍低于Claude 3.7 Sonnet。

WebDev Arena测试(shi) 图片来源：大模型竞技(ji)场

在Vision Arena（视觉竞技(ji)场）测试(shi)中，作为多模态模型的(de)Gemini 2.5 Pro也处于领先的(de)位置。

Vision Arena测试(shi) 图片来源：大模型竞技(ji)场

记者实测：编(bian)程方面实力强大，但审美及玩(wan)家(jia)体验待提升

每(mei)经记者第一(yi)时间对Gemini 2.5 Pro进行了测试(shi)，测试(shi)包括数学、火星登陆模拟测试(shi)、网页开发和小游戏制作。

数知识题

每(mei)经记者抛出的(de)是一(yi)个博(bo)士资格考试(shi)的(de)群论(lun)数知识题：有多少个147阶的(de)非同构群？

Gemini 2.5 Pro在数量(liang)和具体的(de)非同构群上都给出了完(wan)美的(de)解答。值得一(yi)提的(de)是，此前记者也用这一(yi)问题对其(qi)他大模型进行了测试(shi)，Grok3、o3-mini和DeepSeek-R1都或多或少出现了错(cuo)误，不是数量(liang)没找对，就是具体的(de)非同构群出错(cuo)。

火星登陆模拟

接下来，每(mei)经记者测试(shi)的(de)是Gemini 2.5 Pro在数学和物理方面的(de)综合(he)能(neng)力。测试(shi)选择的(de)是马斯克的(de)经典问题：绘(hui)制一(yi)个登陆火星并返回的(de)火箭轨道图。

Gemini 2.5 Pro给出了一(yi)个完(wan)成度超(chao)高的(de)动态图像，包含任(ren)务天数、具体轨道示意(yi)图等要素。并且，它还称(cheng)，这只是一(yi)个简(jian)单版本，如果允许它接入天体数据库(ku)的(de)话，它还可以制作一(yi)个更准确的(de)版本出来。

网页开发

在前端(duan)设计(ji)方面，每(mei)经记者要求它设计(ji)一(yi)个有互动性的(de)世界风光先容网站。

Gemini 2.5 Pro输(shu)出了一(yi)个完(wan)整的(de)网站，并且带有景点(dian)先容和互动地图探(tan)索相关功能(neng)。但是，在具体细节上，它犯了很多小错(cuo)误，例如，景点(dian)先容的(de)图片不仅单一(yi)，而且还都是不相关的(de)内容。此外，整体网页设计(ji)的(de)色调也不甚(shen)美观。

小游戏制作

最后，每(mei)经记者让Gemini 2.5 Pro制作一(yi)个类似于flappy bird的(de)小游戏，标准是卡通画风，背景要随(sui)游玩(wan)时间变换，玩(wan)家(jia)主角要是一(yi)个小飞象(xiang)，要有有趣的(de)玩(wan)法(fa)创新。

在短暂的(de)思考后，Gemini 2.5 Pro输(shu)出了完(wan)成这个游戏需要的(de)500多行代码。这一(yi)游戏非常完(wan)美地契合(he)了每(mei)经记者给出的(de)描述，并且对玩(wan)法(fa)创新的(de)模糊描述也给出了良好的(de)回应，自行思考出了无敌道具玩(wan)法(fa)，吃下金花(hua)生就可以在短时间内无敌。

更重要的(de)是，这一(yi)游戏并没有出现任(ren)何bug，只需要复制粘贴就可以流畅运行。

在此前的(de)大模型测试(shi)中，第一(yi)次的(de)输(shu)出结果或多或少会出现一(yi)些bug，影(ying)响游戏体验。不过，还是要指出的(de)一(yi)点(dian)是，Gemini 2.5 Pro只考虑了背景变化的(de)要求，却没注意(yi)到(dao)其(qi)生成的(de)游戏背景图案中，云朵变化速度过快，太(tai)费眼睛。

综上，每(mei)经记者认为，Gemini 2.5 Pro在科学类问题和编(bian)程等硬实力上实力满(man)满(man)，但在审美和玩(wan)家(jia)体验等软实力上还有一(yi)点(dian)欠缺。

每(mei)日经济资讯(wen)

必一运动·(B-sports)官方网站