必一运动·(B-sports)官方网站

业界动态
GOOGLEGemini 2.5 Pro上线即“屠榜”!每经记者实测:可轻松模拟火星登陆,快速制作小游戏,但审美能力有待提升,模型,测试
2025-03-27 00:27:15
GOOGLEGemini 2.5 Pro上线即“屠榜”!每经记者实测:可轻松模拟火星登陆,快速制作小游戏,但审美能力有待提升,模型,测试

每(mei)经记者:岳楚鹏 每(mei)经编(bian)辑:兰素英

图片来源:GOOGLE博(bo)客(ke)

当地时间3月25日,GOOGLE正式揭开其(qi)下一(yi)代AI模型系列——Gemini 2.5的(de)神秘面纱,宣称(cheng)这是其(qi)迄今为止“最智能(neng)的(de)AI模型”。

首(shou)个发布(bu)的(de)版本被(bei)命名为Gemini 2.5 Pro Experimental(以下简(jian)称(cheng)“Gemini 2.5 Pro”)。GOOGLE表示,Gemini 2.5 Pro支撑(chi)100万个token的(de)上下文(wen)窗口(kou),这意(yi)味着AI模型能(neng)一(yi)次性处理相当于两本《红楼梦》字数的(de)文(wen)本量(liang)。

该模型一(yi)经发布(bu),便在各大基准测试(shi)上全(quan)面“屠榜在所有测试(shi)中都稳居第一(yi)名的(de)位置,包括常见的(de)编(bian)程、数学和科学基准测试(shi)。

GOOGLEDeepmind首(shou)席技(ji)术(shu)官Koray Kavukcuoglu在博(bo)客(ke)中写道:“现在,通过Gemini 2.5,大家结合(he)了显著增强的(de)基础模型和改进后的(de)后续训(xun)练,实现了全(quan)新的(de)性能(neng)水平。未来,大家将(jiang)把(ba)这种思维能(neng)力直接构建到(dao)大家所有的(de)模型中,使其(qi)能(neng)够处理更复杂的(de)问题,并支撑(chi)更强大、更具情境感知能(neng)力的(de)智能(neng)体。”

《每(mei)日经济资讯(wen)》记者(以下简(jian)称(cheng)“每(mei)经记者”)也在第一(yi)时间对Gemini 2.5 Pro进行了测试(shi),测试(shi)包括数学、火星登陆模拟测试(shi)、网页开发和小游戏制作。

测试(shi)结果显示,该模型在科学类问题和编(bian)程方面实力强大,用户只要会打(da)字,就能(neng)进行编(bian)程。而且,生成速度极快,质量(liang)良好。与每(mei)经记者之前测试(shi)的(de)多款大模型相比,Gemini 2.5 Pro在测试(shi)过程中几乎没有出现bug。不过,在网页设计(ji)审美和玩(wan)家(jia)体验等方面,该模型还有提升的(de)空间。

Gemini 2.5 Pro上线即(ji)“屠榜”

当地时间3月25日,GOOGLE宣布(bu)推出全(quan)新AI模型系列——Gemini 2.5。GOOGLE首(shou)席科学家(jia)Jeff Dean表示,Gemini 2.5是该企业最智能(neng)的(de)模型,具有令人(ren)印(yin)象(xiang)深刻的(de)高级推理和编(bian)码能(neng)力。

Gemini 2.5系列属于“思考模型”,这意(yi)味着该模型在生成最终回应之前,能(neng)够进行内部的(de)“思考”或推理过程。GOOGLE表示,这种能(neng)力旨在显著提升模型的(de)性能(neng)表现和答案的(de)准确性,是GOOGLE在强化学习、思维链提示技(ji)术(shu)领域(yu)长期(qi)深耕,以及对早期(qi) “思考” 模型(如 Gemini 2.0 Flash Thinking )持(chi)续探(tan)索的(de)重要成果。

Gemini 2.5 Pro是这一(yi)系列模型的(de)首(shou)发产品。GOOGLE表示,Gemini 2.5 Pro支撑(chi)100万个token的(de)上下文(wen)窗口(kou),这意(yi)味着它一(yi)次性能(neng)处理相当于两本《红楼梦》字数的(de)文(wen)本量(liang)。并且,GOOGLE承诺(nuo),Gemini 2.5 Pro很快将(jiang)支撑(chi)两倍的(de)上下文(wen)窗口(kou)(即(ji)200万个token)。

目前,Gemini 2.5 Pro已在谷歌 AI Studio和Gemini应用中推出,向(xiang)Gemini Advanced用户开放,并将(jiang)很快在Vertex AI上推出。

一(yi)经发布(bu),Gemini 2.5 Pro便以出色的(de)性能(neng)吸引了外界的(de)广(guang)泛关注。GOOGLE在博(bo)客(ke)中强调,Gemini 2.5 Pro在一(yi)系列行业基准测试(shi)中达到(dao)了“最先进水平”(state-of-the-art),包括常见的(de)编(bian)程、数学和科学基准测试(shi)。

在“人(ren)类的(de)最后考试(shi)”测试(shi)中,它获(huo)得了18.8%的(de)最高分(fen)数,这是目前为止所有未使用(外接工具)的(de)大模型中最好的(de)成绩。“人(ren)类最后的(de)考试(shi)”是一(yi)个由全(quan)球近千名专(zhuan)家(jia)共同设计(ji)的(de)多模态基准测试(shi),旨在评估大型语言(yan)模型的(de)能(neng)力极限。该测试(shi)包含3000道涵(han)盖数学、人(ren)文(wen)学科和自然科学等多个领域(yu)的(de)前沿(yan)问题。

“人(ren)类的(de)最后考试(shi)”测试(shi) 图片来源:GOOGLE官网

在专(zhuan)注于人(ren)类理解的(de)大模型竞技(ji)场测试(shi)中,Gemini 2.5 Pro也以创纪录的(de)优势拔(ba)得头筹(chou),创下了历史最大的(de)分(fen)数跨(kua)越,比Grok-3和GPT-4.5高出40多分(fen)。

图片来源:大模型竞技(ji)场

具体来看,在代号为“nebula”的(de)测试(shi)中,Gemini 2.5 Pro横扫所有类别,夺得第一(yi),独揽数学、创意(yi)写作、指令遵循、长查(cha)询和多轮对话这五大领域(yu)的(de)冠军;

图片来源:X平台截图

在人(ren)类偏好测试(shi)中,Gemini 2.5 Pro同样是在所有类别中问鼎榜首(shou),只在困难提示和编(bian)码领域(yu)与Grok-3/GPT-4.5拿到(dao)并列冠军。

人(ren)类偏好测试(shi) 图片来源:大模型竞技(ji)场

在网页开发领域(yu),Gemini 2.5 Pro也是脱颖而出,在WebDev Arena上排名第二,它较上一(yi)代Gemini有了巨大的(de)飞跃,超(chao)越了Claude 3.5 Sonnet,是第一(yi)款能(neng)与Claude抗(kang)衡的(de)模型,但仍低于Claude 3.7 Sonnet。

WebDev Arena测试(shi) 图片来源:大模型竞技(ji)场

在Vision Arena(视觉竞技(ji)场)测试(shi)中,作为多模态模型的(de)Gemini 2.5 Pro也处于领先的(de)位置。

Vision Arena测试(shi) 图片来源:大模型竞技(ji)场

记者实测:编(bian)程方面实力强大,但审美及玩(wan)家(jia)体验待提升

每(mei)经记者第一(yi)时间对Gemini 2.5 Pro进行了测试(shi),测试(shi)包括数学、火星登陆模拟测试(shi)、网页开发和小游戏制作。

数知识题

每(mei)经记者抛出的(de)是一(yi)个博(bo)士资格考试(shi)的(de)群论(lun)数知识题:有多少个147阶的(de)非同构群?

Gemini 2.5 Pro在数量(liang)和具体的(de)非同构群上都给出了完(wan)美的(de)解答。值得一(yi)提的(de)是,此前记者也用这一(yi)问题对其(qi)他大模型进行了测试(shi),Grok3、o3-mini和DeepSeek-R1都或多或少出现了错(cuo)误,不是数量(liang)没找对,就是具体的(de)非同构群出错(cuo)。

火星登陆模拟

接下来,每(mei)经记者测试(shi)的(de)是Gemini 2.5 Pro在数学和物理方面的(de)综合(he)能(neng)力。测试(shi)选择的(de)是马斯克的(de)经典问题:绘(hui)制一(yi)个登陆火星并返回的(de)火箭轨道图。

Gemini 2.5 Pro给出了一(yi)个完(wan)成度超(chao)高的(de)动态图像,包含任(ren)务天数、具体轨道示意(yi)图等要素。并且,它还称(cheng),这只是一(yi)个简(jian)单版本,如果允许它接入天体数据库(ku)的(de)话,它还可以制作一(yi)个更准确的(de)版本出来。

网页开发

在前端(duan)设计(ji)方面,每(mei)经记者要求它设计(ji)一(yi)个有互动性的(de)世界风光先容网站。

Gemini 2.5 Pro输(shu)出了一(yi)个完(wan)整的(de)网站,并且带有景点(dian)先容和互动地图探(tan)索相关功能(neng)。但是,在具体细节上,它犯了很多小错(cuo)误,例如,景点(dian)先容的(de)图片不仅单一(yi),而且还都是不相关的(de)内容。此外,整体网页设计(ji)的(de)色调也不甚(shen)美观。

小游戏制作

最后,每(mei)经记者让Gemini 2.5 Pro制作一(yi)个类似于flappy bird的(de)小游戏,标准是卡通画风,背景要随(sui)游玩(wan)时间变换,玩(wan)家(jia)主角要是一(yi)个小飞象(xiang),要有有趣的(de)玩(wan)法(fa)创新。

在短暂的(de)思考后,Gemini 2.5 Pro输(shu)出了完(wan)成这个游戏需要的(de)500多行代码。这一(yi)游戏非常完(wan)美地契合(he)了每(mei)经记者给出的(de)描述,并且对玩(wan)法(fa)创新的(de)模糊描述也给出了良好的(de)回应,自行思考出了无敌道具玩(wan)法(fa),吃下金花(hua)生就可以在短时间内无敌。

更重要的(de)是,这一(yi)游戏并没有出现任(ren)何bug,只需要复制粘贴就可以流畅运行。

在此前的(de)大模型测试(shi)中,第一(yi)次的(de)输(shu)出结果或多或少会出现一(yi)些bug,影(ying)响游戏体验。不过,还是要指出的(de)一(yi)点(dian)是,Gemini 2.5 Pro只考虑了背景变化的(de)要求,却没注意(yi)到(dao)其(qi)生成的(de)游戏背景图案中,云朵变化速度过快,太(tai)费眼睛。

综上,每(mei)经记者认为,Gemini 2.5 Pro在科学类问题和编(bian)程等硬实力上实力满(man)满(man),但在审美和玩(wan)家(jia)体验等软实力上还有一(yi)点(dian)欠缺。

每(mei)日经济资讯(wen)

最新资讯
  • 南开区向阳路街
  • 丰宁满族自治县
  • 宣州区飞彩街
  • 赫山区龙光桥镇
  • 安乡县大鲸港镇
  • 黄陂区王家河镇
  • 都匀市文峰路街
  • 如皋市吴窑镇
  • 怀宁县月山镇
  • 西湖区留下镇
  • 颖上县江店孜镇
  • 平塘县克度镇
  • 长沙县青山铺镇
  • 环江毛南族自治县东兴镇
  • 红桥区
  • 连山壮族瑶族自治县禾洞镇
  • 宣化县大仓盖镇
  • 黑山县芳山镇
  • 本溪满族自治县清河城镇
  • 甘泉县
  • 河南中青综合资讯
  • 游戏百科综合资讯
  • 快云游综合资讯
  • 快云综合资讯
  • 久诚汽车资讯
  • 癫痫百科
  • 体育百科资讯
  • App百科资讯
  • sitemapsitemap1sitemap2sitemap3sitemap4sitemap5sitemap6sitemap7
    XML 地图 | Sitemap 地图