界面新(xin)闻(wen)记者 | 肖芳
界面新(xin)闻(wen)编辑 | 文(wen)姝琪
界面新(xin)闻(wen)记者 | 肖芳
界面新(xin)闻(wen)编辑 | 文(wen)姝琪
DeepSeek走红数月之后,字(zi)节跳动终于对外发布自研的(de)深度思考模型。
4月17日(ri),豆包1.5?深度思考模型由火山引(yin)擎对外发布,面向企业市场提供(gong)服(fu)务。技术报告显示(shi),豆包深度思考模型采用MoE架构,总参数为200B,激活参数为20B。相比(bi)之下,同样采用MoE架构的(de)DeepSeek-V3模型总参数为671B,激活参数为37B。
豆包1.5?深度思考模型的(de)参数实现更小,但从评测结果(guo)来(lai)看,其(qi)能力不逊于顶尖模型的(de)效果(guo)。其(qi)中,豆包1.5?深度思考模型在专(zhuan)业领域的(de)推(tui)理任务中表现出色,数学推(tui)理AIME 2024测试得分追平(ping)OpenAI o3-mini-high,编程竞(jing)赛和科(ke)学推(tui)理测试成绩(ji)也接近o1,在编程竞(jing)赛Codeforces pass@8得分接近 OpenAI o1,在科(ke)学推(tui)理GPQA 得分接近o3-mini。
同时,基于高效算法和高性能推(tui)理系统,豆包模型API服(fu)务在保障高并发的(de)同时,延迟低至20毫秒。
豆包深度思考模型还上线了多模态版,具备视觉推(tui)理能力,能像人类一样对看到的(de)事物进行联想和思考,拓展了智(zhi)能推(tui)理的(de)应用边界。比(bi)如,这款模型可以看懂复杂的(de)企业项目管理流程图表,快速定位到关(guan)键信息,并能够严格按照流程图,回答客(ke)户的(de)问题(ti)。在分析航拍图时,能结合地貌特征(zheng)判断区域开发可行性。
从现场演示(shi)来(lai)看,上传一份可口可乐财报,豆包深度思考模型能够提取财报中不同区域的(de)营收、增长等关(guan)键数据指标(biao),并能够结合这些数据分析不同区域数据表现差异的(de)原因;上传一份西餐厅菜单图片(pian),并给出点餐需求和预算指令,豆包深度思考模型能够推(tui)理不同菜品是否符合需求,从而(er)按照开胃(wei)菜、主菜、配菜、甜点搭(da)配推(tui)荐菜品。
去年5月,字(zi)节跳动首次(ci)对外发布豆包系列模型。一年以来(lai),豆包系列模型的(de)数量在不断增加,模型的(de)能力也在持续(xu)提升。豆包多款主力模型的(de)发布都晚于同行,但还是有其(qi)市场认可度。
据火山引(yin)擎披露,截至2025年3月底,豆包大模型日(ri)均tokens调用量已(yi)达到12.7万亿,较去年5月发布时增长上百倍。火山引(yin)擎总裁谭待在接受界面新(xin)闻(wen)等媒体(ti)采访时透露,从长期(qi)来(lai)看,豆包大模型日(ri)均tokens调用量百倍甚至更高的(de)增长是有可能的(de)。但未来(lai)两(liang)三年内,最(zui)关(guan)键的(de)取决(jue)于模型是否有重大突破。
去年,豆包大模型首次(ci)对外发布,火山引(yin)擎把豆包大模型的(de)定价(jia)降低了一个(ge)数量级。其(qi)中,豆包通用模型pro-32k版,模型推(tui)理输入价(jia)格不足市面上同规格模型的(de)定价(jia)的(de)1%;豆包通用模型pro-128k版,模型推(tui)理输入价(jia)格比(bi)行业价(jia)格低95.8%。在谭待看来(lai),基础信息处(chu)理能力的(de)提升以及成本的(de)下降让(rang)豆包大模型从去年到今年获(huo)得了快速增长,今年模型在深度思考能力上的(de)突破又带来(lai)新(xin)的(de)增长。
火山引(yin)擎也在遵循相同的(de)逻辑思考大模型未来(lai)的(de)增长点。谭待认为,视觉推(tui)理能力以及Agent相关(guan)技术能否获(huo)得重大突破,是未来(lai)几年大模型增长的(de)关(guan)键节点。
此次(ci)发布豆包深度思考模型,火山引(yin)擎正是在押宝这两(liang)个(ge)新(xin)的(de)机会。因为现实世(shi)界中的(de)很多应用场景是靠视觉驱动的(de),豆包深度思考模型具备了视觉推(tui)理能力,便可以在更多场景助力企业进行落地应用。
火山引(yin)擎更大的(de)野心在于争夺Agent市场的(de)机会。2025年被业界视为“Agent智(zhi)能体(ti)元年”。谭待认为,在多模态深度思考模型的(de)基础上,Agent需要良好的(de)架构和工具,去操作数字(zi)世(shi)界和物理世(shi)界。同时,模型的(de)推(tui)理成本和延迟要持续(xu)降低,才能推(tui)动应用普惠(hui)。
为此,火山引(yin)擎宣布推(tui)出OS Agent解决(jue)方案,并演示(shi)了由Agent操作浏(liu)览器,搜索商品页,实现苹果比(bi)价(jia)的(de)任务,甚至由Agent在远程计算机上用剪映进行视频(pin)编辑、配乐。
据发布会现场的(de)先容,OS Agent解决(jue)方案包含豆包UI-TARS模型,以及veFaaS函数服(fu)务、云服(fu)务器、云手机等产品,实现对代(dai)码、浏(liu)览器、电(dian)脑、手机以及其(qi)他Agent的(de)操作。其(qi)中,豆包UI-TARS模型将屏幕视觉理解、逻辑推(tui)理、界面元素定位和操作整(zheng)合在一起,突破传统自动化(hua)工具依(yi)赖(lai)预设规则的(de)局限性,为Agent的(de)智(zhi)能交互提供(gong)了更接近人类操作的(de)模型基础。
好的(de)模型和工具能够加速Agent的(de)落地,但Agent也会带来(lai)更大量的(de)模型推(tui)理消耗。面对大规模推(tui)理需求,火山引(yin)擎还有AI云原生ServingKit推(tui)理套(tao)件,让(rang)模型部署更快、推(tui)理成本更低,GPU消耗相比(bi)传统方案降低80%。
谭待在接受媒体(ti)采访时表示(shi),聊天和信息处(chu)理只(zhi)是AI应用的(de)一小部分,AI要真(zhen)正为各行各业带来(lai)变革,Agent是必经之路。对于垂直(zhi)类Agent,火山引(yin)擎会基于自身优势领域进行探索;对于通用型Agent,火山引(yin)擎更重要的(de)是搭(da)建好基础框架、提供(gong)好用的(de)工具。
IDC发布的(de)《中国公(gong)有云大模型服(fu)务市场格局分析,1Q25》显示(shi),火山引(yin)擎以46.4%的(de)市场份额位居第(di)一。
豆包大模型去年率先降价(jia)对火山引(yin)擎的(de)增长提供(gong)了积极(ji)助力,火山引(yin)擎也希(xi)望通过Agent应用增长的(de)机会获(huo)得更大的(de)市场份额。谭待表示(shi),每一次(ci)大的(de)模型突破都肯(ken)定能激发一次(ci)大的(de)变化(hua),他对未来(lai)2年内豆包大模型的(de)调用量能否再翻100倍保持谨慎乐观。