发布豆包深度思考模型，火山引擎要争夺Agent市场,推理,能力,应用20250419-业界动态-pqbbw.com

发布豆包深度思考模型，火山引擎要争夺Agent市场,推理,能力,应用

2025-04-19 01:06:55

发布豆包深度思考模型，火山引擎要争夺Agent市场,推理,能力,应用

界面新(xin)闻(wen)记者 | 肖芳

界面新(xin)闻(wen)编辑 | 文(wen)姝琪

界面新(xin)闻(wen)记者 | 肖芳

界面新(xin)闻(wen)编辑 | 文(wen)姝琪

DeepSeek走红数月之后，字(zi)节跳动终于对外发布自研的(de)深度思考模型。

4月17日(ri)，豆包1.5?深度思考模型由火山引(yin)擎对外发布，面向企业市场提供(gong)服(fu)务。技术报告显示(shi)，豆包深度思考模型采用MoE架构，总参数为200B，激活参数为20B。相比(bi)之下，同样采用MoE架构的(de)DeepSeek-V3模型总参数为671B，激活参数为37B。

豆包1.5?深度思考模型的(de)参数实现更小，但从评测结果(guo)来(lai)看，其(qi)能力不逊于顶尖模型的(de)效果(guo)。其(qi)中，豆包1.5?深度思考模型在专(zhuan)业领域的(de)推(tui)理任务中表现出色，数学推(tui)理AIME 2024测试得分追平(ping)OpenAI o3-mini-high，编程竞(jing)赛和科(ke)学推(tui)理测试成绩(ji)也接近o1，在编程竞(jing)赛Codeforces pass@8得分接近 OpenAI o1，在科(ke)学推(tui)理GPQA 得分接近o3-mini。

同时，基于高效算法和高性能推(tui)理系统，豆包模型API服(fu)务在保障高并发的(de)同时，延迟低至20毫秒。

展开剩余 76 %

豆包深度思考模型还上线了多模态版，具备视觉推(tui)理能力，能像人类一样对看到的(de)事物进行联想和思考，拓展了智(zhi)能推(tui)理的(de)应用边界。比(bi)如，这款模型可以看懂复杂的(de)企业项目管理流程图表，快速定位到关(guan)键信息，并能够严格按照流程图，回答客(ke)户的(de)问题(ti)。在分析航拍图时，能结合地貌特征(zheng)判断区域开发可行性。

从现场演示(shi)来(lai)看，上传一份可口可乐财报，豆包深度思考模型能够提取财报中不同区域的(de)营收、增长等关(guan)键数据指标(biao)，并能够结合这些数据分析不同区域数据表现差异的(de)原因；上传一份西餐厅菜单图片(pian)，并给出点餐需求和预算指令，豆包深度思考模型能够推(tui)理不同菜品是否符合需求，从而(er)按照开胃(wei)菜、主菜、配菜、甜点搭(da)配推(tui)荐菜品。

去年5月，字(zi)节跳动首次(ci)对外发布豆包系列模型。一年以来(lai)，豆包系列模型的(de)数量在不断增加，模型的(de)能力也在持续(xu)提升。豆包多款主力模型的(de)发布都晚于同行，但还是有其(qi)市场认可度。

据火山引(yin)擎披露，截至2025年3月底，豆包大模型日(ri)均tokens调用量已(yi)达到12.7万亿，较去年5月发布时增长上百倍。火山引(yin)擎总裁谭待在接受界面新(xin)闻(wen)等媒体(ti)采访时透露，从长期(qi)来(lai)看，豆包大模型日(ri)均tokens调用量百倍甚至更高的(de)增长是有可能的(de)。但未来(lai)两(liang)三年内，最(zui)关(guan)键的(de)取决(jue)于模型是否有重大突破。

去年，豆包大模型首次(ci)对外发布，火山引(yin)擎把豆包大模型的(de)定价(jia)降低了一个(ge)数量级。其(qi)中，豆包通用模型pro-32k版，模型推(tui)理输入价(jia)格不足市面上同规格模型的(de)定价(jia)的(de)1%；豆包通用模型pro-128k版，模型推(tui)理输入价(jia)格比(bi)行业价(jia)格低95.8%。在谭待看来(lai)，基础信息处(chu)理能力的(de)提升以及成本的(de)下降让(rang)豆包大模型从去年到今年获(huo)得了快速增长，今年模型在深度思考能力上的(de)突破又带来(lai)新(xin)的(de)增长。

火山引(yin)擎也在遵循相同的(de)逻辑思考大模型未来(lai)的(de)增长点。谭待认为，视觉推(tui)理能力以及Agent相关(guan)技术能否获(huo)得重大突破，是未来(lai)几年大模型增长的(de)关(guan)键节点。

此次(ci)发布豆包深度思考模型，火山引(yin)擎正是在押宝这两(liang)个(ge)新(xin)的(de)机会。因为现实世(shi)界中的(de)很多应用场景是靠视觉驱动的(de)，豆包深度思考模型具备了视觉推(tui)理能力，便可以在更多场景助力企业进行落地应用。

火山引(yin)擎更大的(de)野心在于争夺Agent市场的(de)机会。2025年被业界视为“Agent智(zhi)能体(ti)元年”。谭待认为，在多模态深度思考模型的(de)基础上，Agent需要良好的(de)架构和工具，去操作数字(zi)世(shi)界和物理世(shi)界。同时，模型的(de)推(tui)理成本和延迟要持续(xu)降低，才能推(tui)动应用普惠(hui)。

为此，火山引(yin)擎宣布推(tui)出OS Agent解决(jue)方案，并演示(shi)了由Agent操作浏(liu)览器，搜索商品页，实现苹果比(bi)价(jia)的(de)任务，甚至由Agent在远程计算机上用剪映进行视频(pin)编辑、配乐。

据发布会现场的(de)先容，OS Agent解决(jue)方案包含豆包UI-TARS模型，以及veFaaS函数服(fu)务、云服(fu)务器、云手机等产品，实现对代(dai)码、浏(liu)览器、电(dian)脑、手机以及其(qi)他Agent的(de)操作。其(qi)中，豆包UI-TARS模型将屏幕视觉理解、逻辑推(tui)理、界面元素定位和操作整(zheng)合在一起，突破传统自动化(hua)工具依(yi)赖(lai)预设规则的(de)局限性，为Agent的(de)智(zhi)能交互提供(gong)了更接近人类操作的(de)模型基础。

好的(de)模型和工具能够加速Agent的(de)落地，但Agent也会带来(lai)更大量的(de)模型推(tui)理消耗。面对大规模推(tui)理需求，火山引(yin)擎还有AI云原生ServingKit推(tui)理套(tao)件，让(rang)模型部署更快、推(tui)理成本更低，GPU消耗相比(bi)传统方案降低80%。

谭待在接受媒体(ti)采访时表示(shi)，聊天和信息处(chu)理只(zhi)是AI应用的(de)一小部分，AI要真(zhen)正为各行各业带来(lai)变革，Agent是必经之路。对于垂直(zhi)类Agent，火山引(yin)擎会基于自身优势领域进行探索；对于通用型Agent，火山引(yin)擎更重要的(de)是搭(da)建好基础框架、提供(gong)好用的(de)工具。

IDC发布的(de)《中国公(gong)有云大模型服(fu)务市场格局分析，1Q25》显示(shi)，火山引(yin)擎以46.4%的(de)市场份额位居第(di)一。

豆包大模型去年率先降价(jia)对火山引(yin)擎的(de)增长提供(gong)了积极(ji)助力，火山引(yin)擎也希(xi)望通过Agent应用增长的(de)机会获(huo)得更大的(de)市场份额。谭待表示(shi)，每一次(ci)大的(de)模型突破都肯(ken)定能激发一次(ci)大的(de)变化(hua)，他对未来(lai)2年内豆包大模型的(de)调用量能否再翻100倍保持谨慎乐观。

必一运动·(B-sports)官方网站

loading