每经记(ji)者 可杨 每经编辑 张益铭
在4月(yue)25日的百度Create大会(hui)现场,百度创始人李彦宏带来百度文库、百度网盘联合推出的全球首个内容领域操作系统——沧舟OS。
依托沧舟OS,百度网盘和百度文库联合推出“AI笔记(ji)”,用户在网盘内观看(kan)学习(xi)视频时,可一键生成AI笔记(ji),还能生成AI思(si)维导图、基于视频内容AI出题(ti),实现视频和笔记(ji)在同界面的流畅联动。
百度创始人李彦宏曾将百度文库称为“百度AI重(zhong)构最彻底的一款(kuan)产品”。百度副总裁,文库事业部、网盘事业部负(fu)责(ze)人王颖在接受包括《每日经济资讯》记(ji)者在内的媒体采访(fang)时指(zhi)出,整个行业的发展(zhan)趋势都是通过能力的组(zu)合与对Agent的调用,逐步实现对用户完整需求(qiu)的交付(fu)。
MCP(Model Context Protocol,模型上下文协(xie)议)是AI领域最新热议的焦点,值得注意的是,不久前的4月(yue)15日,支付(fu)宝(bao)联合魔搭社区,在国内推出“支付(fu)MCP Server”服务。王颖认为,作为一种(zhong)协(xie)议,MCP已经初步具备了(le)承载体系化协(xie)同的基础条件。
AI的未来:无所不能、无处不在
“‘无所不能、无处不在’是大家希翼AI未来能达(da)成的愿景和目标,”百度副总裁,文库事业部、网盘事业部负(fu)责(ze)人王颖在采访(fang)中表示,好的AI应该像(xiang)人一样思(si)考(kao),像(xiang)人一样工作。
基于这种(zhong)愿景,百度文库和网盘联合推出了(le)“沧舟OS”操作系统,构建了(le)以多Agent智能体协(xie)同为核心的平台,希翼在文库、网盘等产品之上,融合输入(ru)、处理(li)与输出三(san)大能力,以期在任何场景下都能为用户提供(gong)端到端的深度交付(fu)。
在百度内部,构建这样一套系统并非一蹴而就。王颖坦言,之所以没有早点推出,是因为它需要长时间的能力沉淀——从文库、网盘的AI重(zhong)构开(kai)始,百度文库、网盘就在系统性地积累大模型赋能下的多模态输入(ru)、输出、信息处理(li)等能力,并通过Agent协(xie)作机制将这些能力整合成能够(gou)深度交付(fu)的工作流。这源于技术能力的长期积累,也是在行业演进中不断适配、串联能力的结果。
基于此,王颖先容,“沧舟OS”系统的构建除(chu)了(le)在横向上围绕(rao)输入(ru)、处理(li)、输出建立工作流,同时在纵向架构上也遵循了(le)MCP Server(模型上下文协(xie)议服务器)、MCP Client(应用服务层)、MCP Host(面向用户的终端层)三(san)层结构。
其中,MCP Server包括底座基建和中枢系统:底层基建包含工具框架和常识化框架,沉淀了(le)丰富的公域常识库、私域常识库,以及(ji)用户记(ji)忆库“三(san)大库”和用于调用的工具能力;中枢系统包括融合编辑器、阅读器、播放器“三(san)大器”,以及(ji)调度中枢,结合用户记(ji)忆和画像(xiang)数据,通过模型理(li)解用户意图,高效分配调度Agent。MCP Client是应用服务层,聚合了(le)文库、网盘等自研Agent以及(ji)专业的第三(san)方(fang)Agent,构成核心中枢。MCP Host则是面向用户的终端层,涵盖企业用户、开(kai)发者、智能体应用等各场景和终端。
王颖表示,从早期的Chatbot(聊(liao)天机器人),到后来的Agent(智能体),再到多智能体协(xie)同,以及(ji)当前广受关注的MCP概(gai)念,整个行业的发展(zhan)趋势都是通过能力的组(zu)合与对Agent的调用,逐步实现对用户完整需求(qiu)的深度交付(fu)。王颖认为,作为一种(zhong)协(xie)议,MCP已经初步具备了(le)承载这一体系化协(xie)同的基础条件。
面对“沧舟OS”系统落地过程中的技术难题(ti),王颖坦言:“几乎(hu)每一步都是挑战(zhan)。”
王颖指(zhi)出,首先是多模态内容的理(li)解层面,包括模型如何应用、文件怎么解析、解析后如何变成同样的向量,以完成进一步的推理(li),这是工程团队和大模型团队从去年就开(kai)始做,直到没有问题(ti)才集成到系统上的。
其次是用户意图的理(li)解与澄清,王颖认为,这是降低用户操作门槛的关键。
此外,王颖还提到多模态的输入(ru)和输出,“大家希翼多模态是一个完整的交付(fu),从输入(ru)开(kai)始就应该是多模态,拍照、语音、文字都可以作为任务起(qi)点”。
为了(le)实现规模化应用与商业可持续,王颖强调控(kong)制成本与提升调用效率(lu)的重(zhong)要性。“现在爆火的智能体都是不可持续的,每个人都要搞一遍,它的成本是很难控(kong)制的。”王颖认为,通过多任务智能体调用的方(fang)式,能够(gou)把(ba)每一次调用的成本摊薄(bao),才有机会(hui)让AI实现真正可用、可规模化使(shi)用。
从深度思(si)考(kao),到深度交付(fu)
“这套系统应该长成什么样子(zi)?应该根据用户的需求(qiu)来看(kan)。”当被问及(ji)如何理(li)解沧舟OS系统时,王颖表示。
在王颖看(kan)来,大模型时代的操作系统将与传统PC时代完全不同。从PC时代的Windows系统到今天的AI原(yuan)生平台,最大的区别在于是否能够(gou)端到端地解决问题(ti)。
过去,Windows以窗口式界面为统一形态,基于Windows之上的各种(zhong)应用程序完全不同。“因为它受限于技术不能够(gou)端到端解决问题(ti),所以导致底座是底座,通用程序是通用程序。”王颖表示。
在大模型驱动下,情况(kuang)发生了(le)变化,王颖认为,大模型时代的操作系统最后要解决端到端的问题(ti)。AI不再只是工具,而成为“任务解决者”。王颖认为,真正的AI操作系统,最终目标是实现从需求(qiu)理(li)解到任务完成的全链路闭环,端到端地实现从深度思(si)考(kao)到深度交付(fu)。
“沧是沧海的意思(si)。大家的系统就像(xiang)水一样,放在圆的容器里就是圆的,放在方(fang)的容器里就是方(fang)的。”也正因如此,沧舟OS的具体形态因任务而异:在自由创作场景中,它表现为“自由画布”;在学习(xi)场景中,在网盘里可以呈现为“AI学习(xi)笔记(ji)”;在视频场景中,系统又(you)会(hui)自动唤起(qi)视频理(li)解、常识提炼等多模态能力。
王颖表示,当前,行业的共识是:靠单(dan)个Agent解决不了(le)复杂问题(ti),必(bi)须靠多Agent协(xie)同。王颖指(zhi)出,如何搭建一套好的工作流,然后解决完整的任务,是大家都去追(zhui)求(qiu)的目标。
王颖强调,不可能有一个通用的WorkFlow(工作流)能解决所有问题(ti),而是应该随着用户的操作路径,实时构建出最合适的流程。在沧舟OS中,这样的“流程生成”也是由系统自动完成的。“你觉(jue)得下一步是什么,我给你的就是什么”,这是沧舟OS区别于传统操作系统的根本所在。
“从第一天开(kai)始希翼大家解决问题(ti)的能力是,让AI聪明(ming)又(you)能干。”王颖表示,生成只是第一步,生成完了(le)能够(gou)真正可用,才是最重(zhong)要的。
因此,在当前阶段(duan),王颖强调的是更实用的工程路线:以多模型组(zu)合、多Agent协(xie)同,再加上完整的产品工程体系,分阶段(duan)推进AI的落地能力。
“以前连这个都不具备,因为以前的大模型没有这种(zhong)通用的能力,都是专用的能力,是解决不了(le)的。”王颖表示,通过深度思(si)考(kao)、深度交付(fu)、公私域常识库和MCP体系,四者协(xie)同发力,才能在多元场景中真正满足用户需求(qiu)。
封面图片来源:每日经济资讯 资料图