快手可灵发布2.0版本：上线多模态视频编辑功能,用户,盖坤,模型20250417-业界动态-pqbbw.com

快手可灵发布2.0版本：上线多模态视频编辑功能,用户,盖坤,模型

2025-04-17 00:25:43

快手可灵发布2.0版本：上线多模态视频编辑功能,用户,盖坤,模型

随着AI生成视(shi)频日渐(jian)走红，如何准确将用户心中的想法转化成AI视(shi)频，成为难题。用户常(chang)常(chang)发现，仅仅依靠文(wen)字很难描述自己的需求。

4月15日，快手旗下可灵AI宣布，面向全球发布可灵2.0视(shi)频生成模型及可图2.0图像生成模型，快手高级副总裁(cai)、快手社区(qu)科学线负责人盖(gai)坤(kun)向澎(peng)湃资讯记者表示(shi)，“AI在(zai)辅助创意(yi)表达上拥有巨大潜力，但当前(qian)的行业发展现状还远远无法满(man)足用户需求，在(zai)AI生成内容的稳定性、以及用户复杂创意(yi)的精确传达上仍有很多挑战(zhan)。”

此次2.0版本的迭代中，最受关注(zhu)的便是(shi)多模态(tai)视(shi)频编辑的新功(gong)能：可灵AI使用全新交互理念Multi-modal Visual Language（MVL），让用户能够结合图像参考、视(shi)频片段等多模态(tai)信息，将脑海中包含身份、外观、风格(ge)、场景、动作(zuo)、表情、运镜在(zai)内的多维度创意(yi)，高效传达给AI。同时，用户可以直接把自己的想法用图像等方式表作(zuo)为输入，生成符合自己想法的创意(yi)视(shi)频。

展开剩余 65 %

盖(gai)坤(kun)先容(shao)，MVL由TXT（Pure Text，语义骨架）和MMW（Multi-modal-document as a Word，多模态(tai)描述子）组成，能从(cong)视(shi)频生成设(she)定的基础方向以及精细控制这两个(ge)层(ceng)面，精准实现AI创作(zuo)者们的创意(yi)表达。他表示(shi)，MMW（多模态(tai)描述子）将不(bu)只局限于图片和视(shi)频，也可以引入其它模态(tai)的信息，例(li)如声音(yin)、运动轨迹等，让用户实现更加丰(feng)富的表达。

数据显(xian)示(shi)，自去年6月发布以来，可灵AI已累计(ji)完成超20次迭代。来自世界各地的超1.5万开发者和企业客户，将可灵的API应用于不(bu)同的行业场景中。自去年6月上线至(zhi)今的10个(ge)月时间里，可灵AI的月活用户数量增长25倍，截至(zhi)目(mu)前(qian)，全球用户规模突破2200万。

据盖(gai)坤(kun)先容(shao)，可灵和可图两款模型在(zai)团队内部的多项胜(sheng)负率评测中，均(jun)稳居(ju)业内第一。例(li)如在(zai)文(wen)生视(shi)频领域，可灵2.0对比GOOGLE(ge)Veo2的胜(sheng)负比为205%，对比Sora的胜(sheng)负比达367%。

值得注(zhu)意(yi)的是(shi)，当前(qian)图生视(shi)频约占到可灵AI视(shi)频创作(zuo)量的85%，图片质量也对视(shi)频的生成效果产生重要作(zuo)用。

据快手副总裁(cai)、可灵AI负责人张迪(di)先容(shao)，可图2.0文(wen)生图能力也迎来全面升级，在(zai)风格(ge)化响应上，可图2.0可支撑60多种风格(ge)化的效果转绘，模型出图创意(yi)和想象力实现大幅跃(yue)升。

同时，可图2.0也上线图像可控编辑功(gong)能：局部重绘和扩图，支撑图片的增加、修(xiu)改和修(xiu)复。在(zai)图像的多模态(tai)可控生成中，可图2.0还上线风格(ge)转绘功(gong)能，只需要上传一张图片加上风格(ge)描述，就能一键切换图片的艺术风格(ge)，同时精准保留(liu)原图的语义内容。

除(chu)C端(duan)订阅用户，可灵AI也面向B端(duan)商家提供API接入等服务。目(mu)前(qian)，可灵AI已与包括小米、亚(ya)马逊云科技、阿里云、Freepik、蓝色光标(biao)等在(zai)内的数千家国内外企业客户建立合作(zuo)关系(xi)。

在(zai)营收数据方面，快手2024年三(san)季(ji)度财报数据显(xian)示(shi)，可灵AI在(zai)2024年9月实现月活超150万；商业化单(dan)月流水也超过千万人民币。另据2024年快手四季(ji)度及全年财报，自可灵AI开始商业化变现至(zhi)2025年2月，可灵AI的累计(ji)营业收入已经超过1亿(yi)元。

AI视(shi)频是(shi)互联网企业集体(ti)发力的赛(sai)道(dao)，去年12月，Tencent混(hun)元大模型发布AI视(shi)频生成大模型，同时宣布开源，参数量达到130亿(yi)，为当时最大的视(shi)频开源模型，字节跳动、MiniMax、智谱AI等国内大厂和头部初创企业也推(tui)出了相应产品。

必一运动·(B-sports)官方网站

loading