4月15日,快手旗下的可灵AI宣布基座模型再次升级(ji),正式发布可灵2.0视频生成模型及可图2.0图像生成模型。
快手高级(ji)副总裁、社区科学线负责人盖坤(kun)在可灵2.0模型发布会(hui)上先容,可灵2.0大师版在语义响应、动态质量、画面美学等方面显著提(ti)升生成效果。可灵2.0大师版全面升级(ji)视频及图像创作可控(kong)生成与编辑能力,上线全新的多模态视频编辑功能,能灵活理解用户意图,支撑对视频内容实现增、删(shan)、改。
可灵AI2.0到底有多“灵”?大家(men)一起(qi)来一探究竟!
语义响应能力显著提(ti)升
可灵2.0在语义响应方面取得了显著进步。其能够更精准地理解用户输入的文本指令(ling),并生成与之高度匹(pi)配的视频或图像内容。这(zhe)意味着,用户可以通过更自然(ran)、更复杂的语言描述来引导AI创作,从而获得更符合(he)预期的作品。
例如,用户可以详细描述一个场景的氛围(wei)、角色的动作和情感,可灵2.0能够准确地将这(zhe)些元素融入生成的内容中(zhong)。
“男人先(xian)是(shi)开心地笑着,突然(ran)变得愤怒,手锤(chui)桌子(zi)起(qi)身。”
“男人先(xian)是(shi)开心地笑着,突然(ran)变得愤怒,手锤(chui)桌子(zi)起(qi)身。”
在动态质量方面,可灵2.0实现了质的飞跃(yue)。其生成的视频在运动流畅(chang)性、时序连贯性和运镜效果上都(dou)有了显著提(ti)升。无论是(shi)复杂的动作场景还是(shi)细腻的情感表达,可灵2.0都(dou)能以更自然(ran)、更逼真的方式呈现。
“恐龙朝着镜头冲过来,运动模糊,镜头抖动。”
“恐龙朝着镜头冲过来,运动模糊,镜头抖动。”
可灵2.0在画面质感上也进行了全面优化。其生成的图像和视频在色彩、光影效果和细节表现上更加出色。可图2.0图像生成模型在指令(ling)遵循、影片质感及艺术风格表现等方面也显著提(ti)升,能够生成具(ju)有影片级(ji)质感的图像。
“女孩从静坐在公园长椅上,到慢慢走出画面,晨光逐渐转为正午烈日再过渡至(zhi)暮色,天空色彩从粉橙渐变为湛蓝再转为紫红(hong),来往行人形成流动的虚影轨迹固定镜头,突出光影在长椅木(mu)纹上的缓慢爬行,飘落的树叶在长椅下堆积又随风卷起(qi)。”
“女孩从静坐在公园长椅上,到慢慢走出画面,晨光逐渐转为正午烈日再过渡至(zhi)暮色,天空色彩从粉橙渐变为湛蓝再转为紫红(hong),来往行人形成流动的虚影轨迹固定镜头,突出光影在长椅木(mu)纹上的缓慢爬行,飘落的树叶在长椅下堆积又随风卷起(qi)。”
据了解,当(dang)前视频生成主要分文生视频和图生视频两种,快手副总裁、可灵AI负责人张迪就披露,85%的视频创作通过图生视频完成。
而在盖坤(kun)的演示中(zhong),通过MVL方式,用户能够结合(he)图像参(can)考(kao)、视频片段等多模态信(xin)息(xi),将脑海中(zhong)的多维度复杂创意传达给AI,而不仅仅是(shi)文字(zi)的提(ti)示语句(ju)。
“一个吟游猫(mao)诗人,在酒(jiu)馆中(zhong),唱着属于自己(ji)的故(gu)事,而且,弹(dan)吉(ji)他的手,还会(hui)按和弦。”
“一个看(kan)着专业但是(shi)却是(shi)菜鸡的跳水。”
“女孩刚进行完一场演出,向大家,诚恳的鞠了一躬。”
“第一视角,在开车,是(shi)真实的开车。”
“轻(qing)声哭泣的外星人。”
有网友评论称:
“看(kan)完可灵2.0发布会(hui),我身边形成了激进派和保守派,激进派觉得可灵2.0已经是(shi)世界领先(xian)了,保守派觉得激进派太保守了……”
“看(kan)完可灵2.0发布会(hui),我身边形成了激进派和保守派,激进派觉得可灵2.0已经是(shi)世界领先(xian)了,保守派觉得激进派太保守了……”
“可灵的使用感至(zhi)少是(shi)top3。”
“可灵的使用感至(zhi)少是(shi)top3。”
“这(zhe)甚至(zhi)比导演拍(pai)得还好。”
“这(zhe)甚至(zhi)比导演拍(pai)得还好。”
“可灵生成视频的功能可灵了”
“可灵生成视频的功能可灵了”
“AI进步太快了。”
“AI进步太快了。”
还有X上的网友称,“可以拿来做短剧了。”
还有X上的网友称,“可以拿来做短剧了。”