27日凌晨,alibaba发布并开源首个端到端全模态大模型通义(yi)千问Qwen2.5-Omni-7B,可(ke)同时(shi)处理文本、图像(xiang)、音频和视频等多种输入,并实时(shi)生(sheng)成(cheng)文本与自然语音合(he)成(cheng)输出。在权威的(de)多模态融合(he)任务OmniBench等测评中,Qwen2.5-Omni刷(shua)新业界纪录(lu),全维度远超谷歌的(de)Gemini-1.5-Pro等同类模型。据悉,Qwen2.5-Omni以接近人类的(de)多感官(guan)方式“立体”认知世(shi)界并与之实时(shi)交互,还能通过音视频识(shi)别情绪,在复杂任务中进行更智能、更自然的(de)反馈与决(jue)策(ce)。现在,开发者和企业可(ke)免(mian)费下载(zai)商(shang)用Qwen2.5-Omni,手机等终端智能硬件也可(ke)轻松部署运行。