新京报贝壳财经讯(记(ji)者罗亦丹)3月27日,alibaba发布(bu)并开源首个端到端全模态大模型通义千问Qwen2.5-Omni-7B,可同时处理文本、图像(xiang)、音频(pin)和视频(pin)等多种输入,并实时生(sheng)成文本与自然(ran)语音合成输出。
在权威(wei)的多模态融合任务OmniBench等测评中,Qwen2.5-Omni刷(shua)新业界纪录,全维度超(chao)越谷歌的Gemini-1.5-Pro等同类模型。Qwen2.5-Omni以接近人类的多感官方(fang)式“立体”认知世界并与之实时交互,还(hai)能通过音视频(pin)识别情绪(xu)。目前(qian)开发者和企业可免费下载商用Qwen2.5-Omni,手机等终端智能硬(ying)件也可部署运行。
编辑 岳彩(cai)周(zhou)
校(xiao)对 杨(yang)许丽(li)