新浪科技讯 3月27日上午消息,alibaba发布并开源首(shou)个端到(dao)端全模(mo)态大模(mo)型通义千问Qwen2.5-Omni-7B,可同时(shi)处理文本、图像、音频和视频等多种输(shu)入,并实时(shi)生成文本与自然语音合(he)成输(shu)出。
据悉(xi),在(zai)权威多模(mo)态融(rong)合(he)任务OmniBench等测评中,Qwen2.5-Omni全维度超谷歌的Gemini-1.5-Pro等同类模(mo)型,刷新业(ye)界纪录。Qwen2.5-Omni以接近人类的多感官方式认知世界并与之实时(shi)交互,还能通过音视频识别(bie)情绪,在(zai)复杂任务中进行(xing)更智能、更自然的反馈与决策。现在(zai),开发者和企业(ye)可免费下载商用Qwen2.5-Omni,手机等终端智能硬件也可轻松部署(shu)运行(xing)。
相较于(yu)数千亿参数的闭(bi)源大模(mo)型,Qwen2.5-Omni以7B的小尺寸让(rang)全模(mo)态大模(mo)型在(zai)产业(ye)上的广泛应用成为可能。即便在(zai)手机上,也能轻松部署(shu)和应用Qwen2.5-Omni模(mo)型。当前,Qwen2.5-Omni已在(zai)魔搭(da)社区和Hugging Face 同步开源,用户(hu)也可在(zai)Qwen Chat上直接体验。(文猛)
责任编辑:江(jiang)钰涵
【免责声明】本文仅代表编辑本人观点,与和讯网无关。和讯网站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提(ti)供任何明示(shi)或暗示(shi)的保证。请读(du)者仅作参考,并请自行(xing)承(cheng)担全部责任。邮(you)箱:news_center@staff.hexun.com