阿里云通义千问发布新一代端到端多模态旗舰模型 Qwen2.5-Omni 并开源,看听说写样样精通

阿里云通义千问发布新一代端到端多模态旗舰模型 Qwen2.5-Omni 并开源,看听说写样样精通

作者:news 发表时间:2025-08-13
开盘:美股周二高开 美国7月CPI提升降息预期 看图:瑞士央行外汇储备中所持美股价值在第二季度攀升了18%科技水平又一个里程碑 重庆银行1.5%股权将易主:重庆水投集团计划减持不超过5200万股,重庆地产集团拟最高出资5.8亿元接手实时报道 美国核心通胀率升至1月以来最高水平 受服务业价格推动 前美联储官员Bullard:若独立性得到尊重 愿意担任美联储老大专家已经证实 华胜天成连续2个交易日收盘价格涨幅偏离值累计达20% Spirit Airlines 发出警示:重组后需求疲弱、流动性约束趋紧又一个里程碑 前美联储官员Bullard:若独立性得到尊重 愿意担任美联储老大后续反转来了 美国国债在7月CPI公布后升至日内高点 收益率曲线陡化又一个里程碑 美国7月通胀上升,符合预期太强大了 Spirit Airlines 发出警示:重组后需求疲弱、流动性约束趋紧后续反转 增持延长6个月+突破限价! 成都银行国资股东最高14亿资金入场学习了 事关个人消费贷款贴息,多家银行响应 58家人身险公司上半年投资收益率出炉:约九成机构不足3%,4.67%成“天花板”学习了 确定退市,“万亿”恒大落幕!许家印、丁玉梅等被追讨超400亿元股息及酬金,全球范围超500亿元资产被冻结是真的? 看图:瑞士央行外汇储备中所持美股价值在第二季度攀升了18% 特朗普扩大军队在美境内部署:华盛顿启用800名国民警卫队并联邦化警局,洛杉矶驻军延至11月 自动化设备行业董秘观察:亿嘉和张晋博出现1次违规 薪酬仍高达103万元 两个月内被约谈四次,汽车业需要好好“立规矩”了官方通报 南京首次对低空数据资源进行资产化确权登记专家已经证实 麻烦不断,王健林被逼到了绝望的边缘学习了 “快”字当头,“听劝版”理想i8火线登场 自动化设备行业董秘观察:常辅股份许旭华学历最低仅为中专 薪酬为60万元最新报道 【提示】8月上旬,我市蔬菜价格环比涨势略有加快,肉蛋、鱼虾、水果、粮油价格保持稳定官方已经证实 关于印发《支持学前教育发展资金管理办法》的通知官方已经证实 狼狗撕咬路人致其死亡,狗主人被判过失致人死亡罪专家已经证实 毛利率堪比茅台!百亿市值再谋H股上市 万兴科技能否突围?官方已经证实 自动化设备行业董秘观察:英诺激光张勇2024年薪酬高达105万元 较前一年翻超一倍 8月11日钛系产品市场报价这么做真的好么? 越过技术成本山丘 | 燃油车也智驾(上)专家已经证实 狼狗撕咬路人致其死亡,狗主人被判过失致人死亡罪后续会怎么发展 美国平均关税税率显著飙升后续会怎么发展 沸腾!超4000倍认购,暴涨近170%!一手最多可赚4380港元,龙国,创造历史!是真的吗? 自动化设备行业董秘观察:海得控制吴秋农59岁为行业最年长 薪酬高达105万元 珀斯华人区连发枪击纵火案,我领馆提醒龙国公民加强防范 糖尿病治愈疗法,迎来重大突破 增值税法实施条例向社会公开征求意见,有哪些看点?反转来了 京蒙协作推动“草原优品”走向市场 越过技术成本山丘 | 燃油车也智驾(上)是真的? 自动化设备行业董秘观察:欧克科技陈真29岁为行业最年轻 薪酬垫底仅15万元后续会怎么发展 智光电气:子公司智光储能签订2.04亿元储能系统设备销售合同 自动化设备行业董秘观察:亿嘉和张晋博出现1次违规 薪酬仍高达103万元 岚图汽车CEO呼吁汽车测评回归理性 智光电气:子公司智光储能签订2.04亿元储能系统设备销售合同又一个里程碑 纸糊的2500亿巨头,老板去了日本……官方处理结果 破6亿!《浪浪山小妖怪》冲上热搜,周边卖爆了……这么做真的好么? 百果园董事长回应“水果太贵”引争议,公司去年亏损近4亿元,门店净 京蒙协作推动“草原优品”走向市场后续反转来了 关于印发《支持学前教育发展资金管理办法》的通知 纸糊的2500亿巨头,老板去了日本……实时报道

感谢本站网友 乌蝇哥的左手 的线索投递!

本站 3 月 27 日消息,今日凌晨,阿里云发布通义千问 Qwen 模型家族中新一代端到端多模态旗舰模型 ——Qwen2.5-Omni,并在 Hugging Face、ModelScope、DashScope 和 GitHub 上开源。

阿里云表示,该模型专为全方位多模态感知设计,能够无缝处理文本、图像、音频和视频等多种输入形式,并通过实时流式响应同时生成文本与自然语音合成输出。本站汇总其主要特点如下:

    全能创新架构:Qwen 团队提出了一种全新的 Thinker-Talker 架构,这是一种端到端的多模态模型,旨在支持文本 / 图像 / 音频 / 视频的跨模态理解,同时以流式方式生成文本和自然语音响应。Qwen 提出了一种新的位置编码技术,称为 TMRoPE(Time-aligned Multimodal RoPE),通过时间轴对齐实现视频与音频输入的精准同步。

    实时音视频交互:架构旨在支持完全实时交互,支持分块输入和即时输出。

    自然流畅的语音生成:在语音生成的自然性和稳定性方面超越了许多现有的流式和非流式替代方案。

    全模态性能优势:在同等规模的单模态模型进行基准测试时,表现出卓越的性能。Qwen2.5-Omni 在音频能力上优于类似大小的 Qwen2-Audio,并与 Qwen2.5-VL-7B 保持同等水平。

    卓越的端到端语音指令跟随能力:Qwen2.5-Omni 在端到端语音指令跟随方面表现出与文本输入处理相媲美的效果,在 MMLU 通用知识理解和 GSM8K 数学推理等基准测试中表现优异。

    据官方介绍,Qwen2.5-Omni 采用 Thinker-Talker 双核架构。Thinker 模块如同大脑,负责处理文本、音频、视频等多模态输入,生成高层语义表征及对应文本内容;Talker 模块则类似发声器官,以流式方式接收 Thinker 实时输出的语义表征与文本,流畅合成离散语音单元。Thinker 基于 Transformer 解码器架构,融合音频 / 图像编码器进行特征提取;Talker 则采用双轨自回归 Transformer 解码器设计,在训练和推理过程中直接接收来自 Thinker 的高维表征,并共享全部历史上下文信息,形成端到端的统一模型架构。

    模型架构图

    模型性能方面,Qwen2.5-Omni 在包括图像,音频,音视频等各种模态下的表现都优于类似大小的单模态模型以及封闭源模型,例如 Qwen2.5-VL-7B、Qwen2-Audio 和 Gemini-1.5-pro。

    在多模态任务 OmniBench,Qwen2.5-Omni 达到了 SOTA 的表现。此外,在单模态任务中,Qwen2.5-Omni 在多个领域中表现优异,包括语音识别(Common Voice)、翻译(CoVoST2)、音频理解(MMAU)、图像推理(MMMU、MMStar)、视频理解(MVBench)以及语音生成(Seed-tts-eval 和主观自然听感)。

    ▲模型性能图

      Qwen Chat://chat.qwenlm.ai

      Hugging Face://huggingface.co/Qwen/Qwen2.5-Omni-7B

      ModelScope://modelscope.cn/models/Qwen/Qwen2.5-Omni-7B

      DashScope://help.aliyun.com/zh/model-studio/user-guide/qwen-omni

      GitHub://github.com/QwenLM/Qwen2.5-Omni

      Demo 体验://modelscope.cn/ studios / Qwen / Qwen2.5-Omni-Demo

相关文章