阿里云通义千问发布新一代端到端多模态旗舰模型 Qwen2.5-Omni 并开源，看听说写样样精通

瞄准港股创新药财富盛宴，“国产伟哥”旺山旺水问题重重 落实个人消费贷款贴息方案，六大行集体官宣官方处理结果 8月12日美国国债规模首次突破37万亿美元新浪财经美股直击：危机还是常态？ iPhone 17 Pro存储升级为256GB起步：但价格也涨了最新进展 千循科技早盘涨逾8% 上半年收入同比大增8.5倍又一个里程碑 樊纲：实物消费产能已经过剩，服务性消费有待发展 一文剖析：AI周期是否已达顶峰？本质上取决于这三大风险后续反转 左小蕾：金融活水润泽消费热土——一场政策、结构与技术共舞的经济大戏|财富领航征程专家已经证实 一文剖析：AI周期是否已达顶峰？本质上取决于这三大风险学习了 越南盾兑美元跌至纪录低点 科网股早盘表现亮眼腾讯音乐-SW涨超15%哔哩哔哩-W涨超5%官方通报来了 海清智元港股IPO：递表前夕估值暴涨数倍推手成立仅2天既“纸面富贵”又“存贷双高”财务真实性几何？ 特朗普炮轰高盛不懂关税：换掉首席经济学家 CEO去当DJ吧！ 专家已经证实 商务部公告2025年第39号公布对原产于加拿大、日本和印度的进口卤化丁基橡胶反倾销调查的初步裁定官方通报来了 智微智能：推出基于Nvidia Jetson等芯片平台的机器人大小脑控制器产品线官方已经证实 医药投资人开始翻身了学习了 医药投资人开始翻身了 【华源海外｜朱芸】百胜龙国(09987.HK)：同店转正运营提升经营利润改善开店行稳致远 A股三大股指再创年内新高，半导体产业链全线走强是真的？ 中报营利、造血能力显著提升，城发环境获更多险资“投票”这么做真的好么？ 【华源海外｜朱芸】百胜龙国(09987.HK)：同店转正运营提升经营利润改善开店行稳致远后续来了 阿拉斯加会晤未启美国内舆论弥漫担忧情绪官方已经证实 九部门贴息政策发力，银行股或受益！红利低波ETF(512890)近20个交易吸金9.9亿元 阿拉斯加会晤未启美国内舆论弥漫担忧情绪是真的？ 拜耳与 Kumquat 达成全球独家许可：推进 KRAS G12D 抑制剂，交易总额最高 13 亿美元 + 分级版税又一个里程碑 三季度直面近5000亿美元新债“洪流”！调查：哪怕降息美债也难涨专家已经证实 疲弱数据强化降息预期美银下调美债收益率预测 黄金创三个月最大跌幅！特朗普澄清：不会对金条加征关税是真的吗？ 华泰证券：流动性行情中谁在加仓？ 英伟达同意H20芯片在龙国销售额15%上交美国：我国回应最新进展 全系标配副驾零重力座椅、副驾屏，享界 S9T 旅行车将于 8 月 18 日开启预订后续会怎么发展 实垂了 外资唱多港股创新药龙头瑞银上调龙国生物制药目标价后续会怎么发展 外资唱多港股创新药龙头瑞银上调龙国生物制药目标价是真的？ 方正证券丨周报聚焦 0811- 0815 特朗普：见普京将是试探性会晤 “可能头两分钟就知道能否达成协议”太强大了 *ST高鸿严重财务造假被重罚秒懂 金价，大跌！秒懂 英伟达同意H20芯片在龙国销售额15%上交美国：我国回应 特朗普：见普京将是试探性会晤 “可能头两分钟就知道能否达成协议”后续反转来了 以新质生产力推动现代设施渔业高质量发展|福建省政协老大滕佳材一行莅临天马科技集团考察调研是真的吗？ 核心业务动能不足皇氏集团资产负债率创新高最新进展

感谢本站网友乌蝇哥的左手的线索投递！

本站 3 月 27 日消息，今日凌晨，阿里云发布通义千问 Qwen 模型家族中新一代端到端多模态旗舰模型 ——Qwen2.5-Omni，并在 Hugging Face、ModelScope、DashScope 和 GitHub 上开源。

阿里云表示，该模型专为全方位多模态感知设计，能够无缝处理文本、图像、音频和视频等多种输入形式，并通过实时流式响应同时生成文本与自然语音合成输出。本站汇总其主要特点如下：

全能创新架构：Qwen 团队提出了一种全新的 Thinker-Talker 架构，这是一种端到端的多模态模型，旨在支持文本 / 图像 / 音频 / 视频的跨模态理解，同时以流式方式生成文本和自然语音响应。Qwen 提出了一种新的位置编码技术，称为 TMRoPE（Time-aligned Multimodal RoPE），通过时间轴对齐实现视频与音频输入的精准同步。

实时音视频交互：架构旨在支持完全实时交互，支持分块输入和即时输出。

自然流畅的语音生成：在语音生成的自然性和稳定性方面超越了许多现有的流式和非流式替代方案。

全模态性能优势：在同等规模的单模态模型进行基准测试时，表现出卓越的性能。Qwen2.5-Omni 在音频能力上优于类似大小的 Qwen2-Audio，并与 Qwen2.5-VL-7B 保持同等水平。

卓越的端到端语音指令跟随能力：Qwen2.5-Omni 在端到端语音指令跟随方面表现出与文本输入处理相媲美的效果，在 MMLU 通用知识理解和 GSM8K 数学推理等基准测试中表现优异。

据官方介绍，Qwen2.5-Omni 采用 Thinker-Talker 双核架构。Thinker 模块如同大脑，负责处理文本、音频、视频等多模态输入，生成高层语义表征及对应文本内容；Talker 模块则类似发声器官，以流式方式接收 Thinker 实时输出的语义表征与文本，流畅合成离散语音单元。Thinker 基于 Transformer 解码器架构，融合音频 / 图像编码器进行特征提取；Talker 则采用双轨自回归 Transformer 解码器设计，在训练和推理过程中直接接收来自 Thinker 的高维表征，并共享全部历史上下文信息，形成端到端的统一模型架构。

模型架构图

模型性能方面，Qwen2.5-Omni 在包括图像，音频，音视频等各种模态下的表现都优于类似大小的单模态模型以及封闭源模型，例如 Qwen2.5-VL-7B、Qwen2-Audio 和 Gemini-1.5-pro。

在多模态任务 OmniBench，Qwen2.5-Omni 达到了 SOTA 的表现。此外，在单模态任务中，Qwen2.5-Omni 在多个领域中表现优异，包括语音识别（Common Voice）、翻译（CoVoST2）、音频理解（MMAU）、图像推理（MMMU、MMStar）、视频理解（MVBench）以及语音生成（Seed-tts-eval 和主观自然听感）。

▲模型性能图

Qwen Chat：//chat.qwenlm.ai

Hugging Face：//huggingface.co/Qwen/Qwen2.5-Omni-7B

ModelScope：//modelscope.cn/models/Qwen/Qwen2.5-Omni-7B

DashScope：//help.aliyun.com/zh/model-studio/user-guide/qwen-omni

GitHub：//github.com/QwenLM/Qwen2.5-Omni

Demo 体验：//modelscope.cn/ studios / Qwen / Qwen2.5-Omni-Demo