阿里云通义千问发布新一代端到端多模态旗舰模型 Qwen2.5-Omni 并开源，看听说写样样精通

常熟银行首次启动中期分红年内三次计划“村改支”最新报道 卫星互联网建设提速上市公司掘金产业链机遇官方处理结果 贝森特将鲍曼、Jefferson、Logan也纳入美联储老大的筛选范围 澳大利亚旅游局局长：龙国有望成入境第一客源国 1.9万亿巨无霸出手，挪威主权基金清仓11家以色列公司股票秒懂 巴西财长：与美国财长贝森特的会谈已取消 各有各的理由多家上市公司回购延期官方通报来了 常熟银行首次启动中期分红年内三次计划“村改支” 道明证券：滞胀是美元面临的最新风险 1.9万亿巨无霸出手，挪威主权基金清仓11家以色列公司股票专家已经证实 1.9万亿巨无霸出手，挪威主权基金清仓11家以色列公司股票最新进展 直击上海首条穿越长江轨道交通铺轨：地下动脉托举超大城市发展这么做真的好么？ 风电行业景气度提升新强联上半年营收增109% 具身智能应用场景“遍地开花” 业内预计2026年或为量产元年 具身智能应用场景“遍地开花” 业内预计2026年或为量产元年实测是真的 各有各的理由多家上市公司回购延期 给员工签合同上社保被质疑“道德绑架对手”，京东CEO许冉：只是守好公司合法经营的底线而已 东兴证券、康达律所、天健会所起诉39名被告，索赔3.7亿！又一个里程碑 复星国际午后飙升逾20% 报道称复星已确定在港申请稳定币牌照是真的吗？ 独家专访京东CEO许冉：低质低价竞争不会给行业带来长期价值 日经 225 盘中创历史新高：关税忧虑降温与 AI 基建需求共振，软银领涨后续来了 黄金周二交易提醒:美国CPI势必点燃行情 数字货币板块异动拉升，恒宝股份触及涨停官方通报 中信里昂：料网易-S次季游戏收入反弹年增17.9% 高盛：首予大麦娱乐“买入”评级目标价1.38港元科技水平又一个里程碑 京东CEO许冉：七鲜小厨是刘强东一直想做的科技水平又一个里程碑 数字货币板块异动拉升，恒宝股份触及涨停 山东焦企自8月16日起焦企限产30%-50%多为市场传言或口头通知后续反转来了 春风动力不断完善产品矩阵官方处理结果 锂电池隔膜企业共商“反内卷”：价格自律暂停扩产科学释放产能后续反转来了 个人消费贷款贴息方案出炉多家银行火速响应 春风动力不断完善产品矩阵官方处理结果 服务业经营主体贷个人消费贷可享贴息银行迅速响应年贴息比例均为1个百分点官方通报来了 欧洲股市收盘上涨美国通胀数据推高美联储降息预期实垂了 服务业经营主体贷个人消费贷可享贴息银行迅速响应年贴息比例均为1个百分点反转来了 吉宏股份庄浩：一股闯劲两种主业三大法宝 油价周二回落因美中推迟加征关税期限后续来了 欧洲债市：德国30年期国债收益率升至2011年以来最高后续来了 服务业经营主体贷个人消费贷可享贴息银行迅速响应年贴息比例均为1个百分点反转来了 服务业经营主体贷个人消费贷可享贴息银行迅速响应秒懂

感谢本站网友乌蝇哥的左手的线索投递！

本站 3 月 27 日消息，今日凌晨，阿里云发布通义千问 Qwen 模型家族中新一代端到端多模态旗舰模型 ——Qwen2.5-Omni，并在 Hugging Face、ModelScope、DashScope 和 GitHub 上开源。

阿里云表示，该模型专为全方位多模态感知设计，能够无缝处理文本、图像、音频和视频等多种输入形式，并通过实时流式响应同时生成文本与自然语音合成输出。本站汇总其主要特点如下：

全能创新架构：Qwen 团队提出了一种全新的 Thinker-Talker 架构，这是一种端到端的多模态模型，旨在支持文本 / 图像 / 音频 / 视频的跨模态理解，同时以流式方式生成文本和自然语音响应。Qwen 提出了一种新的位置编码技术，称为 TMRoPE（Time-aligned Multimodal RoPE），通过时间轴对齐实现视频与音频输入的精准同步。

实时音视频交互：架构旨在支持完全实时交互，支持分块输入和即时输出。

自然流畅的语音生成：在语音生成的自然性和稳定性方面超越了许多现有的流式和非流式替代方案。

全模态性能优势：在同等规模的单模态模型进行基准测试时，表现出卓越的性能。Qwen2.5-Omni 在音频能力上优于类似大小的 Qwen2-Audio，并与 Qwen2.5-VL-7B 保持同等水平。

卓越的端到端语音指令跟随能力：Qwen2.5-Omni 在端到端语音指令跟随方面表现出与文本输入处理相媲美的效果，在 MMLU 通用知识理解和 GSM8K 数学推理等基准测试中表现优异。

据官方介绍，Qwen2.5-Omni 采用 Thinker-Talker 双核架构。Thinker 模块如同大脑，负责处理文本、音频、视频等多模态输入，生成高层语义表征及对应文本内容；Talker 模块则类似发声器官，以流式方式接收 Thinker 实时输出的语义表征与文本，流畅合成离散语音单元。Thinker 基于 Transformer 解码器架构，融合音频 / 图像编码器进行特征提取；Talker 则采用双轨自回归 Transformer 解码器设计，在训练和推理过程中直接接收来自 Thinker 的高维表征，并共享全部历史上下文信息，形成端到端的统一模型架构。

模型架构图

模型性能方面，Qwen2.5-Omni 在包括图像，音频，音视频等各种模态下的表现都优于类似大小的单模态模型以及封闭源模型，例如 Qwen2.5-VL-7B、Qwen2-Audio 和 Gemini-1.5-pro。

在多模态任务 OmniBench，Qwen2.5-Omni 达到了 SOTA 的表现。此外，在单模态任务中，Qwen2.5-Omni 在多个领域中表现优异，包括语音识别（Common Voice）、翻译（CoVoST2）、音频理解（MMAU）、图像推理（MMMU、MMStar）、视频理解（MVBench）以及语音生成（Seed-tts-eval 和主观自然听感）。

▲模型性能图

Qwen Chat：//chat.qwenlm.ai

Hugging Face：//huggingface.co/Qwen/Qwen2.5-Omni-7B

ModelScope：//modelscope.cn/models/Qwen/Qwen2.5-Omni-7B

DashScope：//help.aliyun.com/zh/model-studio/user-guide/qwen-omni

GitHub：//github.com/QwenLM/Qwen2.5-Omni

Demo 体验：//modelscope.cn/ studios / Qwen / Qwen2.5-Omni-Demo