阿里云通义千问发布新一代端到端多模态旗舰模型 Qwen2.5-Omni 并开源,看听说写样样精通

阿里云通义千问发布新一代端到端多模态旗舰模型 Qwen2.5-Omni 并开源,看听说写样样精通

作者:news 发表时间:2025-08-13
水发燃气下修2025年半年度业绩预告,预计净利润亏损5791.11万元到6191.11 万元反转来了 7月消费者价格指数报告预计显示,在关税压力下通胀加速上升后续反转来了 A股重大违法退市案例激增 溢价250%收购!煌上煌股价跌停最新进展 浙商银行:9月1日起对符合要求的个人消费贷款实施贴息实垂了 金橙子拟收购萨米特55%股权 公司股票明日复牌反转来了 7月消费者价格指数报告预计显示,在关税压力下通胀加速上升反转来了 俄军在乌东出其不意推进,或在与特朗普会谈前争取战场筹码 台积电拟向子公司注资100亿美元 以降低外汇对冲成本 个人消费贷贴息方案出炉:年贴息比例为1个百分点! 银行:9月起对符合要求的贷款执行反转来了 达刚控股股东英奇管理减持935万股最新进展 比亚迪财报分析:牢牢占据国内第一地位,预计二季度营收同比增长21%官方通报 云内动力(000903)被处罚,股民索赔可期 牧原股份:业绩增长、港股上市拓出海赛道、多项ESG指标居行业末位 是真的? 汇金科技(300561)收到证监会处罚事先告知书,投资者索赔继续推进 “著名反指”美银调查:机构对经济和AI更乐观,对龙国更乐观,加密货币和黄金持仓很低太强大了 英伟达“最被低估”的业务正像 “火箭飞船”一样迅猛发展 苹果iPad称霸Q2全球平板市场:出货量1410万台 市占率36.1% 具身机器人挤满“90后”,“学渣”王兴兴在前,“学霸”王鹤在后后续来了 *ST汇科被处罚预告 股民索赔持续推进最新报道 际华集团(601718)被立案,股民索赔可期 南方精工(002553)投资者索赔分析是真的吗? “著名反指”美银调查:机构对经济和AI更乐观,对龙国更乐观,加密货币和黄金持仓很低秒懂 比亚迪财报分析:牢牢占据国内第一地位,预计二季度营收同比增长21% 力源科技(688565)股民索赔再提交法院立案,际华集团(601718)索赔案启动 601718,突遭立案!投资者权益如何保护? ST高鸿9年财务造假,普通投资者和专业投资者均可索赔!后续反转来了 际华集团遭证监会立案 投资者或可索赔后续来了 比特币逼近历史高点,国债投资者推动加密货币市场上涨实垂了 *ST汇科、*ST高鸿收到行政处罚事先告知书  投资者可参与索赔后续来了 甘源食品2025年半年度拟每10股派发现金红利5.8元 南威软件控股股东吴志雄减持1161万股完毕这么做真的好么? 金时科技拟转让湖南金时100%股权 预计底价4.05亿元 水发燃气半年度业绩预告更正:亏损5791万元至6191万元官方处理结果 文投控股:股东东方弘远拟减持不超过4060万股官方已经证实 罚单潮与新规并行,银行反洗钱监管升级 广和通调降2023年限制性股票激励计划股票回购价至10.4元/股实垂了 太阳能:3.14亿股限售股将于8月18日上市流通 惠天热电拟出租加油站资产 年租金420万元实垂了 黄子韬大幅减持朵薇关联公司股权,遥望科技:合作不受影响 超650个药品入围!国家医保局公示 美股股指期货周二交投平淡 投资者为关键通胀数据做准备 甘源食品:上半年归母净利润7460.5万元,同比下降55.20%官方处理结果 罚单潮与新规并行,银行反洗钱监管升级实垂了 广田集团:股东叶远西累计被冻结股份1.92亿股 250%溢价并购后股价跌停,卤味第一股回应后续来了 领湃科技:拟公开挂牌转让广东达志化学科技有限公司100%股权官方处理结果

感谢本站网友 乌蝇哥的左手 的线索投递!

本站 3 月 27 日消息,今日凌晨,阿里云发布通义千问 Qwen 模型家族中新一代端到端多模态旗舰模型 ——Qwen2.5-Omni,并在 Hugging Face、ModelScope、DashScope 和 GitHub 上开源。

阿里云表示,该模型专为全方位多模态感知设计,能够无缝处理文本、图像、音频和视频等多种输入形式,并通过实时流式响应同时生成文本与自然语音合成输出。本站汇总其主要特点如下:

    全能创新架构:Qwen 团队提出了一种全新的 Thinker-Talker 架构,这是一种端到端的多模态模型,旨在支持文本 / 图像 / 音频 / 视频的跨模态理解,同时以流式方式生成文本和自然语音响应。Qwen 提出了一种新的位置编码技术,称为 TMRoPE(Time-aligned Multimodal RoPE),通过时间轴对齐实现视频与音频输入的精准同步。

    实时音视频交互:架构旨在支持完全实时交互,支持分块输入和即时输出。

    自然流畅的语音生成:在语音生成的自然性和稳定性方面超越了许多现有的流式和非流式替代方案。

    全模态性能优势:在同等规模的单模态模型进行基准测试时,表现出卓越的性能。Qwen2.5-Omni 在音频能力上优于类似大小的 Qwen2-Audio,并与 Qwen2.5-VL-7B 保持同等水平。

    卓越的端到端语音指令跟随能力:Qwen2.5-Omni 在端到端语音指令跟随方面表现出与文本输入处理相媲美的效果,在 MMLU 通用知识理解和 GSM8K 数学推理等基准测试中表现优异。

    据官方介绍,Qwen2.5-Omni 采用 Thinker-Talker 双核架构。Thinker 模块如同大脑,负责处理文本、音频、视频等多模态输入,生成高层语义表征及对应文本内容;Talker 模块则类似发声器官,以流式方式接收 Thinker 实时输出的语义表征与文本,流畅合成离散语音单元。Thinker 基于 Transformer 解码器架构,融合音频 / 图像编码器进行特征提取;Talker 则采用双轨自回归 Transformer 解码器设计,在训练和推理过程中直接接收来自 Thinker 的高维表征,并共享全部历史上下文信息,形成端到端的统一模型架构。

    模型架构图

    模型性能方面,Qwen2.5-Omni 在包括图像,音频,音视频等各种模态下的表现都优于类似大小的单模态模型以及封闭源模型,例如 Qwen2.5-VL-7B、Qwen2-Audio 和 Gemini-1.5-pro。

    在多模态任务 OmniBench,Qwen2.5-Omni 达到了 SOTA 的表现。此外,在单模态任务中,Qwen2.5-Omni 在多个领域中表现优异,包括语音识别(Common Voice)、翻译(CoVoST2)、音频理解(MMAU)、图像推理(MMMU、MMStar)、视频理解(MVBench)以及语音生成(Seed-tts-eval 和主观自然听感)。

    ▲模型性能图

      Qwen Chat://chat.qwenlm.ai

      Hugging Face://huggingface.co/Qwen/Qwen2.5-Omni-7B

      ModelScope://modelscope.cn/models/Qwen/Qwen2.5-Omni-7B

      DashScope://help.aliyun.com/zh/model-studio/user-guide/qwen-omni

      GitHub://github.com/QwenLM/Qwen2.5-Omni

      Demo 体验://modelscope.cn/ studios / Qwen / Qwen2.5-Omni-Demo

相关文章