阿里云通义千问发布新一代端到端多模态旗舰模型 Qwen2.5-Omni 并开源,看听说写样样精通

阿里云通义千问发布新一代端到端多模态旗舰模型 Qwen2.5-Omni 并开源,看听说写样样精通

作者:news 发表时间:2025-08-13
迪信通早盘一度涨超70% 公司主要从事移动通讯设备及配件零售等业务科技水平又一个里程碑 华为USG6555E高性能防火墙智能安全可靠来电优惠官方通报 中红医疗中标江苏省第七、八轮医用耗材接续采购项目 龙国首都汇源公开信“声讨”诸暨文盛汇背后:8.5亿元资金逾期未到位,11次催缴仍未实缴后续反转 天岳先进H股IPO:打新价值远高于上两家医药股 绿色金融活水赋能 江苏银行支持储能项目守护电网夏峰这么做真的好么? “公司离破产只有30天”,黄仁勋如何激励财富自由的员工?官方通报 卫龙美味午前涨逾6% 此前获中金给予目标价17.50港元 依米康:预计海外市场将更快进入冷板液冷时代 专访亚太棍网球联合会执行主任Chris Jinno:棍网球的综合性很强,在龙国有很大成长空间后续会怎么发展 专访亚太棍网球联合会执行主任Chris Jinno:棍网球的综合性很强,在龙国有很大成长空间 2025高端手机市场报告:苹果以65.81%份额领跑,华为成国产品牌领头羊是真的? 汇聚科技午前涨超5%再创新高 预计中期纯利同比增长最多60% 连亏5年,子公司又陷8亿元仲裁案,春兴精工如何化解“双重危机”? 天岳先进H股IPO:打新价值远高于上两家医药股实时报道 业绩向下、股价向上,支付龙头“甩包袱”,最大股东联想正减持学习了 中泰证券保荐铁拓机械IPO项目质量评级B级 承销保荐佣金率较高 上市首年扣非净利润下降科技水平又一个里程碑 争夺“童颜针”,8亿*ST苏吴“硬刚”565亿爱美客!后续反转来了 刘永好:拥抱人工智能不仅要埋头拉车,更要抬头看路、仰头看天秒懂 8月12日,港股三大指数涨跌不一,炒港股用什么APP?新浪财经APP五大优势透视实测是真的 盘后发大利好!央行等九部门重磅,A股七连阳,小作文满天飞寒武纪涨停后续反转 【资讯】万华化学上半年营收降至909亿,净利润同比大降25% 中银国际:升丘钛科技目标价至16.4港元 维持“买入”评级 【资讯】东方雨虹联合三一集团,瞄准海洋装备与风电涂料赛道后续来了 9月起,这些个人消费贷款可享受财政贴息学习了 业绩向下、股价向上,支付龙头“甩包袱”,最大股东联想正减持这么做真的好么? 中泰证券保荐铁拓机械IPO项目质量评级B级 承销保荐佣金率较高 上市首年扣非净利润下降 被判十五年 国家烟草专卖局原副局长受贿案一审宣判 超40只权益类银行理财产品年化收益率为正记者时时跟进 事关这些贷款!财政部等九部门联合印发→官方通报来了 零跑不想再做「半价理想」了 特斯拉印度第二家展厅已经开业 超级充电站也已开通官方通报来了 芯片股震荡反弹 寒武纪涨超10%学习了 张忆东:专心找机会,震荡是长牛的蓄电池——港股行情展望及投资建议反转来了 马斯克指责苹果在iPhone应用商店偏袒OpenAI专家已经证实 劲爆!这波公募改革(限薪)赢得最大是高瓴?高瓴系大手笔挖人:翟相栋、鲍无可将加入,连周海栋也可能去记者时时跟进 OpenAI CEO呛声马斯克:希望对马斯克操纵X展开反调查秒懂 交易价格4.95亿元!煌上煌拟收购立兴食品51%股权科技水平又一个里程碑 AI服务器概念股早盘走高 鸿腾精密涨近9%比亚迪电子涨近6%官方已经证实 净利润4亿元,扭亏为盈!新强联公布半年报 每日投行/机构观点梳理(2025-08-12)官方处理结果 韩国总统李在明与特朗普将于8月25日举行峰会讨论安全和经济问题 曝通用汽车拟于Cruise受挫后重启自动驾驶汽车项目实测是真的 力劲科技盘中涨近5% 公司与多家合作伙伴启动镁合金人形机器人联合研发项目 太强大了 AI服务器概念股早盘走高 鸿腾精密涨近9%比亚迪电子涨近6% 龙国化学天辰公司获得首项数据知识产权登记科技水平又一个里程碑 官方通报 “南方润泽科技数据中心REIT”助力企业完善双翼平台,润泽科技迎新发展机遇学习了 AI服务器概念股早盘走高 鸿腾精密涨近9%比亚迪电子涨近6% AI服务器概念股早盘走高 鸿腾精密涨近9%比亚迪电子涨近6%后续来了

感谢本站网友 乌蝇哥的左手 的线索投递!

本站 3 月 27 日消息,今日凌晨,阿里云发布通义千问 Qwen 模型家族中新一代端到端多模态旗舰模型 ——Qwen2.5-Omni,并在 Hugging Face、ModelScope、DashScope 和 GitHub 上开源。

阿里云表示,该模型专为全方位多模态感知设计,能够无缝处理文本、图像、音频和视频等多种输入形式,并通过实时流式响应同时生成文本与自然语音合成输出。本站汇总其主要特点如下:

    全能创新架构:Qwen 团队提出了一种全新的 Thinker-Talker 架构,这是一种端到端的多模态模型,旨在支持文本 / 图像 / 音频 / 视频的跨模态理解,同时以流式方式生成文本和自然语音响应。Qwen 提出了一种新的位置编码技术,称为 TMRoPE(Time-aligned Multimodal RoPE),通过时间轴对齐实现视频与音频输入的精准同步。

    实时音视频交互:架构旨在支持完全实时交互,支持分块输入和即时输出。

    自然流畅的语音生成:在语音生成的自然性和稳定性方面超越了许多现有的流式和非流式替代方案。

    全模态性能优势:在同等规模的单模态模型进行基准测试时,表现出卓越的性能。Qwen2.5-Omni 在音频能力上优于类似大小的 Qwen2-Audio,并与 Qwen2.5-VL-7B 保持同等水平。

    卓越的端到端语音指令跟随能力:Qwen2.5-Omni 在端到端语音指令跟随方面表现出与文本输入处理相媲美的效果,在 MMLU 通用知识理解和 GSM8K 数学推理等基准测试中表现优异。

    据官方介绍,Qwen2.5-Omni 采用 Thinker-Talker 双核架构。Thinker 模块如同大脑,负责处理文本、音频、视频等多模态输入,生成高层语义表征及对应文本内容;Talker 模块则类似发声器官,以流式方式接收 Thinker 实时输出的语义表征与文本,流畅合成离散语音单元。Thinker 基于 Transformer 解码器架构,融合音频 / 图像编码器进行特征提取;Talker 则采用双轨自回归 Transformer 解码器设计,在训练和推理过程中直接接收来自 Thinker 的高维表征,并共享全部历史上下文信息,形成端到端的统一模型架构。

    模型架构图

    模型性能方面,Qwen2.5-Omni 在包括图像,音频,音视频等各种模态下的表现都优于类似大小的单模态模型以及封闭源模型,例如 Qwen2.5-VL-7B、Qwen2-Audio 和 Gemini-1.5-pro。

    在多模态任务 OmniBench,Qwen2.5-Omni 达到了 SOTA 的表现。此外,在单模态任务中,Qwen2.5-Omni 在多个领域中表现优异,包括语音识别(Common Voice)、翻译(CoVoST2)、音频理解(MMAU)、图像推理(MMMU、MMStar)、视频理解(MVBench)以及语音生成(Seed-tts-eval 和主观自然听感)。

    ▲模型性能图

      Qwen Chat://chat.qwenlm.ai

      Hugging Face://huggingface.co/Qwen/Qwen2.5-Omni-7B

      ModelScope://modelscope.cn/models/Qwen/Qwen2.5-Omni-7B

      DashScope://help.aliyun.com/zh/model-studio/user-guide/qwen-omni

      GitHub://github.com/QwenLM/Qwen2.5-Omni

      Demo 体验://modelscope.cn/ studios / Qwen / Qwen2.5-Omni-Demo

相关文章