阿里云通义千问发布新一代端到端多模态旗舰模型 Qwen2.5-Omni 并开源，看听说写样样精通

烈日下的金融温度—渤海银行济南青年东路支行上门服务解农民工“薪”忧 华安证券：首次覆盖山东威达给予买入评级 龙国三江化工发盈喜预计中期股东应占纯利逾3亿元同比增加约95%是真的？ 龙国三江化工发盈喜预计中期股东应占纯利逾3亿元同比增加约95% 博实股份：接受东方证券资产管理有限公司调研后续会怎么发展 一分钟出具微体检报告，华为终端商用推出擎云 HAY10 基层健康管理手环是真的吗？ 奕东电子：7月31日召开董事会会议是真的？ 海尔空调靠“强冷”登TOP2，8.7将发最新科技实测是真的 突然爆发！多股20%涨停后续会怎么发展 奕东电子：7月31日召开董事会会议 奕东电子：7月31日召开董事会会议官方通报来了 熊园：四大主线、四大机会官方处理结果 601929一字涨停，超216万手封单！吨级eVTOL首次实现海上物资运输，多只概念股年内股价表现亮眼官方已经证实 A50，突发！ 越南电动汽车制造商VinFast在印度开设首家工厂官方通报来了 601929一字涨停，超216万手封单！吨级eVTOL首次实现海上物资运输，多只概念股年内股价表现亮眼是真的吗？ 新关税将使美国实际关税税率升至17%，全球贸易史上迎来黑暗一天是真的？ 最新！业绩超预期名单，59股上榜后续反转来了 美国或现衰退信号，欧元区却偷偷“回血”，欧元兑美元要变天？ 屋漏偏逢连夜雨！英特尔惨遭惠誉降级已接近“垃圾债”边缘 快讯：焦煤2605合约涨停，报价1233元/吨 招商基金董事长，应该很快要换人了 降价七成！“减肥神药”加拿大专利明年到期，仿制药巨头“虎视眈眈”，计划大幅降价 一艘载有俄罗斯原油的油轮在印度西海岸附近等待 任子行（300311）投资者索赔案再获法院立案，索赔进入倒计时反转来了 印尼第二季度经济增速意外加快关税措施落地前出口商加紧出货官方通报 刘强东3个月6次出手，目标都是具身智能官方通报 交易员：印度国有银行在外汇市场买入卢比学习了 龙国铁塔将于10月31日派发中期股息每股0.1325元 大模型下一个飞跃？OpenAI的“新突破”：通用验证器最新进展 一文了解：特朗普宣布新关税后中东各国企业将面临多少税率最新报道 *ST华嵘公布重大事项前股价涨停，为何总有人提前“嗅”到风声？ 对标国际高标准龙国制度型开放进入新阶段 段红涛出任龙国工商银行党委副书记 流动性持续改善赚钱效应推动机构加速入市记者时时跟进 北海道也不再凉快 40℃高温加剧日本大米通胀 下半年货币政策如何发力稳增长？降准降息均有空间结构性工具聚焦重点专家已经证实 上市公司密集披露业绩预告公募基金沿盈利主线挖掘投资机会最新报道 新突破！10小时变58分钟 7月新基金募资再超千亿权益类基金发行将回暖太强大了 公募收获“盛夏的果实” 基民“信任裂缝”待修复太强大了 我国钻探防漏堵漏技术达国际先进水平 北海道也不再凉快 40℃高温加剧日本大米通胀学习了

感谢本站网友乌蝇哥的左手的线索投递！

本站 3 月 27 日消息，今日凌晨，阿里云发布通义千问 Qwen 模型家族中新一代端到端多模态旗舰模型 ——Qwen2.5-Omni，并在 Hugging Face、ModelScope、DashScope 和 GitHub 上开源。

阿里云表示，该模型专为全方位多模态感知设计，能够无缝处理文本、图像、音频和视频等多种输入形式，并通过实时流式响应同时生成文本与自然语音合成输出。本站汇总其主要特点如下：

全能创新架构：Qwen 团队提出了一种全新的 Thinker-Talker 架构，这是一种端到端的多模态模型，旨在支持文本 / 图像 / 音频 / 视频的跨模态理解，同时以流式方式生成文本和自然语音响应。Qwen 提出了一种新的位置编码技术，称为 TMRoPE（Time-aligned Multimodal RoPE），通过时间轴对齐实现视频与音频输入的精准同步。

实时音视频交互：架构旨在支持完全实时交互，支持分块输入和即时输出。

自然流畅的语音生成：在语音生成的自然性和稳定性方面超越了许多现有的流式和非流式替代方案。

全模态性能优势：在同等规模的单模态模型进行基准测试时，表现出卓越的性能。Qwen2.5-Omni 在音频能力上优于类似大小的 Qwen2-Audio，并与 Qwen2.5-VL-7B 保持同等水平。

卓越的端到端语音指令跟随能力：Qwen2.5-Omni 在端到端语音指令跟随方面表现出与文本输入处理相媲美的效果，在 MMLU 通用知识理解和 GSM8K 数学推理等基准测试中表现优异。

据官方介绍，Qwen2.5-Omni 采用 Thinker-Talker 双核架构。Thinker 模块如同大脑，负责处理文本、音频、视频等多模态输入，生成高层语义表征及对应文本内容；Talker 模块则类似发声器官，以流式方式接收 Thinker 实时输出的语义表征与文本，流畅合成离散语音单元。Thinker 基于 Transformer 解码器架构，融合音频 / 图像编码器进行特征提取；Talker 则采用双轨自回归 Transformer 解码器设计，在训练和推理过程中直接接收来自 Thinker 的高维表征，并共享全部历史上下文信息，形成端到端的统一模型架构。

模型架构图

模型性能方面，Qwen2.5-Omni 在包括图像，音频，音视频等各种模态下的表现都优于类似大小的单模态模型以及封闭源模型，例如 Qwen2.5-VL-7B、Qwen2-Audio 和 Gemini-1.5-pro。

在多模态任务 OmniBench，Qwen2.5-Omni 达到了 SOTA 的表现。此外，在单模态任务中，Qwen2.5-Omni 在多个领域中表现优异，包括语音识别（Common Voice）、翻译（CoVoST2）、音频理解（MMAU）、图像推理（MMMU、MMStar）、视频理解（MVBench）以及语音生成（Seed-tts-eval 和主观自然听感）。

▲模型性能图

Qwen Chat：//chat.qwenlm.ai

Hugging Face：//huggingface.co/Qwen/Qwen2.5-Omni-7B

ModelScope：//modelscope.cn/models/Qwen/Qwen2.5-Omni-7B

DashScope：//help.aliyun.com/zh/model-studio/user-guide/qwen-omni

GitHub：//github.com/QwenLM/Qwen2.5-Omni

Demo 体验：//modelscope.cn/ studios / Qwen / Qwen2.5-Omni-Demo