article

Nemotron 3.5 ASR 和 Qwen3-ASR：两条完全不同的端侧语音路线

从模型大小、移动端包体、语言覆盖、实时流和准确率看 NVIDIA Nemotron 3.5 ASR 与阿里 Qwen3-ASR/FunASR 的真实产品差异。

Published2026-06-11 00:07 UTC

Languagezh-CN

Regionglobal

CategoryEssays

Nemotron 3.5 ASR 和 Qwen3-ASR：两条完全不同的端侧语音路线

如果只看名字，NVIDIA 的 Nemotron 3.5 ASR 和阿里的 Qwen3-ASR 很容易被放进同一个盒子里：都是新一代多语言 ASR，都是 0.6B 起步，都说自己能实时流式识别。真落到手机包体、语种、延迟和准确率，差别反而很清楚。

我把这里的“阿里泛 ASR”按最新公开资料理解为 Qwen3-ASR，以及它在 FunASR 生态里的落地路径。原因很简单：FunASR 是阿里/ModelScope 侧的工程框架，Qwen3-ASR 是它最新的通用多语言模型线；如果做产品选型，不能只看一个模型名，要看能不能进 Android、iOS、服务端和实时链路。

先把数字摊开

NVIDIA Nemotron 3.5 ASR 原始模型600M 参数，NeMo `.nemo` 文件约 2.21 GiB。官方模型卡写明支持 40 个 language-locales，其中 32 个可开箱转写，8 个属于 adaptation-ready，需要面向场景微调。
Nemotron 3.5 ASR 的移动/轻量版本ONNX INT4 社区转换包约 756 MiB；Android LiteRT INT8 包约 687 MiB；iOS/Apple Silicon CoreML INT8 包约 668 MiB，另一个 CoreML INT8 编译版本约 612 MiB。这些数字不是“APK 增量”的最终值，但基本就是把模型塞进客户端后绕不开的主增量。真正的 App 包还要再加运行时库、解码器、音频前处理和业务代码。
Qwen3-ASR 原始模型Qwen3-ASR-0.6B 权重约 1.79 GiB；Qwen3-ASR-1.7B 权重约 4.38 GiB。两者支持 30 种语言、22 种中文方言/口音，合计 52 类语言与方言覆盖，并支持离线和流式统一推理。
Qwen3-ASR 的移动版本公开 LiteRT 0.6B INT8 `.tflite` 文件约 757 MiB；同仓还有多份面向 MediaTek、Qualcomm 芯片的 f32 版本，单个通常约 1.8–2.1 GiB，通用 f32 文件约 2.9 GiB。CoreML 社区包如果只取 encoder_int4、encoder_int8、decoder、embedding 等必要部件，粗略落在 0.9–1.1 GiB 量级；完整仓库因为同时放了多种 encoder 形态，合计更大。MLX 4-bit 0.6B 约 680 MiB，但那更像 Apple Silicon/MLX 路线，不等于直接可上架的 iOS App 包。
FunASR 经典端侧路线Paraformer-zh 是 220M 参数，PyTorch 权重约 848 MiB；官方 ONNX C++ benchmark 写明原始存储 880MB，INT8 后 237MB。SenseVoiceSmall 是 234M 参数，PyTorch 仓库约 900MB，主权重约 893MB。它们不是 Qwen3-ASR 本体，却是 FunASR 今天更成熟的移动/私有部署选项。

包体这件事，Nemotron 反而更干净

如果目标是“手机本地实时识别”，Nemotron 3.5 ASR 的公开转换件更像一个已经被压到产品边界附近的包：Android LiteRT INT8 约 687MB，CoreML INT8 约 668MB。对大多数消费级 App 来说，这仍然很重，几乎不可能静默塞进首包；但做可选离线包、企业 App、车机、会议硬件、Jetson 或专用设备，已经有讨论空间。

Qwen3-ASR-0.6B 的 Android INT8 约 757MB，表面上只比 Nemotron 大几十 MB。但 Qwen3-ASR 是 LLM-style ASR，真实客户端还要考虑 tokenizer、生成式解码、缓存、可能的芯片专用委托和更高的运行内存。它的 f32 LiteRT 文件多数接近 2GB，1.7B 原始权重超过 4GB，这就不是普通移动 App 的默认首包逻辑了。

如果团队只是要中文输入法、会议转写、客服录音，并且可以接受中文/中英优先，FunASR 的 Paraformer INT8 ONNX 237MB 仍然更像能进客户端的东西。它没有 Qwen3-ASR 的多语言和复杂声学泛化能力，但包体现实很多。

语言覆盖：Qwen3-ASR 更偏“中国业务”，Nemotron 更偏“全球部署”

Nemotron 3.5 ASR 写的是 40 个 language-locales。19 个 transcription-ready，包括英、西、法、意、葡、荷、德、土、俄、阿、印地、日、韩、越、乌等；13 个 broad-coverage；8 个 adaptation-ready。它的结构里有 language-ID prompt，也支持 `target_lang=auto` 自动识别并输出语言标签。

Qwen3-ASR 写的是 30 种语言加 22 个中文方言/口音。这个覆盖很有阿里味：普通话、粤语、吴语、闽南语、四川、山东、河南、东北、天津、安徽等被认真列出来；同时也覆盖英语、日语、韩语、法德西葡、阿拉伯语、印尼语、泰语、越南语、土耳其语、印地语等。对国内 App、短视频字幕、客服、直播、电商、教育、会议来说，中文方言这块比“多几个欧洲小语种”更值钱。

实时流：两边都支持，但不是同一种实时

Nemotron 是原生 streaming ASR。它用 cache-aware FastConformer-RNNT，公开配置支持 80ms、160ms、320ms、560ms、1120ms chunk。这个设计的要点是少做重复计算：每次只处理新音频块，复用 encoder cache。NVIDIA 还给了单 H100 并发流数据：80ms 设置下，Nemotron 约 240 路并发，而 Parakeet RNNT 1.1B multilingual buffered streaming 约 14 路；1120ms 设置下是 2400 路对 400 路。

Qwen3-ASR 也支持流式，官方说明是 streaming / offline unified inference with single model；但当前流式推理只在 vLLM backend 下开放，不支持 batch，也不支持返回 timestamps。它的强项不是“80ms 块级端侧流式”，而是把生成式 ASR、长音频、方言、复杂文本模式和服务端吞吐放在一条线上。

FunASR 传统 runtime 也有 WebSocket 实时服务，Paraformer online 还能做 2-pass：先给实时结果，句尾再用离线高精度模型修正。这个工程路线很朴素，却适合客服、会议字幕和私有化项目。

准确率：英文看 Nemotron 不吃亏，中文和方言看 Qwen3-ASR

Nemotron 的模型卡在 FLEURS 上给了 1.12s chunk、LangID 模式下的几组代表数字：英语 WER 7.91，西班牙语 4.11，法语 9.03，意大利语 4.25，葡萄牙语 5.48，德语 8.31，印地语 6.81，韩语 CER 7.12。它的优势不在单点 SOTA 表格，而在“多语言、真流式、低延迟、高并发”的平衡。

Qwen3-ASR 的公开表格更激进。Qwen3-ASR-1.7B 在 Librispeech clean/other 是 1.63/3.38，GigaSpeech 8.45，CV-en 7.39，Fleurs-en 3.35；中文 WenetSpeech net/meeting 是 4.97/5.88，AISHELL-2-test 是 2.71，SpeechIO 是 2.88，Fleurs-zh 是 2.41。0.6B 版本在离线平均指标上弱一点，但仍然给出 3.48 的公开平均，流式平均 4.40。对中文、粤语和方言任务，Qwen3-ASR-1.7B 的表格明显更漂亮。

但要小心两个坑。第一，Nemotron 与 Qwen3-ASR 的公开表格不是同一个完整评测协议，不能把一个 FLEURS 数字和另一个多数据集平均直接当裁判。第二，Qwen3-ASR-1.7B 的准确率来自更大的模型，包体和算力成本也一起上去了。

实时性：Nemotron 像语音 Agent 的前端，Qwen3-ASR 像更强的转写大脑

Nemotron 适合低延迟语音 Agent、车载语音、实时字幕、多语言客服、边缘 GPU 或 Jetson 场景。它把 chunk、右上下文、语言提示、缓存复用都摆在模型设计里。你要的是“用户边说边出字”，它的路线更直接。

Qwen3-ASR 更像阿里把 Qwen3-Omni 的音频理解能力往 ASR 产品线里压。它会在复杂声学、中文方言、长音频、歌曲/BGM、强文本模式上更有想象力；1.7B 版本适合服务端高质量转写，0.6B 版本适合做速度和准确率折中。它也能流式，但工程重心更偏 vLLM 服务端。

选型建议

要 Android/iOS 本地实时、多语言、可接受 600–800MB 离线包：优先看 Nemotron 3.5 ASR 的 LiteRT/CoreML 转换件。
要中文、粤语、方言、长音频和服务端最高准确率：优先看 Qwen3-ASR-1.7B。
要 0.6B 级别、多语言、服务端/云边混合：Nemotron 0.6B 和 Qwen3-ASR-0.6B 都要实测；Nemotron 更偏低延迟流式，Qwen3-ASR 更偏复杂语音理解。
要真正控制 App 首包：别先碰 1.7B；中文场景先看 Paraformer INT8 ONNX 这类 200–300MB 级别的成熟模型包。
要商业产品上线：拿自己的音频集测，不要拿模型卡做最终决定。至少覆盖安静办公室、地铁噪声、远场会议、混响、口音、热词、数字、英文夹中文和长静音。

这轮对比的结论不复杂：NVIDIA 做的是一台低延迟、多语言、可规模化并发的实时识别引擎；阿里做的是更懂中文和复杂文本的 ASR 大脑，再用 FunASR 把它接进不同工程链路。手机端要轻，Nemotron 和 Paraformer 更现实；云端要准，Qwen3-ASR-1.7B 的吸引力更大。

参考资料

NVIDIA Nemotron 3.5 ASR model card, Hugging Face
Nemotron ONNX INT4, LiteRT INT8 and CoreML INT8 community conversions, Hugging Face
Qwen3-ASR-0.6B and Qwen3-ASR-1.7B model cards, Hugging Face
Qwen3-ASR LiteRT and CoreML community conversions, Hugging Face
FunASR GitHub README, Android runtime README, iOS Paraformer demo README, ONNX C++ benchmark

Nemotron 3.5 ASR 和 Qwen3-ASR：两条完全不同的端侧语音路线

Nemotron 3.5 ASR 和 Qwen3-ASR：两条完全不同的端侧语音路线

先把数字摊开

包体这件事，Nemotron 反而更干净

语言覆盖：Qwen3-ASR 更偏“中国业务”，Nemotron 更偏“全球部署”

实时流：两边都支持，但不是同一种实时

准确率：英文看 Nemotron 不吃亏，中文和方言看 Qwen3-ASR

实时性：Nemotron 像语音 Agent 的前端，Qwen3-ASR 像更强的转写大脑

选型建议

参考资料

Comments