Nemotron 3.5 ASR 和 Qwen3-ASR:两条完全不同的端侧语音路线
从模型大小、移动端包体、语言覆盖、实时流和准确率看 NVIDIA Nemotron 3.5 ASR 与阿里 Qwen3-ASR/FunASR 的真实产品差异。
Nemotron 3.5 ASR 和 Qwen3-ASR:两条完全不同的端侧语音路线
如果只看名字,NVIDIA 的 Nemotron 3.5 ASR 和阿里的 Qwen3-ASR 很容易被放进同一个盒子里:都是新一代多语言 ASR,都是 0.6B 起步,都说自己能实时流式识别。真落到手机包体、语种、延迟和准确率,差别反而很清楚。
我把这里的“阿里泛 ASR”按最新公开资料理解为 Qwen3-ASR,以及它在 FunASR 生态里的落地路径。原因很简单:FunASR 是阿里/ModelScope 侧的工程框架,Qwen3-ASR 是它最新的通用多语言模型线;如果做产品选型,不能只看一个模型名,要看能不能进 Android、iOS、服务端和实时链路。
先把数字摊开
- NVIDIA Nemotron 3.5 ASR 原始模型600M 参数,NeMo `.nemo` 文件约 2.21 GiB。官方模型卡写明支持 40 个 language-locales,其中 32 个可开箱转写,8 个属于 adaptation-ready,需要面向场景微调。
- Nemotron 3.5 ASR 的移动/轻量版本ONNX INT4 社区转换包约 756 MiB;Android LiteRT INT8 包约 687 MiB;iOS/Apple Silicon CoreML INT8 包约 668 MiB,另一个 CoreML INT8 编译版本约 612 MiB。这些数字不是“APK 增量”的最终值,但基本就是把模型塞进客户端后绕不开的主增量。真正的 App 包还要再加运行时库、解码器、音频前处理和业务代码。
- Qwen3-ASR 原始模型Qwen3-ASR-0.6B 权重约 1.79 GiB;Qwen3-ASR-1.7B 权重约 4.38 GiB。两者支持 30 种语言、22 种中文方言/口音,合计 52 类语言与方言覆盖,并支持离线和流式统一推理。
- Qwen3-ASR 的移动版本公开 LiteRT 0.6B INT8 `.tflite` 文件约 757 MiB;同仓还有多份面向 MediaTek、Qualcomm 芯片的 f32 版本,单个通常约 1.8–2.1 GiB,通用 f32 文件约 2.9 GiB。CoreML 社区包如果只取 encoder_int4、encoder_int8、decoder、embedding 等必要部件,粗略落在 0.9–1.1 GiB 量级;完整仓库因为同时放了多种 encoder 形态,合计更大。MLX 4-bit 0.6B 约 680 MiB,但那更像 Apple Silicon/MLX 路线,不等于直接可上架的 iOS App 包。
- FunASR 经典端侧路线Paraformer-zh 是 220M 参数,PyTorch 权重约 848 MiB;官方 ONNX C++ benchmark 写明原始存储 880MB,INT8 后 237MB。SenseVoiceSmall 是 234M 参数,PyTorch 仓库约 900MB,主权重约 893MB。它们不是 Qwen3-ASR 本体,却是 FunASR 今天更成熟的移动/私有部署选项。
包体这件事,Nemotron 反而更干净
如果目标是“手机本地实时识别”,Nemotron 3.5 ASR 的公开转换件更像一个已经被压到产品边界附近的包:Android LiteRT INT8 约 687MB,CoreML INT8 约 668MB。对大多数消费级 App 来说,这仍然很重,几乎不可能静默塞进首包;但做可选离线包、企业 App、车机、会议硬件、Jetson 或专用设备,已经有讨论空间。
Qwen3-ASR-0.6B 的 Android INT8 约 757MB,表面上只比 Nemotron 大几十 MB。但 Qwen3-ASR 是 LLM-style ASR,真实客户端还要考虑 tokenizer、生成式解码、缓存、可能的芯片专用委托和更高的运行内存。它的 f32 LiteRT 文件多数接近 2GB,1.7B 原始权重超过 4GB,这就不是普通移动 App 的默认首包逻辑了。
如果团队只是要中文输入法、会议转写、客服录音,并且可以接受中文/中英优先,FunASR 的 Paraformer INT8 ONNX 237MB 仍然更像能进客户端的东西。它没有 Qwen3-ASR 的多语言和复杂声学泛化能力,但包体现实很多。
语言覆盖:Qwen3-ASR 更偏“中国业务”,Nemotron 更偏“全球部署”
Nemotron 3.5 ASR 写的是 40 个 language-locales。19 个 transcription-ready,包括英、西、法、意、葡、荷、德、土、俄、阿、印地、日、韩、越、乌等;13 个 broad-coverage;8 个 adaptation-ready。它的结构里有 language-ID prompt,也支持 `target_lang=auto` 自动识别并输出语言标签。
Qwen3-ASR 写的是 30 种语言加 22 个中文方言/口音。这个覆盖很有阿里味:普通话、粤语、吴语、闽南语、四川、山东、河南、东北、天津、安徽等被认真列出来;同时也覆盖英语、日语、韩语、法德西葡、阿拉伯语、印尼语、泰语、越南语、土耳其语、印地语等。对国内 App、短视频字幕、客服、直播、电商、教育、会议来说,中文方言这块比“多几个欧洲小语种”更值钱。
实时流:两边都支持,但不是同一种实时
Nemotron 是原生 streaming ASR。它用 cache-aware FastConformer-RNNT,公开配置支持 80ms、160ms、320ms、560ms、1120ms chunk。这个设计的要点是少做重复计算:每次只处理新音频块,复用 encoder cache。NVIDIA 还给了单 H100 并发流数据:80ms 设置下,Nemotron 约 240 路并发,而 Parakeet RNNT 1.1B multilingual buffered streaming 约 14 路;1120ms 设置下是 2400 路对 400 路。
Qwen3-ASR 也支持流式,官方说明是 streaming / offline unified inference with single model;但当前流式推理只在 vLLM backend 下开放,不支持 batch,也不支持返回 timestamps。它的强项不是“80ms 块级端侧流式”,而是把生成式 ASR、长音频、方言、复杂文本模式和服务端吞吐放在一条线上。
FunASR 传统 runtime 也有 WebSocket 实时服务,Paraformer online 还能做 2-pass:先给实时结果,句尾再用离线高精度模型修正。这个工程路线很朴素,却适合客服、会议字幕和私有化项目。
准确率:英文看 Nemotron 不吃亏,中文和方言看 Qwen3-ASR
Nemotron 的模型卡在 FLEURS 上给了 1.12s chunk、LangID 模式下的几组代表数字:英语 WER 7.91,西班牙语 4.11,法语 9.03,意大利语 4.25,葡萄牙语 5.48,德语 8.31,印地语 6.81,韩语 CER 7.12。它的优势不在单点 SOTA 表格,而在“多语言、真流式、低延迟、高并发”的平衡。
Qwen3-ASR 的公开表格更激进。Qwen3-ASR-1.7B 在 Librispeech clean/other 是 1.63/3.38,GigaSpeech 8.45,CV-en 7.39,Fleurs-en 3.35;中文 WenetSpeech net/meeting 是 4.97/5.88,AISHELL-2-test 是 2.71,SpeechIO 是 2.88,Fleurs-zh 是 2.41。0.6B 版本在离线平均指标上弱一点,但仍然给出 3.48 的公开平均,流式平均 4.40。对中文、粤语和方言任务,Qwen3-ASR-1.7B 的表格明显更漂亮。
但要小心两个坑。第一,Nemotron 与 Qwen3-ASR 的公开表格不是同一个完整评测协议,不能把一个 FLEURS 数字和另一个多数据集平均直接当裁判。第二,Qwen3-ASR-1.7B 的准确率来自更大的模型,包体和算力成本也一起上去了。
实时性:Nemotron 像语音 Agent 的前端,Qwen3-ASR 像更强的转写大脑
Nemotron 适合低延迟语音 Agent、车载语音、实时字幕、多语言客服、边缘 GPU 或 Jetson 场景。它把 chunk、右上下文、语言提示、缓存复用都摆在模型设计里。你要的是“用户边说边出字”,它的路线更直接。
Qwen3-ASR 更像阿里把 Qwen3-Omni 的音频理解能力往 ASR 产品线里压。它会在复杂声学、中文方言、长音频、歌曲/BGM、强文本模式上更有想象力;1.7B 版本适合服务端高质量转写,0.6B 版本适合做速度和准确率折中。它也能流式,但工程重心更偏 vLLM 服务端。
选型建议
- 要 Android/iOS 本地实时、多语言、可接受 600–800MB 离线包:优先看 Nemotron 3.5 ASR 的 LiteRT/CoreML 转换件。
- 要中文、粤语、方言、长音频和服务端最高准确率:优先看 Qwen3-ASR-1.7B。
- 要 0.6B 级别、多语言、服务端/云边混合:Nemotron 0.6B 和 Qwen3-ASR-0.6B 都要实测;Nemotron 更偏低延迟流式,Qwen3-ASR 更偏复杂语音理解。
- 要真正控制 App 首包:别先碰 1.7B;中文场景先看 Paraformer INT8 ONNX 这类 200–300MB 级别的成熟模型包。
- 要商业产品上线:拿自己的音频集测,不要拿模型卡做最终决定。至少覆盖安静办公室、地铁噪声、远场会议、混响、口音、热词、数字、英文夹中文和长静音。
这轮对比的结论不复杂:NVIDIA 做的是一台低延迟、多语言、可规模化并发的实时识别引擎;阿里做的是更懂中文和复杂文本的 ASR 大脑,再用 FunASR 把它接进不同工程链路。手机端要轻,Nemotron 和 Paraformer 更现实;云端要准,Qwen3-ASR-1.7B 的吸引力更大。
参考资料
- NVIDIA Nemotron 3.5 ASR model card, Hugging Face
- Nemotron ONNX INT4, LiteRT INT8 and CoreML INT8 community conversions, Hugging Face
- Qwen3-ASR-0.6B and Qwen3-ASR-1.7B model cards, Hugging Face
- Qwen3-ASR LiteRT and CoreML community conversions, Hugging Face
- FunASR GitHub README, Android runtime README, iOS Paraformer demo README, ONNX C++ benchmark
More from WayDigital
Continue through other published articles from the same publisher.
Comments
0 public responses
All visitors can read comments. Sign in to join the discussion.
Log in to comment