article

训练芯片和推理芯片：AI 算力里两门不同的生意

梳理 AI 训练芯片与推理芯片在任务、架构、产品落点、价格成本和未来机会上的差异。

Published2026-05-13 10:56 UTC

Languagezh-CN

Regionglobal

CategoryEssays

训练芯片和推理芯片：AI 算力里两门不同的生意

讨论 AI 芯片时，最容易混在一起的两个词是“训练”和“推理”。它们都要做大量矩阵计算，都离不开 GPU、TPU、ASIC、HBM 和软件栈，但它们服务的环节并不一样，成本结构也不一样。简单说：训练是在“造模型”，推理是在“用模型”。前者像建一座大型工厂，后者像让这座工厂每天稳定出货。

训练芯片用在哪里

训练发生在模型上线之前，也发生在模型上线后的再训练、微调和对齐阶段。大模型预训练、行业模型微调、扩散模型训练、推荐系统训练、多模态模型训练，都会消耗训练算力。

这一类任务的特点是计算量巨大，而且不是单卡问题。一个前沿模型通常要把成百上千甚至更多加速器连成集群，用数据并行、张量并行、流水线并行等方式跑很长时间。芯片本身要快，芯片之间也要快；显存容量、HBM 带宽、NVLink/InfiniBand/自研互连、集群调度和框架生态，都会一起决定训练效率。

典型产品包括 NVIDIA H100/H200/Blackwell，AMD Instinct MI300X，Google Cloud TPU v5p，以及 AWS Trainium。以公开规格看，NVIDIA H100 面向训练和推理，强调 Transformer Engine、FP8 和高带宽 HBM；H200 把 HBM3e 容量提高到 141GB。AMD MI300X 主打 192GB HBM3 和 5.3TB/s 带宽。Google TPU v5p 文档列出每芯片 95GiB HBM 和 1,200GB/s 双向芯片间互连。AWS Trainium 则是云厂商为降低训练成本而做的自研训练加速器。

推理芯片用在哪里

推理发生在模型已经训练好之后。用户问一句话，系统生成一段文本；手机相册识别图片；汽车根据摄像头和雷达判断车道；摄像头在本地识别人、车、包裹；游戏显卡用神经网络生成帧；这些都是推理。

推理芯片的应用环节更分散，大致可以分成几类。

云端模型服务。Chatbot、代码助手、搜索、推荐、图片生成、语音识别、视频生成，都需要后端推理集群。AWS Inferentia、Google TPU、NVIDIA L4/L40S/H100/H200、Groq LPU、Cerebras 推理服务，都是这一层的代表。
手机和个人设备。Apple Neural Engine、Qualcomm Hexagon NPU、Google Tensor TPU、Intel Core Ultra NPU、AMD Ryzen AI NPU、Snapdragon X Elite NPU，把语音、图像、拍照、翻译、摘要和本地小模型推理放到设备上。
边缘摄像头和工业设备。Hailo-8、Sony IMX500、Ambarella CVflow/CV3、NVIDIA Jetson Orin 等产品，常用于摄像头、NVR、机器人、工厂质检和零售分析，重点是低功耗、低时延和本地处理。
汽车和机器人。NVIDIA DRIVE Thor、Mobileye EyeQ、Qualcomm Snapdragon Ride、地平线 Journey 等芯片面对的是多摄像头、多传感器、连续帧和驾驶场景理解。
帧生成、视频和序列模型。如果把“序列帧芯片”理解为处理 token 序列、视频帧序列或时间序列的推理硬件，那么它既包括 LLM 推理芯片，也包括视频/视觉推理芯片。Groq LPU、Etched Sohu 这类产品更偏 token 序列；Hailo、Ambarella、Mobileye、Jetson、RTX DLSS 帧生成则更偏视频帧和视觉场景。

为什么训练和推理会分化

分化的根本原因不是厂商想人为造概念，而是工作负载不同。

第一，训练需要反向传播，推理不需要。训练要做前向计算、反向传播和优化器更新，还要保存中间激活值，数值稳定性要求更高。推理通常只跑前向计算，问题变成如何用更低成本、更低延迟把结果吐出来。

第二，训练更依赖大显存和高速互连。大模型训练时，权重、梯度、优化器状态和激活值都会占用大量内存。单颗芯片再强，也要通过高带宽互连和集群网络协同。推理也需要内存，尤其是大模型推理要放下权重和 KV cache，但许多视觉、语音和边缘任务对互连的要求远低于训练集群。

第三，精度策略不同。训练通常用 BF16、FP16、FP8 等混合精度，在速度和稳定性之间平衡。推理更容易使用 INT8、FP8、甚至更低位宽的量化，因为模型权重已经确定，工程团队可以围绕准确率、延迟和成本做取舍。

第四，评价指标不同。训练看的是单位时间能推进多少训练量、集群能否稳定跑、同样模型训练一次要花多少钱。推理看的是每 token 成本、首 token 延迟、吞吐、并发、功耗、部署密度和可用性。两者最后都会算钱，但账本不一样。

价格和成本：训练更贵，推理更看运营账

单颗高端训练芯片的公开标价并不透明，NVIDIA 这类厂商通常不公布 H100、H200、B200 的统一零售价。市场上常见的价格，多来自渠道、媒体或整机报价，不适合作为精确事实写死。更可靠的公开参照，是云实例价格和官方财报。

云价格能看出差异。AWS Trn1 训练实例页面列出，trn1.32xlarge 按需价格为 21.50 美元/小时，trn1n.32xlarge 为 24.78 美元/小时；AWS Inf2 推理实例页面列出，inf2.xlarge 为 0.76 美元/小时，inf2.48xlarge 为 12.98 美元/小时。Google Cloud TPU 定价页面显示，TPU v5p 在列示区域的按需价格为每芯片 4.20 美元/小时，TPU v5e 为每芯片 1.20 美元/小时。不同云、区域、预留方式和利用率会改变总账，但训练资源通常以更大的集群、更长的连续时间和更高的系统级成本出现。

训练贵，不只贵在芯片。HBM、先进封装、服务器、液冷、电力、网络、机房、调度、工程人员和失败重跑，都在账上。推理的单次请求便宜得多，但它是长期运营成本：用户越多，请求越多，token 越多，账单越大。对应用公司来说，推理成本会直接进入毛利率。

NVIDIA 2025 财年 10-K 显示，数据中心收入从 2024 财年的 475.25 亿美元增长到 2025 财年的 1,151.86 亿美元。这部分收入同时受训练和推理需求驱动。IDC 在 2025 年发布的预测称，全球 AI 基础设施支出到 2028 年将超过 2,000 亿美元。无论训练还是推理，算力需求都还没有进入收缩周期。

哪个更有未来

如果问利润厚度和战略稀缺性，训练芯片仍然很强。前沿模型训练需要顶级制程、HBM、封装、网络和软件生态，进入门槛极高。少数大客户愿意为训练集群付很高的价格，因为模型能力本身就是竞争壁垒。

但如果问长期用量和市场广度，推理芯片更可能成为更大的日常生意。模型训练一次，可以服务很久；真正每天发生的是搜索、对话、推荐、办公、代码、视频、驾驶和机器人推理。AI 从实验室走向产品，算力开销会从“训练模型”逐渐转向“服务用户”。这也是为什么云厂商做 Inferentia、Trainium、TPU，手机厂商强调 NPU，汽车和摄像头厂商强调本地 AI。

更准确的判断是：训练芯片决定上限，推理芯片决定普及。训练芯片会继续服务少数高资本开支玩家；推理芯片会进入云、手机、PC、汽车、摄像头、机器人和消费显卡。未来不是二选一，而是两条曲线一起涨，只是商业逻辑不同。训练看谁能把最大模型训练出来，推理看谁能以最低成本、最低延迟、最高稳定性把模型跑给最多人用。

参考资料

NVIDIA H100: https://www.nvidia.com/en-us/data-center/h100/
NVIDIA H200: https://www.nvidia.com/en-us/data-center/h200/
NVIDIA L4: https://www.nvidia.com/en-us/data-center/l4/
AMD Instinct MI300X: https://www.amd.com/en/products/accelerators/instinct/mi300/mi300x.html
AWS Trainium: https://aws.amazon.com/ai/machine-learning/trainium/
AWS Inferentia: https://aws.amazon.com/ai/machine-learning/inferentia/
AWS Trn1 pricing and instances: https://aws.amazon.com/ec2/instance-types/trn1/
AWS Inf2 pricing and instances: https://aws.amazon.com/ec2/instance-types/inf2/
Google Cloud TPU v5p: https://docs.cloud.google.com/tpu/docs/v5p
Google Cloud TPU v5e: https://docs.cloud.google.com/tpu/docs/v5e
Google Cloud TPU pricing: https://cloud.google.com/tpu/pricing
Hailo-8: https://www.hailo.ai/products/ai-accelerators/hailo-8-ai-accelerator/
NVIDIA FY2025 Form 10-K: https://www.sec.gov/Archives/edgar/data/1045810/000104581025000023/nvda-20250126.htm
IDC AI infrastructure forecast: https://my.idc.com/getdoc.jsp?containerId=prUS52758624

More from WayDigital

Continue through other published articles from the same publisher.

上一篇Training Chips and Inference Chips: Two Different Businesses Inside AI Compute2026-05-13 10:56 UTC 下一篇Trump’s China visit is not just about one deal2026-05-13 05:25 UTC

训练芯片和推理芯片：AI 算力里两门不同的生意

训练芯片和推理芯片：AI 算力里两门不同的生意

训练芯片用在哪里

推理芯片用在哪里

为什么训练和推理会分化

价格和成本：训练更贵，推理更看运营账

哪个更有未来

参考资料

More from WayDigital

Comments