训练芯片和推理芯片:AI 算力里两门不同的生意
梳理 AI 训练芯片与推理芯片在任务、架构、产品落点、价格成本和未来机会上的差异。
训练芯片和推理芯片:AI 算力里两门不同的生意
讨论 AI 芯片时,最容易混在一起的两个词是“训练”和“推理”。它们都要做大量矩阵计算,都离不开 GPU、TPU、ASIC、HBM 和软件栈,但它们服务的环节并不一样,成本结构也不一样。简单说:训练是在“造模型”,推理是在“用模型”。前者像建一座大型工厂,后者像让这座工厂每天稳定出货。
训练芯片用在哪里
训练发生在模型上线之前,也发生在模型上线后的再训练、微调和对齐阶段。大模型预训练、行业模型微调、扩散模型训练、推荐系统训练、多模态模型训练,都会消耗训练算力。
这一类任务的特点是计算量巨大,而且不是单卡问题。一个前沿模型通常要把成百上千甚至更多加速器连成集群,用数据并行、张量并行、流水线并行等方式跑很长时间。芯片本身要快,芯片之间也要快;显存容量、HBM 带宽、NVLink/InfiniBand/自研互连、集群调度和框架生态,都会一起决定训练效率。
典型产品包括 NVIDIA H100/H200/Blackwell,AMD Instinct MI300X,Google Cloud TPU v5p,以及 AWS Trainium。以公开规格看,NVIDIA H100 面向训练和推理,强调 Transformer Engine、FP8 和高带宽 HBM;H200 把 HBM3e 容量提高到 141GB。AMD MI300X 主打 192GB HBM3 和 5.3TB/s 带宽。Google TPU v5p 文档列出每芯片 95GiB HBM 和 1,200GB/s 双向芯片间互连。AWS Trainium 则是云厂商为降低训练成本而做的自研训练加速器。
推理芯片用在哪里
推理发生在模型已经训练好之后。用户问一句话,系统生成一段文本;手机相册识别图片;汽车根据摄像头和雷达判断车道;摄像头在本地识别人、车、包裹;游戏显卡用神经网络生成帧;这些都是推理。
推理芯片的应用环节更分散,大致可以分成几类。
- 云端模型服务。Chatbot、代码助手、搜索、推荐、图片生成、语音识别、视频生成,都需要后端推理集群。AWS Inferentia、Google TPU、NVIDIA L4/L40S/H100/H200、Groq LPU、Cerebras 推理服务,都是这一层的代表。
- 手机和个人设备。Apple Neural Engine、Qualcomm Hexagon NPU、Google Tensor TPU、Intel Core Ultra NPU、AMD Ryzen AI NPU、Snapdragon X Elite NPU,把语音、图像、拍照、翻译、摘要和本地小模型推理放到设备上。
- 边缘摄像头和工业设备。Hailo-8、Sony IMX500、Ambarella CVflow/CV3、NVIDIA Jetson Orin 等产品,常用于摄像头、NVR、机器人、工厂质检和零售分析,重点是低功耗、低时延和本地处理。
- 汽车和机器人。NVIDIA DRIVE Thor、Mobileye EyeQ、Qualcomm Snapdragon Ride、地平线 Journey 等芯片面对的是多摄像头、多传感器、连续帧和驾驶场景理解。
- 帧生成、视频和序列模型。如果把“序列帧芯片”理解为处理 token 序列、视频帧序列或时间序列的推理硬件,那么它既包括 LLM 推理芯片,也包括视频/视觉推理芯片。Groq LPU、Etched Sohu 这类产品更偏 token 序列;Hailo、Ambarella、Mobileye、Jetson、RTX DLSS 帧生成则更偏视频帧和视觉场景。
为什么训练和推理会分化
分化的根本原因不是厂商想人为造概念,而是工作负载不同。
第一,训练需要反向传播,推理不需要。训练要做前向计算、反向传播和优化器更新,还要保存中间激活值,数值稳定性要求更高。推理通常只跑前向计算,问题变成如何用更低成本、更低延迟把结果吐出来。
第二,训练更依赖大显存和高速互连。大模型训练时,权重、梯度、优化器状态和激活值都会占用大量内存。单颗芯片再强,也要通过高带宽互连和集群网络协同。推理也需要内存,尤其是大模型推理要放下权重和 KV cache,但许多视觉、语音和边缘任务对互连的要求远低于训练集群。
第三,精度策略不同。训练通常用 BF16、FP16、FP8 等混合精度,在速度和稳定性之间平衡。推理更容易使用 INT8、FP8、甚至更低位宽的量化,因为模型权重已经确定,工程团队可以围绕准确率、延迟和成本做取舍。
第四,评价指标不同。训练看的是单位时间能推进多少训练量、集群能否稳定跑、同样模型训练一次要花多少钱。推理看的是每 token 成本、首 token 延迟、吞吐、并发、功耗、部署密度和可用性。两者最后都会算钱,但账本不一样。
价格和成本:训练更贵,推理更看运营账
单颗高端训练芯片的公开标价并不透明,NVIDIA 这类厂商通常不公布 H100、H200、B200 的统一零售价。市场上常见的价格,多来自渠道、媒体或整机报价,不适合作为精确事实写死。更可靠的公开参照,是云实例价格和官方财报。
云价格能看出差异。AWS Trn1 训练实例页面列出,trn1.32xlarge 按需价格为 21.50 美元/小时,trn1n.32xlarge 为 24.78 美元/小时;AWS Inf2 推理实例页面列出,inf2.xlarge 为 0.76 美元/小时,inf2.48xlarge 为 12.98 美元/小时。Google Cloud TPU 定价页面显示,TPU v5p 在列示区域的按需价格为每芯片 4.20 美元/小时,TPU v5e 为每芯片 1.20 美元/小时。不同云、区域、预留方式和利用率会改变总账,但训练资源通常以更大的集群、更长的连续时间和更高的系统级成本出现。
训练贵,不只贵在芯片。HBM、先进封装、服务器、液冷、电力、网络、机房、调度、工程人员和失败重跑,都在账上。推理的单次请求便宜得多,但它是长期运营成本:用户越多,请求越多,token 越多,账单越大。对应用公司来说,推理成本会直接进入毛利率。
NVIDIA 2025 财年 10-K 显示,数据中心收入从 2024 财年的 475.25 亿美元增长到 2025 财年的 1,151.86 亿美元。这部分收入同时受训练和推理需求驱动。IDC 在 2025 年发布的预测称,全球 AI 基础设施支出到 2028 年将超过 2,000 亿美元。无论训练还是推理,算力需求都还没有进入收缩周期。
哪个更有未来
如果问利润厚度和战略稀缺性,训练芯片仍然很强。前沿模型训练需要顶级制程、HBM、封装、网络和软件生态,进入门槛极高。少数大客户愿意为训练集群付很高的价格,因为模型能力本身就是竞争壁垒。
但如果问长期用量和市场广度,推理芯片更可能成为更大的日常生意。模型训练一次,可以服务很久;真正每天发生的是搜索、对话、推荐、办公、代码、视频、驾驶和机器人推理。AI 从实验室走向产品,算力开销会从“训练模型”逐渐转向“服务用户”。这也是为什么云厂商做 Inferentia、Trainium、TPU,手机厂商强调 NPU,汽车和摄像头厂商强调本地 AI。
更准确的判断是:训练芯片决定上限,推理芯片决定普及。训练芯片会继续服务少数高资本开支玩家;推理芯片会进入云、手机、PC、汽车、摄像头、机器人和消费显卡。未来不是二选一,而是两条曲线一起涨,只是商业逻辑不同。训练看谁能把最大模型训练出来,推理看谁能以最低成本、最低延迟、最高稳定性把模型跑给最多人用。
参考资料
- NVIDIA H100: https://www.nvidia.com/en-us/data-center/h100/
- NVIDIA H200: https://www.nvidia.com/en-us/data-center/h200/
- NVIDIA L4: https://www.nvidia.com/en-us/data-center/l4/
- AMD Instinct MI300X: https://www.amd.com/en/products/accelerators/instinct/mi300/mi300x.html
- AWS Trainium: https://aws.amazon.com/ai/machine-learning/trainium/
- AWS Inferentia: https://aws.amazon.com/ai/machine-learning/inferentia/
- AWS Trn1 pricing and instances: https://aws.amazon.com/ec2/instance-types/trn1/
- AWS Inf2 pricing and instances: https://aws.amazon.com/ec2/instance-types/inf2/
- Google Cloud TPU v5p: https://docs.cloud.google.com/tpu/docs/v5p
- Google Cloud TPU v5e: https://docs.cloud.google.com/tpu/docs/v5e
- Google Cloud TPU pricing: https://cloud.google.com/tpu/pricing
- Hailo-8: https://www.hailo.ai/products/ai-accelerators/hailo-8-ai-accelerator/
- NVIDIA FY2025 Form 10-K: https://www.sec.gov/Archives/edgar/data/1045810/000104581025000023/nvda-20250126.htm
- IDC AI infrastructure forecast: https://my.idc.com/getdoc.jsp?containerId=prUS52758624
More from WayDigital
Continue through other published articles from the same publisher.
Comments
0 public responses
All visitors can read comments. Sign in to join the discussion.
Log in to comment