给供应链人讲 NVIDIA 网络硬件:从 PCB 到 Senior Supply Planner
开场
今天聊一个很具体的话题。NVIDIA 最近在招一个 Senior Supply Planner,负责网络产品线。如果你做供应链,但对电脑硬件完全不了解,这期内容帮你从零搭建认知。我会把 NVIDIA 的产品拆到物理层面,讲清楚 PCB 是什么、PCBA 是什么、生产线上发生了什么、这个岗位的人每天在排什么产。
NVIDIA 卖的不只是显卡
大多数人听到 NVIDIA,第一反应是显卡,就是打游戏用的那个东西。这没错,但只是一小部分。NVIDIA 现在最大的业务是给数据中心卖计算设备。训练 ChatGPT 这种大模型,需要几千块 GPU 同时运算。GPU 你可以理解为一种特别擅长做大量并行计算的处理器。
但几千块 GPU 光有算力不够,它们之间要高速传数据。你可以想象一个超大的仓库,里面有几千个工人同时在处理包裹。如果传送带跟不上,再多工人也是白搭。NVIDIA 的网络产品,就是这条传送带。
这个岗位负责的,就是「传送带」这条产品线的供应计划。
三样具体产品
JD 里写了三类产品。继续用传送带的比喻来理解。
第一类叫 Adapter,网络适配器。 每台服务器上都要插一块网卡,让 GPU 能接入网络。就像仓库里每个工位上装了一个传送带接口,没有这个接口,工人处理完的包裹就送不出去。NVIDIA 最有名的适配器叫 ConnectX 系列。实物就是一张比手掌稍大的卡,插在服务器的扩展槽里。
第二类叫 Switch,交换机。 几十台服务器的网卡都连到交换机上,交换机负责把数据包转发到正确的目的地。就像仓库里的分拣中心,包裹从各个工位汇集到这里,再分流到该去的地方。NVIDIA 做两种交换机:InfiniBand 交换机叫 Quantum 系列,以太网交换机叫 Spectrum 系列。实物是一个标准机柜宽度的金属盒子,前面密密麻麻排着几十个光纤接口。
第三类叫 Interconnect,互联模块。 这是最底层的连接。NVLink 和 NVSwitch 直接把 GPU 和 GPU 连起来,速度比普通网络快很多倍。如果说网卡和交换机是仓库的普通传送带,Interconnect 就是两个相邻工位之间的直通快速通道,包裹不用绕去分拣中心,直接递过去。
这些产品装在哪:数据中心长什么样
讲了三样产品,你可能会想:这些东西最终装在哪里?答案是数据中心。
数据中心你可以理解为一个巨大的仓库,但里面摆的不是货架,而是一排一排的机柜。机柜就是标准化的金属架子,大约两米高、半米多宽,前后都有门。每个机柜里从上到下塞满了服务器,一个机柜能装十几台到几十台服务器。一个大型 AI 数据中心可能有几千个这样的机柜,排列成整齐的行列,中间留出冷热通道用于散热。
现在把我们刚才讲的三样产品放进去。
网卡(Adapter)装在服务器里面。 每台服务器的主板上有若干个扩展插槽,网卡就插在其中一个槽里。一台 AI 训练用的服务器通常装 8 块 GPU,可能配 2 到 4 张高速网卡。所以一个机柜里可能就有几十张网卡。
交换机装在机柜的顶部或者单独的网络机柜里。 一个机柜顶上通常放一两台交换机,叫 Top-of-Rack switch,负责把这个机柜里所有服务器的网卡连起来。再往上一层,还有汇聚层交换机和核心层交换机,把不同机柜、不同机房连成一个整体网络。层级越高,交换机越大、端口越多、价格越贵。
互联模块(NVLink/NVSwitch)藏在服务器内部或者专用的底板上。 它们直接连接同一台服务器里的多块 GPU,或者通过 NVSwitch tray 连接相邻服务器的 GPU。这一层对外不可见,但传输速度是最快的。
用仓库的比喻做个总结:数据中心是仓库本身,机柜是货架区,服务器是工位,GPU 是工人,网卡是每个工位的传送带接口,交换机是分拣中心,互联模块是相邻工位之间的直通通道。这个 Supply Planner 负责的就是传送带接口、分拣中心和直通通道这三样东西的供应计划。
产品的物理本质:PCB 和 PCBA
到了最关键的部分。不管是网卡、交换机还是互联模块,从制造角度看,它们本质上都是同一种东西,就是一块 PCBA。
PCB 是什么
PCB 全称 Printed Circuit Board,中文叫印制电路板,或者简单说就是电路板。你拆开过任何电子设备都见过它,就是那块绿色的硬板子,有时候是黑色或蓝色,上面布满了密密麻麻的线路。
PCB 本身不是成品。它只是一个载体,一个底座。你可以理解为一栋房子的钢筋混凝土框架。框架本身不能住人,但所有的设备、管线、装修都要装在这个框架上。
PCB 的功能很单一:在板子内部用铜走线把不同的位置连起来,让后面焊上去的元器件之间能通电、能传信号。高端 PCB 不是简简单单一层板,而是十几层甚至几十层铜走线压合在一起,工艺精度很高。PCB 由专门的 PCB 工厂制造,比如台湾的欣兴 Unimicron、美国的 TTM Technologies。
从 PCB 到 PCBA:真正的产品
PCB 裸板做好之后,送到代工厂。JD 里说的 contract manufacturer 就是这些代工厂,比如 Foxconn、Flex。代工厂做的事情是把各种元器件焊接到 PCB 上。
这个焊接过程用的核心技术叫 SMT,Surface Mount Technology,表面贴装技术。产线大致是这样运作的:
第一步,在 PCB 上印一层锡膏。锡膏就是焊料,是一种含有微小锡粒的糊状物,通过钢网精确地印在每个焊盘的位置上。
第二步,高速贴片机工作。这台机器用吸嘴把元器件从料盘上吸起来,以极高的速度精确放到 PCB 上对应的锡膏位置。一块板子上可能有几百到上千个元器件,从小到 0.4 毫米的电容电阻,大到指甲盖大小的芯片,全部由贴片机自动完成。
第三步,整块板子送进回流焊炉。炉子按照精确的温度曲线加热,最高温度大约 250 度。锡膏融化,元器件就牢牢焊上去了。冷却后焊点凝固,形成可靠的电气连接。
第四步,对于大型连接器这种不适合贴片的零件,还有一道插件焊接工序,有些是手工操作,有些用波峰焊设备。
第五步,电气测试。用 ICT(在线测试)和 FCT(功能测试)确认每个焊点都导通,整块板子功能正常。
焊接完成、测试通过的板子,就叫 PCBA。Printed Circuit Board Assembly。PCBA 最后那个 A 就是 Assembly,组装完成的意思。
拿回 NVIDIA 的例子。一张 ConnectX 网卡就是一块 PCBA,上面焊着一颗主控 ASIC 芯片、几颗内存颗粒、供电电路、大量的电容电阻,加上 PCIe 金手指和网口连接器。一台 Quantum 交换机打开机箱,里面有好几块 PCBA:主板、线卡、电源板,各司其职。
所以从供应链视角看,这个岗位管的就是 PCBA 级别的生产计划。
这个岗位每天在做什么
理解了产品的物理形态,再回来看 JD 就清楚多了。我翻译成供应链的语言。
一,制定供应分配策略
JD 里叫 supply dedication。就是在有限的产能和物料下,决定每个 SKU 分配多少产能。需求超过供应的时候你要和业务部门一起决定,先做哪个产品、先供哪个客户。在 NVIDIA,需求超过供应不是偶发状况,是常态。
二,给代工厂排生产计划
JD 里叫 production schedule,特别提到了 lot-sizing。就是给全球的代工厂下工单。要考虑经济批量,太小一批单位成本高,太大一批占用产能和库存。要考虑物料齐套性,PCB 裸板到了但某个关键 IC 还在海上漂着,整条 SMT 线就开不了。还要考虑各个工厂的产线排期和产能限制。用的系统通常是 SAP APO,做供应链的应该都很熟悉。
三,管控 excess 和 liability
JD 里特别强调了这一点。半导体元器件很多是 NCNR 的,Non-Cancellable Non-Returnable,下了订单不能取消不能退货。如果需求突然下降,已经订的物料就变成了 excess inventory,公司要承担这笔损失。这个岗位要做的平衡是:多备一点物料可以降低缺料风险,但同时也增加了需求不及预期时的财务敞口。每一笔额外的物料承诺,都要和业务部门确认是否值得冒这个风险。
四,处理供应短缺和分配决策
JD 原文说的是「there will be capacity, materials, and production issues that will prevent satisfying all demand」。现实中这几乎每天都在发生。某个 ASIC 的晶圆厂产能跟不上,某个电容型号全球缺货,某个 CM 的 SMT 产线设备故障。这个岗位要做的是:当供应不足以满足所有需求时,提出分配方案,跟各个利益相关方协调,决定谁先拿到货、谁要等。
五,出周报
JD 里叫 weekly supply summary to management。每周汇总:哪些产品的供需状况 on track,哪些有缺口,缺口的根因是什么,行动计划是什么。这是供应链管理里很标准的 S&OP 支撑工作。
六,推动持续改进
JD 最后一段讲 continuous improvement 和 KPI。可能涉及缩短 cycle time、提高 on-time delivery rate、降低 excess 比例。这些 KPI 和你在其他行业做供应链管理时看到的指标是完全相通的。
为什么这个岗位现在值得关注
最后聊一个背景。全球各大科技公司都在大规模建设 AI 数据中心,GPU 供不应求的故事大家都听过。但很多人忽略了一个事实:网络设备的需求增速可能比 GPU 本身还快。原因很简单,GPU 数量越多,把它们连起来的网络设备就成倍增加。一台服务器装 8 块 GPU,可能需要好几张网卡。1000 台服务器可能需要几十台大型交换机,以及大量互联模块。
这意味着网络产品的供应计划复杂度在急剧上升。物料种类更多,供应商更多,产能瓶颈更多,需求波动更大。对 planner 的能力要求也在提高。
从 PCB 到 PCBA,从网卡到交换机,从物理层面到供应链语言,希望这期内容能帮你快速建立对这个领域的认知框架。下次再聊。