NVIDIA Senior Supply Planner (Networking) 面试准备调研
为什么值得花时间读这份报告
这个岗位处在 NVIDIA 增长最快的业务线上。网络产品部(原 Mellanox)的营收从 2021 年的约 30 亿美元增长到 2026 年的 310+ 亿美元,5 年翻了 10 倍。AI 训练需要数千块 GPU 高速通信,网络就是连接它们的"高速公路"。你管的不是消费品配件,而是支撑全球 AI 基础设施的核心硬件。
这份报告会帮你回答面试中最可能遇到的问题:「你了解我们的产品吗?」「你知道这些产品在数据中心里是怎么工作的吗?」「半导体供应链和你在 Amazon 做的有什么不同?」
第一部分:NVIDIA 网络产品全景
1.1 一张图看懂整个产品家族
NVIDIA 网络产品分两层:Scale-Up(机柜内 GPU 互联)和 Scale-Out(机柜之间互联)。
╔══════════════════════════════════════════════════════════════════════════╗
║ NVIDIA 网络产品两层架构 ║
╠══════════════════════════════════════════════════════════════════════════╣
║ ║
║ [SCALE-UP 层] 机柜内部,GPU 之间的"神经系统" ║
║ ┌────────────────────────────────────────────────────────────────┐ ║
║ │ NVLink ─── GPU 之间的直连高速通道,速度极快 │ ║
║ │ NVSwitch ─── 让一个机柜内 72 块 GPU 像一块超级 GPU 一样工作 │ ║
║ └────────────────────────────────────────────────────────────────┘ ║
║ ▲ ║
║ │ 两层同时存在于一个机柜中 ║
║ ▼ ║
║ [SCALE-OUT 层] 机柜之间的"高速公路系统" ◄── 你负责的产品都在这层 ║
║ ┌────────────────────────────────────────────────────────────────┐ ║
║ │ ConnectX 网卡 (Adapter) ─── 服务器的"网络入口" │ ║
║ │ Quantum 交换机 (Switch) ─── InfiniBand 协议,最高性能 │ ║
║ │ Spectrum 交换机 (Switch) ─── Ethernet 协议,开放标准 │ ║
║ │ BlueField DPU ─── 智能网卡,自带处理器 │ ║
║ │ LinkX 线缆 (Interconnect) ── 连接一切的物理线缆和光模块 │ ║
║ └────────────────────────────────────────────────────────────────┘ ║
║ ║
╚══════════════════════════════════════════════════════════════════════════╝
类比:把数据中心想象成一座城市。
- NVLink/NVSwitch 是一栋大楼内的电梯系统(楼内交通,超快)
- ConnectX 是每栋楼的大门(出入口)
- Quantum/Spectrum 交换机是十字路口的交通灯(指挥车流)
- LinkX 线缆是马路本身(物理连接)
1.2 产品详解:ConnectX 网卡(Adapter)
它是什么
一张大约信用卡大小(但更厚)的电路板,插在服务器内部。每台服务器都需要至少一张网卡才能连接网络。
ConnectX-7 网卡物理结构
┌──────────────────────────────────────────────────┐
│ │
│ [散热片] [ASIC 芯片] │
│ ████████ ▓▓▓▓▓▓▓▓ │
│ (铝制散热器) (核心处理芯片) │
│ │
│ ○○○○○○ ○○○○○○ ○○○○○○ ← 被动元件 │
│ (电容) (电阻) (电感) (数百个小零件) │
│ │
│ [内存芯片] │
│ ■■■■ │
│ │
╞══════════════════════════════╡ ← PCIe 金手指 │
│ ▐▐▐▐▐▐▐▐▐▐▐▐▐▐▐▐▐▐▐▐▐▐▐▐ │ (插入服务器主板) │
└──────────┬───────────────────┘
│
┌─────┴─────┐
│ OSFP 端口 │ ← 网线插口(连接到交换机)
│ ███████ │
└───────────┘
当前主力型号
| 型号 | 速度 | 接口 | 配套 GPU 平台 | 地位 |
|---|---|---|---|---|
| ConnectX-7 | 400 Gb/s | PCIe Gen 5 | H100/H200 (Hopper) | 当前出货量最大 |
| ConnectX-8 SuperNIC | 800 Gb/s | PCIe Gen 6 | B200/GB200 (Blackwell) | 新一代,正在爬坡 |
| ConnectX-9 | 800 Gb/s | PCIe Gen 6 | Vera Rubin (下一代) | 2026 年发布 |
它做什么
网卡的核心功能是 RDMA(Remote Direct Memory Access,远程直接内存访问)。简单说就是:GPU A 可以直接读取 GPU B 的内存数据,不需要经过 CPU 中转。这对 AI 训练至关重要,因为数千块 GPU 需要不断交换计算结果。
为什么重要
AI 集群中每台服务器都需要 1-2 张网卡。一个 10,000 GPU 的集群意味着数千张 ConnectX 网卡的订单。这是高出货量、高价值的核心产品。
1.3 产品详解:BlueField DPU(智能网卡)
它是什么
DPU = Data Processing Unit。可以理解为一张"自带大脑的网卡"。普通网卡只管收发数据,BlueField 还自带 ARM 处理器、内存和存储,能独立运行操作系统。
普通网卡 vs BlueField DPU 对比
普通网卡 (ConnectX): BlueField DPU:
┌──────────────────┐ ┌──────────────────────────────┐
│ │ │ │
│ [网络芯片] │ │ [网络芯片] + [ARM CPU] │
│ 只管收发数据 │ │ 收发数据 独立运算 │
│ │ │ │
│ │ │ [16GB 内存] + [128GB SSD] │
│ │ │ 可以运行自己的操作系统 │
│ │ │ │
└──────────────────┘ └──────────────────────────────┘
功能:网络通信 功能:网络通信 + 安全防火墙
+ 存储加速 + 加密
+ 虚拟化管理
当前型号
| 型号 | 速度 | ARM 核心数 | 内存 | 状态 |
|---|---|---|---|---|
| BlueField-3 | 400 Gb/s | 16 核 | 16-32 GB | 当前量产 |
| BlueField-4 | 800 Gb/s | 64 核 | 128 GB | 2026 年上市 |
为什么重要
传统服务器中,CPU 要花 30% 以上的算力处理网络管理、安全加密、存储等"杂活"。BlueField 把这些活全接过来,让 CPU 和 GPU 专心做 AI 计算。主要客户包括 Oracle Cloud、Microsoft Azure 等云服务商。
1.4 产品详解:Quantum InfiniBand 交换机
它是什么
一个机架式的网络设备(外观像一个扁平的大型路由器),负责把多台服务器连接在一起。使用 InfiniBand 协议,这是一种专为高性能计算设计的网络标准,延迟极低。
Quantum 交换机外观(2U 机架式,"披萨盒"造型)
正面(端口面):
┌────────────────────────────────────────────────────────────┐
│ [OSFP][OSFP][OSFP][OSFP]...(共 64-144 个端口) │
│ [OSFP][OSFP][OSFP][OSFP]... │
│ [管理口][Console] │
│ (1G) (RJ45) │
├────────────────────────────────────────────────────────────┤
│ 高 3.5 英寸 (2U) × 宽 17 英寸 × 深 28 英寸 │
│ 约等于一个大号披萨盒的尺寸 │
└────────────────────────────────────────────────────────────┘
背面:
┌────────────────────────────────────────────────────────────┐
│ [电源1] [电源2] [风扇1] [风扇2] [风扇3] [风扇4] │
│ (冗余) (冗余) (可热插拔) │
└────────────────────────────────────────────────────────────┘
当前型号
| 型号 | InfiniBand 代次 | 每端口速度 | 端口数 | 总带宽 | 配套平台 |
|---|---|---|---|---|---|
| Quantum-2 (QM9700) | NDR (第7代) | 400 Gb/s | 64 | 25.6 Tb/s | H100/H200 |
| Quantum-X800 (Q3400) | XDR (第8代) | 800 Gb/s | 144 | 115.2 Tb/s | B200/GB200 |
InfiniBand 速度代次
每一代速度翻倍,记住缩写对应关系:
InfiniBand 代次演进(每代速度翻倍):
SDR ──► DDR ──► QDR ──► FDR ──► EDR ──► HDR ──► NDR ──► XDR
10G 20G 40G 56G 100G 200G 400G 800G
▲ ▲
│ │
当前主力 新一代
(Hopper) (Blackwell)
核心技术:SHARP(网内计算)
Quantum 交换机的独特能力:交换机本身可以做数学运算。AI 训练中 GPU 需要做 AllReduce(所有 GPU 汇总梯度更新),SHARP 让交换机在转发数据的同时完成部分计算,减轻 GPU 负担。Quantum-X800 的 SHARP v4 有 14.4 TFLOPS 的算力。
1.5 产品详解:Spectrum Ethernet 交换机
它是什么
同样是机架式交换机,但使用 Ethernet(以太网)协议。Ethernet 是全球最通用的网络标准(你家的 Wi-Fi 路由器底层就是 Ethernet)。NVIDIA 的 Spectrum-X 平台在标准 Ethernet 基础上针对 AI 做了专门优化。
InfiniBand vs Ethernet:什么时候用哪个
InfiniBand Ethernet
(Quantum 交换机) (Spectrum 交换机)
性能: 最高 略低,但 Spectrum-X 缩小了差距
延迟: ~1 微秒 ~1.5-2.5 微秒
成本: 更贵 (1.5-2.5x) 更便宜
生态: NVIDIA 独家 开放标准,多家供应商
多租户: 有限 原生支持
最适合: 专用 AI 工厂 多租户云服务
市场趋势: 2023 占 AI 后端 80% 2025 占 AI 后端 70%
▼ ▲
份额下降中 份额上升中
关键点:NVIDIA 两边都卖,无论市场往哪边走都受益
当前型号
| 型号 | 速度 | 端口数 | 总带宽 | 特点 |
|---|---|---|---|---|
| SN5600 (Spectrum-4) | 800 GbE | 64 | 51.2 Tb/s | 当前旗舰 |
| Spectrum-6 (规划中) | 下一代 | - | - | 硅光集成 |
Spectrum-X 平台 = SN5600 交换机 + BlueField-3 SuperNIC + LinkX 线缆
这不是单个产品,而是一套组合方案。主要客户包括 Meta、Microsoft、Oracle。
1.6 产品详解:LinkX 线缆与光模块(Interconnect)
它是什么
连接网卡和交换机之间的物理线缆。每个交换机端口、每张网卡的网口都需要一根线缆。这是一个高出货量的消耗品业务:一台 144 端口的交换机就需要 144 根线缆,一个 10,000 GPU 的集群可能需要 50,000+ 根线缆。
线缆类型一览
线缆类型对比:
DAC(铜缆直连)
┌──────┐ ════════════════════ ┌──────┐
│ OSFP │ ~~~~ 铜线 ~~~~ 3米内 │ OSFP │
└──────┘ └──────┘
特点:最便宜($20-50),零功耗,只能短距离
用途:同机柜内,服务器到顶部交换机
AOC(有源光缆)
┌──────┐ ──────────────────── ┌──────┐
│ OSFP │ ≈≈≈ 光纤 ≈≈≈ 100米 │ OSFP │
└──────┘ (内嵌收发器) └──────┘
特点:中等价格,光纤一体式,收发器不可拆
用途:跨机柜连接
可插拔光模块 + 光纤
┌──────┐ ┌─────┐ ═══════════ ┌─────┐ ┌──────┐
│交换机│◄──│光模块│≈≈ 光纤 ≈≈ │光模块│──►│交换机│
└──────┘ └─────┘ 可达 10km └─────┘ └──────┘
特点:最灵活也最贵,光模块可单独更换
用途:长距离连接,跨楼宇/跨数据中心
连接器类型(供应计划关键:不同连接器不兼容!)
连接器对比(物理尺寸,按实际比例):
SFP28 [██] ← 最小,25G,管理接口用
QSFP56 [████] ← 4 通道,200G,上一代
QSFP112 [████] ← 4 通道,400G,当前主力
OSFP [█████] ← 8 通道,800G,新一代
▲
│
注意:QSFP112 和 OSFP 物理上不兼容!
订错线缆 = 端口无法使用。这是供应计划中的
关键兼容性约束。
代际对应关系(供应计划必知)
GPU 平台 网卡 交换机 线缆连接器
───────── ──── ────── ──────────
H100/H200 → ConnectX-7 → Quantum-2(NDR) → QSFP112 (400G)
(Hopper)
B200/GB200 → ConnectX-8 → Quantum-X800 → OSFP (800G)
(Blackwell) (XDR)
Vera Rubin → ConnectX-9 → 下一代 → OSFP (800G+)
(2026-2027)
两代产品共存,不能混用线缆!
1.7 产品详解:NVLink 和 NVSwitch(Scale-Up 互联)
虽然这些产品不在 JD 列出的范围内(你负责的是 Scale-Out 层),但理解它们有助于面试中展示全局视野。
它们是什么
NVLink 是 NVIDIA 自有的 GPU 间直连通道,速度远超 InfiniBand。NVSwitch 是让多块 GPU 全互联的交换芯片。
速度对比(直观感受):
PCIe Gen 5: ██ 128 GB/s
InfiniBand NDR: ████ 50 GB/s
NVLink 5: ██████████████████████████████ 1,800 GB/s
▲
NVLink 比 InfiniBand 快 36 倍
GB200 NVL72 参考架构
这是 NVIDIA 最新的旗舰系统,一个机柜就是一台"超级计算机":
GB200 NVL72 单机柜架构
┌══════════════════════════════════════════════════════════════┐
│ 一个机柜 = 一台超级 GPU │
│ │
│ ┌─────────────────────────────────────────────────────┐ │
│ │ 18 个计算托盘 (Compute Tray) │ │
│ │ 每个托盘 = 2 块 B200 GPU + 1 块 Grace CPU │ │
│ │ 总计:72 块 GPU + 36 块 CPU │ │
│ │ │ │
│ │ 每个托盘还装有 ConnectX-7/8 网卡 │ │
│ │ (用于连接外部网络,即你负责的产品) │ │
│ └─────────────────────────────────────────────────────┘ │
│ ↕ NVLink(机柜内互联,130 TB/s) │
│ ┌─────────────────────────────────────────────────────┐ │
│ │ 9 个 NVLink Switch 托盘 │ │
│ │ 让 72 块 GPU 像一块巨型 GPU 一样工作 │ │
│ └─────────────────────────────────────────────────────┘ │
│ │
│ 性能:1.4 ExaFLOPS AI 算力 │
│ 内存:30 TB 统一 GPU 内存 │
│ NVLink 总带宽:130 TB/s │
│ │
└══════════════════════════════════════════════════════════════┘
│
│ ConnectX-8 网卡 + LinkX 线缆(你负责的产品)
▼
[外部网络:Quantum-X800 或 Spectrum-X 交换机]
第二部分:数据中心网络如何组装
2.1 从服务器到网络的完整路径
数据在两台服务器之间的传输路径:
服务器 A 服务器 B
┌────────────┐ ┌────────────┐
│ [GPU][GPU] │ │ [GPU][GPU] │
│ │ │ │ │ │
│ [ConnectX] │ ← PCIe 插槽 │ [ConnectX] │
│ │ │ (网卡插在服务器主板上) │ │ │
└─────┼──────┘ └──────┼─────┘
│ │
│ LinkX DAC/AOC 线缆 │
│ (铜缆 ≤3 米 或 光缆 ≤100 米) │
▼ ▼
┌─────────────┐ LinkX 线缆 ┌─────────────┐
│ Leaf 交换机 │ ◄──────────────────────────► │ Leaf 交换机 │
│ (机柜顶部) │ (400G/800G) │ (机柜顶部) │
└──────┬──────┘ └──────┬──────┘
│ │
│ LinkX 线缆 (高速上行链路) │
▼ ▼
┌─────────────────────────────────────────────────────────┐
│ Spine 交换机 │
│ (数据中心的"骨干"交换机) │
│ Quantum-X800 (InfiniBand) 或 │
│ Spectrum SN5600 (Ethernet) │
└─────────────────────────────────────────────────────────┘
2.2 Spine-Leaf(脊叶)网络架构
这是现代数据中心的标准网络拓扑。面试中可能会被问到。
传统三层架构 vs 现代 Spine-Leaf 架构
传统(已过时): 现代(当前标准):
[核心] [Spine 1] [Spine 2] [Spine 3] [Spine 4]
/ \ │╲ ╲╲ ╱╱│ ╲╲ ╱╱│ ╲╲╱╱ │
[汇聚] [汇聚] │ ╲ ╲╲ ╱╱ │ ╲╲ ╱╱ │ ╱╱╲╲ │
/ \ / \ │ ╲ ╲╲╱╱ │ ╲╳╱ │ ╱╱ ╲╲ │
[接入][接入][接入][接入] │ ╲ ╳╲ │ ╱╲╲ │ ╱╱ ╲╲ │
[Leaf1] [Leaf2] [Leaf3] [Leaf4]
问题:瓶颈多,延迟不一致 │││ │││ │││ │││
服务器 服务器 服务器 服务器
规则:
- 每个 Leaf 连接到每个 Spine(全互联)
- 任意两台服务器之间恰好 2 跳(Leaf → Spine → Leaf)
- 延迟可预测且一致(对 AI 训练至关重要)
- 扩容简单:加 Spine = 加带宽,加 Leaf = 加服务器
2.3 机柜(Rack)基本概念
标准 42U 服务器机柜
┌────────────────────────────────────┐ ← 机柜顶部
│ [Top-of-Rack 交换机] 2U │ (Leaf Switch)
├────────────────────────────────────┤
│ [服务器] 1U │ ← 1U = 1.75 英寸 = 4.45 厘米
│ [服务器] 1U │
│ [服务器] 1U │
│ [服务器] 1U │ 标准机柜 42U 高
│ [服务器] 1U │ 约 6 英尺(1.8 米)
│ ... │
│ (可装 20-40 台 1U 服务器) │
│ │
│ [服务器] 1U │
│ [服务器] 1U │
├────────────────────────────────────┤
│ [配线架] 1U │ ← 线缆管理
│ [PDU 电源分配] │ ← 电源管理
└────────────────────────────────────┘ ← 机柜底部
为什么交换机放顶部?
→ 所有服务器到交换机距离 ≤3 米
→ 可以用最便宜的 DAC 铜缆连接
第三部分:硬件组件深度解析
3.1 PCB(印刷电路板):一切的基础
PCB 截面示意(放大视图):
┌─ 锡焊 (Solder) ← 焊接元件用
│ ┌─ 阻焊层 (Solder Mask) ← 绿色保护层
│ │ ┌─ 铜走线 (Trace) ← 传输电信号的"微型电线"
│ │ │ ┌─ 基板 (FR-4) ← 玻璃纤维+环氧树脂,绝缘体
▼ ▼ ▼ ▼
┌─────────────────────────────────┐
│ ● ════ ● ════ ● ════ ● │ ← 第 1 层铜
├─────────────────────────────────┤
│ ▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒│ ← FR-4 基材
├─────────────────────────────────┤
│ ════════════════════════════════│ ← 第 2 层铜(地线层)
├─────────────────────────────────┤
│ ▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒│ ← FR-4 基材
├─────────────────────────────────┤
│ ════ ● ════ ● ════ ● ═══│ ← 第 3 层铜(信号层)
├─────────────────────────────────┤
│ ... 重复 ... │
│ 网卡 PCB 一般 8-14 层 │
│ 交换机 PCB 一般 16-32 层 │
└─────────────────────────────────┘
材料:
- FR-4 基材 = 玻璃纤维布 + 环氧树脂(像复合材料)
- 铜层 = 超薄铜箔,被蚀刻成精密线路
- 阻焊层 = 绿色/黑色涂层,防止短路
供应计划相关:PCB 是定制件,每款产品都不同。交货期 6-16 周。层数越多、精度要求越高的 PCB,能做的工厂越少。
3.2 ASIC(专用集成电路):产品的核心芯片
从沙子到芯片的旅程:
硅砂 ──► 提纯 ──► 硅锭 ──► 切割 ──► 硅晶圆 ──► 光刻+蚀刻 ──► 晶圆上的 Die
(300mm 圆盘) (500-1000 步) (数百个芯片)
┌────────────────────────────────────────────────────────┐
│ │
│ 一片 300mm 晶圆上的 Die 分布 │
│ │
│ ╭────────╮ │
│ ╭───┤ ■ ■ ■ ■├───╮ │
│ ╭─┤ ■ │ ■ ■ ■ ■│ ■ ├─╮ ■ = 一个 Die │
│ │■ │ ■ │ ■ ■ ■ ■│ ■ │■│ (一块芯片) │
│ │■ │ ■ │ ■ ■ ■ ■│ ■ │■│ │
│ ╰─┤ ■ │ ■ ■ ■ ■│ ■ ├─╯ 良率 90% = 10% 废品 │
│ ╰───┤ ■ ■ ■ ■├───╯ │
│ ╰────────╯ │
│ │
│ 切割(Dicing) ──► 单个 Die ──► 封装(Packaging) │
│ │
│ ┌──┐ ┌──────────────────┐ │
│ │■ │ ──► │ ■ Die │ ← BGA 封装 │
│ └──┘ │ ●●●●●●●●●●●●●●● │ (焊球阵列) │
│ │ ●●●●●●●●●●●●●●● │ 底部有锡球, │
│ │ ●●●●●●●●●●●●●●● │ 焊接到 PCB 上 │
│ └──────────────────┘ │
│ │
└────────────────────────────────────────────────────────┘
供应计划关键知识:
- ASIC 是唯一来源(NVIDIA 设计,只有 TSMC 能制造)
- 交货期 20-52 周(从晶圆投片到封装完成)
- 这是整个产品最大的供应瓶颈:芯片晚了,什么都发不出去
- Bin Sort(分级):同一片晶圆上的芯片性能不完全一致,测试后按性能分级,创建不同的产品型号
3.3 被动元件:数量最多的"小零件"
一张网卡上有数百到数千个被动元件,很多比米粒还小。
被动元件类比:
电容 (Capacitor) ○──│├──○ 电的"蓄水池",稳定电压波动
类比:水管系统的稳压罐
电阻 (Resistor) ○──⊘⊘──○ 电的"限流阀",控制电流大小
类比:水龙头的阀门
电感 (Inductor) ○──⌇⌇──○ 电的"滤波器",消除噪音
类比:净水器
铁氧体磁珠 ○──●──○ 高频噪音过滤
(Ferrite Bead) 类比:隔音耳塞
供应计划相关:被动元件是大宗商品,单价极低($0.002 一个电容),但品种极多(一块板可能用 50 种不同规格的电容)。2021-2022 年供应危机期间,一个 $0.002 的电容缺货就能让整条生产线停工。
3.4 光模块(Transceiver)内部结构
OSFP 光模块内部(拇指大小的模块):
┌──────────────────────────────────────────┐
│ │
│ [激光二极管] → 电信号转为光脉冲 │
│ (VCSEL/EML) (像超微型手电筒) │
│ │
│ [光电检测器] ← 接收端,光转回电信号 │
│ (PIN Diode) (像微型太阳能板) │
│ │
│ [DSP 芯片] ← 数字信号处理,清理信号 │
│ │
│ [微型透镜] ← 把光精确对准光纤芯 │
│ 光纤芯只有 9 微米 │
│ (头发丝的 1/8) │
│ │
│ [微型 PCB] ← 所有元件的载体 │
│ 约 1cm × 5cm │
│ │
└──────────────────────────────────────────┘
│
▼
插入交换机或网卡的 OSFP 端口
供应计划相关:
- 光模块是高出货量、高价值消耗品,单个数据中心部署可能需要 10,000-100,000 个
- 内部的激光二极管和 DSP 芯片都有自己的供应链瓶颈
- 光学对准是良率限制步骤:激光必须对准只有 9 微米的光纤芯,偏差几微米就会失败
- 交货期 12-26 周
3.5 制造流程概览
网络产品制造全流程:
阶段 1:晶圆制造 (TSMC) 12-26 周
┌─────────────────────────────────────────────────┐
│ 硅晶圆 → 光刻 → 蚀刻 → 离子注入 → 沉积 → ... │
│ (500-1000 个加工步骤) │
│ 产出:刻好电路的晶圆 │
└───────────────────────────────┬─────────────────┘
▼
阶段 2:封装 (ASE/Amkor) 4-8 周
┌─────────────────────────────────────────────────┐
│ 切割晶圆 → 单个 Die → 贴基板 → BGA 焊球 │
│ 产出:封装好的芯片(可以焊到 PCB 上) │
└───────────────────────────────┬─────────────────┘
▼
阶段 3:PCB 制造 (TTM/Tripod) ←── 与阶段 1-2 并行 6-12 周
┌─────────────────────────────────────────────────┐
│ 层压 → 蚀刻 → 钻孔 → 镀铜 → 阻焊 → 测试 │
│ 产出:裸 PCB │
└───────────────────────────────┬─────────────────┘
▼
阶段 4:SMT 组装 (Foxconn/Flex/Celestica) 2-4 周
┌─────────────────────────────────────────────────┐
│ 锡膏印刷 → 贴片机放元件 → 回流焊接 → 检测 │
│ │
│ 具体步骤: │
│ 1. 钢网印刷:锡膏涂在 PCB 焊盘上 │
│ 2. SPI 检测:3D 相机检查锡膏量 │
│ 3. 贴片 (Pick & Place):机械臂从料盘取元件 │
│ 放到锡膏上,每小时可放 60,000 个元件 │
│ 4. 回流焊:板子过温控烤箱 (220-250°C) │
│ 锡膏融化,形成永久焊点 │
│ 5. AOI 检测:自动光学检查每个焊点 │
│ │
│ 产出:PCBA(组装好的电路板) │
└───────────────────────────────┬─────────────────┘
▼
阶段 5:测试 1-2 周
┌─────────────────────────────────────────────────┐
│ ICT(在线测试)→ 功能测试 → 老化测试 → 系统测试 │
│ │
│ ICT:探针接触测试点,检查短路/断路/元件值 │
│ 功能测试:上电运行,验证全部功能 │
│ 老化测试 (Burn-in):高温高压运行数小时, │
│ 筛选"婴儿期死亡"的不良品 │
│ │
│ 产出:测试合格的成品 │
└───────────────────────────────┬─────────────────┘
▼
阶段 6:发货 1-2 周
┌─────────────────────────────────────────────────┐
│ 标签 → 包装 → 序列号登记 → 发运 │
│ 直发:大客户(AWS/Microsoft/Google/Meta) │
│ 经销:Arrow, Avnet, TD SYNNEX │
└─────────────────────────────────────────────────┘
总周期:晶圆投片到成品发货 = 26-52+ 周
第四部分:供应链关键概念
4.1 NVIDIA 是 Fabless(无晶圆厂)公司
这是最重要的结构性事实:NVIDIA 只负责设计芯片,所有物理制造都外包。
NVIDIA 的角色 vs 制造合作伙伴:
NVIDIA 做什么: 谁来做制造:
┌──────────────────────┐ ┌──────────────────────────────────┐
│ │ │ │
│ 设计芯片 │ │ 晶圆制造:TSMC (台湾/亚利桑那) │
│ 定义 BOM │ │ 封装测试:ASE, Amkor (台湾/马来) │
│ 管理供应链 │ ◄────► │ 基板:Ibiden, Unimicron (台湾/日) │
│ 销售产品 │ │ PCB 组装:Foxconn, Flex, │
│ 提供技术支持 │ │ Celestica, Quanta │
│ │ │ 线缆/光模块:Coherent, Lumentum │
└──────────────────────┘ └──────────────────────────────────┘
你的角色 (Supply Planner):
协调 NVIDIA 内部需求和所有这些外部合作伙伴的产能、物料、排程
4.2 BOM(物料清单)层级结构
网络交换机 BOM 结构示意:
Level 0: Spectrum-X 交换机(成品)
│
├── Level 1: 交换机 PCBA(主板组件)
│ ├── Level 2: Spectrum ASIC(封装芯片) ← 最关键、最长交期
│ │ ├── Level 3: Spectrum Die(裸芯片,来自晶圆)
│ │ └── Level 3: Substrate(基板/中介层)← 第二长交期
│ ├── Level 2: DRAM 内存 × 8
│ ├── Level 2: Flash 存储
│ ├── Level 2: 电源管理 IC × 20+
│ ├── Level 2: 被动元件 × 500+ 种(电容/电阻/电感)
│ └── Level 2: 裸 PCB
│
├── Level 1: 管理板 PCBA(运行操作系统的小板)
├── Level 1: 电源模块 × 2(冗余)
├── Level 1: 风扇模块 × 4-6
├── Level 1: OSFP 端口笼(× 64)
├── Level 1: 机箱外壳(钣金件)
└── Level 1: 线缆、标签、文档
总计:500-2000 个不同料号
4.3 MRP(物料需求计划)在半导体中的运作
MRP 在 Amazon 配件 vs NVIDIA 网络产品:
Amazon 配件:
客户需求 → 查库存 → 差额下 PO → 8-16 周到货 → 入库
简单粗暴,一层 BOM,短交期
NVIDIA 网络产品:
客户需求 (ConnectX 网卡 1000 片)
│
├─ BOM 展开 → PCBA 需求 1000 片
│ ├─ BOM 展开 → ASIC 需求 1000 颗
│ │ ├─ 良率折算 → 需要投片晶圆能产出 1100 颗 Die(良率 90%)
│ │ │ └─ 检查 TSMC 产能分配 → 够不够?不够怎么办?
│ │ └─ Substrate 需求 1100 片 → 交期 20-52 周 → 要提前下单
│ ├─ DRAM 需求 → 交期 8-16 周
│ ├─ 被动元件 500 种 → 每种都要检查库存和交期
│ └─ 裸 PCB 需求 → 交期 6-12 周
│
└─ 生成计划订单 → 核对每层产能 → 确认交期
关键差异:
Amazon 配件 NVIDIA 网络产品
BOM 层级 2-3 层 5-7 层
料号数量 20-100 500-2000
最长交期 8-16 周 52-78 周
良率折算 不需要 每层都要
产能约束 弹性(换 CM) 刚性(TSMC 排不上就排不上)
4.4 SAP/APO 系统:你会用到的工具
SAP ERP + APO 在供应计划中的角色:
┌────────────────────────────────────────────────────────────┐
│ SAP APO(计划引擎) │
│ │
│ ┌──────────┐ ┌──────────┐ ┌──────────┐ ┌──────────┐ │
│ │ 需求计划 │ │ 供应网络 │ │ 排产计划 │ │ 全球可用 │ │
│ │ (DP) │ │ 计划(SNP)│ │ (PP/DS) │ │ 量承诺 │ │
│ │ │ │ │ │ │ │ (gATP) │ │
│ │ 12-18个月│ │ 多层级供 │ │ SMT产线 │ │ 客户订单 │ │
│ │ 需求预测 │ │ 需匹配 │ │ 排程 │ │ 交期确认 │ │
│ └──────────┘ └──────────┘ └──────────┘ └──────────┘ │
│ ▲ │
│ │ 数据交互 │
│ ▼ │
│ ┌──────────────────────────────────────────────────────┐ │
│ │ SAP ERP(主数据+交易记录) │ │
│ │ BOM / 工艺路线 / 供应商信息 / 采购订单 / 生产订单 │ │
│ │ 库存 / 销售订单 / 财务 │ │
│ └──────────────────────────────────────────────────────┘ │
│ │
│ 供应受限时的关键功能:Product Allocation(产品配额) │
│ → 每个客户/区域分配额度 │
│ → 订单只能在配额内确认 │
│ → 供应计划员手动调整配额(你的核心日常工作之一) │
│ │
└────────────────────────────────────────────────────────────┘
4.5 关键供应链指标
| 指标 | 英文 | 含义 | 为什么重要 |
|---|---|---|---|
| 周供应量 | Weeks of Supply (WOS) | 库存 / 周需求 | 太高 = E&O 风险,太低 = 断货 |
| NCNR 负债 | NCNR Liability | 已承诺不可取消订单的金额 | 需求变化时的财务风险敞口 |
| E&O 准备金 | E&O Reserve | 预计库存减值的会计准备 | 直接影响利润表 |
| 预测准确率 | Forecast Accuracy | 实际 vs 预测需求 | 驱动库存和负债决策 |
| 准时交付率 | On-Time Delivery (OTD) | 按承诺日期发货的百分比 | 客户满意度核心指标 |
| 一次通过率 | First-Pass Yield (FPY) | 首次测试通过的百分比 | 影响产能和成本 |
| 库存周转率 | Inventory Turns | 销售成本 / 平均库存 | 运营资本效率 |
第五部分:NVIDIA 网络业务的商业背景
5.1 Mellanox 收购:改变格局的一笔交易
2020 年,NVIDIA 以 69 亿美元收购了以色列公司 Mellanox Technologies。Mellanox 是 InfiniBand 高速网络芯片的领导者,其产品已装在全球 Top10 超算中的 6 台里。
收购逻辑(Jensen Huang 原话):
"当 NVIDIA 把计算加速 10-50 倍时,数据搬运就成了瓶颈。这就是 Amdahl 定律。"
简单说:GPU 再快,如果数据传不过来也是白搭。NVIDIA 需要同时拥有"大脑"(GPU)和"神经系统"(网络)。
5.2 营收增长轨迹
NVIDIA 网络产品营收增长(单位:十亿美元)
FY2021 ▓▓▓ ~$3B
FY2024 ▓▓▓▓▓▓▓▓▓ $8.6B
FY2025 ▓▓▓▓▓▓▓▓▓▓▓▓▓ $13B
FY2026 ▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓ $31B+
FY2027E ▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓ ~$57B
5 年翻了 10 倍。Jensen Huang 在 FY2026 Q4 财报电话会上说:
"NVIDIA 现在是世界上最大的网络公司。"
5.3 竞争格局
NVIDIA 网络产品竞争地图:
产品领域 NVIDIA 地位 主要竞争对手
────────── ────────── ────────────
InfiniBand 垄断 (~90%+ 份额) 无直接竞争者
Quantum 系列 (UEC 联盟是长期威胁)
AI Ethernet 与 Celestica 合计 Broadcom (Tomahawk 芯片)
约 50% 份额 Arista (高性能 Ethernet 交换机)
Spectrum-X 系列 Cisco (Silicon One 芯片)
DPU/SmartNIC 市场领导者 AMD/Pensando (初期)
BlueField 系列 Intel (IPU 项目收缩中)
线缆/光模块 市场参与者 Coherent, Lumentum, II-VI
LinkX 系列 (NVIDIA 也是它们的客户)
Ultra Ethernet Consortium (UEC)
2023 年成立的开放标准联盟,100+ 家公司(包括 AMD、Broadcom、Cisco、Intel、Meta、Microsoft,甚至 NVIDIA 自己也加入了),目标是让标准 Ethernet 达到 InfiniBand 的 AI 性能。2025 年 6 月发布了 UEC 1.0 规范。
对供应计划的影响:如果 UEC 成功让 Ethernet 完全替代 InfiniBand,InfiniBand 产品线可能萎缩。但 NVIDIA 两边都卖(Quantum + Spectrum),所以影响可控。
5.4 当前正在管理的产品代际转换
这直接关系到你进去之后的日常工作:
产品代际转换时间线(2024-2026):
2024 2025 2026
├─────────────────┼─────────────────┼──────────
Hopper 时代 ████████████████████░░░░░░░░░░ 逐步退出
(H100/H200) ConnectX-7 + Quantum-2 (NDR, 400G)
Blackwell 时代 ░░░████████████████████████ 全面量产
(B200/GB200) ConnectX-8 + Quantum-X800 (XDR, 800G)
Vera Rubin ░░░░░ 准备中
(下一代) ConnectX-9
████ = 量产出货 ░░░ = 爬坡/准备期
你的挑战:
- 旧产品 (NDR, 400G) 在退坡,需要管理剩余库存和 E&O
- 新产品 (XDR, 800G) 在爬坡,需要保障供应承诺
- 两代产品线缆不兼容 (QSFP112 vs OSFP)
- 供应链 52+ 周的交期意味着:今天的决策影响明年的供应
第六部分:Amazon 经验如何迁移
6.1 五个核心差异
维度对比(Amazon 配件 vs NVIDIA 网络产品):
Amazon 配件 NVIDIA 网络产品
────────── ────────────────
计划周期 8-16 周 52-78 周
▓▓░░░░░░░░░░░░░░ ▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓
单品 BOM 成本 $20-200 $2,000-50,000+
▓░░░░░░░░░░░░░░░ ▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓
BOM 料号数 20-100 500-2,000
▓▓░░░░░░░░░░░░░░ ▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓
产能弹性 高(换 CM 即可) 低(TSMC 产能固定)
▓▓▓▓▓▓▓▓▓▓▓▓░░░░ ▓▓▓░░░░░░░░░░░░░░
预测错误代价 中等(退货/打折) 极高(千万美金级 E&O)
▓▓▓▓▓▓░░░░░░░░░░ ▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓
6.2 面试中如何表述迁移价值
面试官问"你在 Amazon 的经验怎么应用到 NVIDIA?"时,可以这样框架化回答:
可直接迁移的能力:
- 需求感知和预测分析(Demand Sensing)
- 库存优化和周转管理
- 供应商关系管理
- 跨部门协调(Demand Planning、Production、Purchasing)
- 数据驱动的决策能力
- 流程改进和自动化经验
需要额外学习的领域(诚实承认,展示学习意愿):
- 半导体制造周期和良率概念
- 多层 BOM 展开和 MRP 在半导体中的运作
- NCNR 承诺管理和 E&O 风险控制
- SAP APO 产品配额管理(如果之前没用过 SAP APO)
- 代际转换中的供应计划(两代产品并行管理)
核心论点:
"Amazon 的 supply planning 训练了我在需求波动和供应不确定性中做数据驱动决策的能力。NVIDIA 网络产品的挑战在于更长的计划周期(52+ 周 vs 8-16 周)、更高的单品价值、更刚性的产能约束。这意味着预测错误的代价更高,每个承诺决策都需要更谨慎的风险评估。我在 Amazon 建立的分析框架和跨职能协调能力直接适用,而半导体特有的领域知识(良率管理、NCNR、代际转换)是我正在积极学习的方向。"
第七部分:关键术语速查表
产品和技术术语
| 术语 | 英文全称 | 含义 |
|---|---|---|
| ASIC | Application-Specific Integrated Circuit | 专用集成电路,产品核心芯片 |
| PCB | Printed Circuit Board | 印刷电路板,所有元件的载体 |
| PCBA | PCB Assembly | 组装好元件的电路板 |
| PCIe | PCI Express | 服务器内部的标准接口,网卡插在这里 |
| RDMA | Remote Direct Memory Access | GPU 直接读取远程 GPU 内存,不经 CPU |
| InfiniBand (IB) | - | 高性能网络协议,NVIDIA 垄断 |
| Ethernet | - | 通用网络协议,开放标准 |
| RoCE | RDMA over Converged Ethernet | 让 Ethernet 也能做 RDMA |
| NDR | Next Data Rate | InfiniBand 第7代,400 Gb/s |
| XDR | eXtreme Data Rate | InfiniBand 第8代,800 Gb/s |
| NVLink | - | NVIDIA 自有 GPU 间直连通道 |
| NVSwitch | - | NVLink 的交换芯片 |
| DPU | Data Processing Unit | 自带处理器的智能网卡 |
| OSFP | Octal Small Form-factor Pluggable | 8 通道光模块/线缆连接器,800G |
| QSFP | Quad Small Form-factor Pluggable | 4 通道连接器,400G 及以下 |
| DAC | Direct Attach Copper | 铜缆直连,短距离最便宜 |
| AOC | Active Optical Cable | 有源光缆,中距离 |
| SHARP | Scalable Hierarchical Aggregation and Reduction Protocol | 交换机内计算,减轻 GPU 负担 |
| ToR | Top-of-Rack | 机柜顶部交换机 |
| Spine-Leaf | - | 现代数据中心两层网络架构 |
供应链术语
| 术语 | 英文全称 | 含义 |
|---|---|---|
| BOM | Bill of Materials | 物料清单,产品所有零件的清单 |
| MRP | Material Requirements Planning | 物料需求计划,BOM 展开计算 |
| NCNR | Non-Cancellable Non-Returnable | 不可取消不可退货,一旦下单必须买 |
| E&O | Excess and Obsolescence | 过剩和过时库存 |
| ECN | Engineering Change Notice | 工程变更通知 |
| PCN | Product Change Notice | 供应商变更通知 |
| EOL | End of Life | 产品/元件停产 |
| LTB | Last Time Buy | 停产前最后一次采购 |
| NPI | New Product Introduction | 新产品导入 |
| EVT/DVT/PVT | Engineering/Design/Production Validation Test | 产品开发三阶段验证 |
| AVL | Approved Vendor List | 合格供应商清单 |
| SMT | Surface Mount Technology | 表面贴装技术(PCB 组装工艺) |
| ICT | In-Circuit Test | 在线测试(检查焊接质量) |
| Yield | - | 良率,合格品占总产出的百分比 |
| Bin Sort | - | 芯片按性能分级 |
| Die | - | 晶圆上切下来的单个芯片 |
| Wafer | - | 硅晶圆,300mm 圆盘 |
| Substrate | - | 基板/中介层,芯片和 PCB 之间的桥梁 |
| Die Bank | - | 封装好的芯片库存(延迟组装策略) |
| Fab | Fabrication Facility | 晶圆制造工厂 |
| OSAT | Outsourced Semiconductor Assembly and Test | 外包封装测试厂商 |
| CM | Contract Manufacturer | 代工厂 |
| ODM | Original Design Manufacturer | 原始设计制造商 |
| OEM | Original Equipment Manufacturer | 原始设备制造商 |
| WOS | Weeks of Supply | 周供应量(库存健康指标) |
| OTD | On-Time Delivery | 准时交付率 |
| FPY | First-Pass Yield | 一次通过率 |
| gATP | global Available-to-Promise | 全球可用量承诺 |
供应链组件交期速查
交期从短到长排列:
被动元件 (Cap/Res) ▓▓▓▓ 4-8 周
风扇模块 ▓▓▓▓▓▓▓▓ 8-12 周
裸 PCB ▓▓▓▓▓▓▓▓▓▓▓▓ 6-12 周
DRAM 内存 ▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓ 8-16 周
光模块 ▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓ 12-26 周
晶圆 (先进制程) ▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓ 16-26 周
基板 (Substrate) ▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓ 20-52 周
先进封装 (CoWoS) ▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓ 52-78 周
系统总交期 ▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓ 52-78 周
│ │
0 周 78 周
第八部分:面试可能的问题和建议回答框架
Q1: "Tell me about NVIDIA's networking products."
框架:两层架构 → Scale-Up (NVLink) + Scale-Out (你负责的) → 列举产品线 → 强调代际转换
Q2: "How would you manage a supply constraint situation?"
框架:识别瓶颈组件 → 评估影响范围 → 与 Demand Planning 对齐优先级 → 使用 SAP APO Product Allocation 分配 → 沟通客户 → 持续跟踪至恢复
Q3: "How does semiconductor supply planning differ from your Amazon experience?"
框架:五个核心差异(计划周期、BOM 复杂度、成本、产能弹性、代际转换)→ 可迁移能力 → 学习计划
Q4: "How would you reduce excess inventory?"
框架:监控 WOS 指标 → 需求信号验证(客户是否重复下单?)→ 与 BU 对齐需求灵活性 → Die Bank 策略延迟组装 → ECN 影响评估 → Burn-down 计划
Q5: "Describe how you'd create a production schedule."
框架:需求输入 → BOM 展开 → 检查关键物料(ASIC, Substrate, Memory)→ Lot Sizing 考虑 → 产能约束检查(CM 产线、测试设备)→ 优先级排序 → 周度更新
附录:参考来源
- NVIDIA 官方产品文档 (docs.nvidia.com)
- NVIDIA ConnectX-7/8 用户手册和数据表
- NVIDIA Quantum-2/X800 产品规格
- NVIDIA Spectrum-4 SN5600 硬件手册
- NVIDIA FY2025/FY2026 财报电话会议纪要
- NVIDIA GTC 2025 技术发布会
- Dell'Oro Group 2026 年 AI 网络市场份额报告
- Moody's 半导体供应链分析 (2026)
- ServeTheHome QSFP28 拆解分析
- Umbrex IT 硬件与网络 OEM 行业分析
- T1Nexus 1.6T 网络供应链分析
- Ultra Ethernet Consortium (UEC) 1.0 规范 (2025.6)