NVIDIA Senior Supply Planner (Networking) 面试准备调研

为什么值得花时间读这份报告

这个岗位处在 NVIDIA 增长最快的业务线上。网络产品部（原 Mellanox）的营收从 2021 年的约 30 亿美元增长到 2026 年的 310+ 亿美元，5 年翻了 10 倍。AI 训练需要数千块 GPU 高速通信，网络就是连接它们的"高速公路"。你管的不是消费品配件，而是支撑全球 AI 基础设施的核心硬件。

这份报告会帮你回答面试中最可能遇到的问题：「你了解我们的产品吗？」「你知道这些产品在数据中心里是怎么工作的吗？」「半导体供应链和你在 Amazon 做的有什么不同？」

第一部分：NVIDIA 网络产品全景

1.1 一张图看懂整个产品家族

NVIDIA 网络产品分两层：Scale-Up（机柜内 GPU 互联）和 Scale-Out（机柜之间互联）。

╔══════════════════════════════════════════════════════════════════════════╗
║                     NVIDIA 网络产品两层架构                              ║
╠══════════════════════════════════════════════════════════════════════════╣
║                                                                        ║
║   [SCALE-UP 层] 机柜内部，GPU 之间的"神经系统"                          ║
║   ┌────────────────────────────────────────────────────────────────┐   ║
║   │  NVLink    ─── GPU 之间的直连高速通道，速度极快                   │   ║
║   │  NVSwitch  ─── 让一个机柜内 72 块 GPU 像一块超级 GPU 一样工作    │   ║
║   └────────────────────────────────────────────────────────────────┘   ║
║                         ▲                                              ║
║                         │  两层同时存在于一个机柜中                      ║
║                         ▼                                              ║
║   [SCALE-OUT 层] 机柜之间的"高速公路系统"      ◄── 你负责的产品都在这层  ║
║   ┌────────────────────────────────────────────────────────────────┐   ║
║   │  ConnectX 网卡 (Adapter)  ─── 服务器的"网络入口"                 │   ║
║   │  Quantum 交换机 (Switch)  ─── InfiniBand 协议，最高性能           │   ║
║   │  Spectrum 交换机 (Switch) ─── Ethernet 协议，开放标准             │   ║
║   │  BlueField DPU            ─── 智能网卡，自带处理器               │   ║
║   │  LinkX 线缆 (Interconnect) ── 连接一切的物理线缆和光模块          │   ║
║   └────────────────────────────────────────────────────────────────┘   ║
║                                                                        ║
╚══════════════════════════════════════════════════════════════════════════╝

类比：把数据中心想象成一座城市。

NVLink/NVSwitch 是一栋大楼内的电梯系统（楼内交通，超快）
ConnectX 是每栋楼的大门（出入口）
Quantum/Spectrum 交换机是十字路口的交通灯（指挥车流）
LinkX 线缆是马路本身（物理连接）

1.2 产品详解：ConnectX 网卡（Adapter）

它是什么

一张大约信用卡大小（但更厚）的电路板，插在服务器内部。每台服务器都需要至少一张网卡才能连接网络。

ConnectX-7 网卡物理结构

     ┌──────────────────────────────────────────────────┐
     │                                                  │
     │   [散热片]        [ASIC 芯片]                     │
     │   ████████        ▓▓▓▓▓▓▓▓                      │
     │   (铝制散热器)     (核心处理芯片)                    │
     │                                                  │
     │   ○○○○○○  ○○○○○○  ○○○○○○    ← 被动元件            │
     │   (电容)   (电阻)   (电感)      (数百个小零件)      │
     │                                                  │
     │   [内存芯片]                                      │
     │   ■■■■                                           │
     │                                                  │
     ╞══════════════════════════════╡  ← PCIe 金手指     │
     │  ▐▐▐▐▐▐▐▐▐▐▐▐▐▐▐▐▐▐▐▐▐▐▐▐  │    (插入服务器主板)  │
     └──────────┬───────────────────┘                    
                │                                        
          ┌─────┴─────┐                                  
          │ OSFP 端口  │  ← 网线插口（连接到交换机）        
          │  ███████  │                                  
          └───────────┘

当前主力型号

型号	速度	接口	配套 GPU 平台	地位
ConnectX-7	400 Gb/s	PCIe Gen 5	H100/H200 (Hopper)	当前出货量最大
ConnectX-8 SuperNIC	800 Gb/s	PCIe Gen 6	B200/GB200 (Blackwell)	新一代，正在爬坡
ConnectX-9	800 Gb/s	PCIe Gen 6	Vera Rubin (下一代)	2026 年发布

它做什么

网卡的核心功能是 RDMA（Remote Direct Memory Access，远程直接内存访问）。简单说就是：GPU A 可以直接读取 GPU B 的内存数据，不需要经过 CPU 中转。这对 AI 训练至关重要，因为数千块 GPU 需要不断交换计算结果。

为什么重要

AI 集群中每台服务器都需要 1-2 张网卡。一个 10,000 GPU 的集群意味着数千张 ConnectX 网卡的订单。这是高出货量、高价值的核心产品。

1.3 产品详解：BlueField DPU（智能网卡）

它是什么

DPU = Data Processing Unit。可以理解为一张"自带大脑的网卡"。普通网卡只管收发数据，BlueField 还自带 ARM 处理器、内存和存储，能独立运行操作系统。

普通网卡 vs BlueField DPU 对比

普通网卡 (ConnectX)：                   BlueField DPU：
┌──────────────────┐                   ┌──────────────────────────────┐
│                  │                   │                              │
│  [网络芯片]       │                   │  [网络芯片]  +  [ARM CPU]     │
│   只管收发数据    │                   │   收发数据       独立运算      │
│                  │                   │                              │
│                  │                   │  [16GB 内存]  +  [128GB SSD] │
│                  │                   │   可以运行自己的操作系统        │
│                  │                   │                              │
└──────────────────┘                   └──────────────────────────────┘
   功能：网络通信                          功能：网络通信 + 安全防火墙
                                              + 存储加速 + 加密
                                              + 虚拟化管理

当前型号

型号	速度	ARM 核心数	内存	状态
BlueField-3	400 Gb/s	16 核	16-32 GB	当前量产
BlueField-4	800 Gb/s	64 核	128 GB	2026 年上市

为什么重要

传统服务器中，CPU 要花 30% 以上的算力处理网络管理、安全加密、存储等"杂活"。BlueField 把这些活全接过来，让 CPU 和 GPU 专心做 AI 计算。主要客户包括 Oracle Cloud、Microsoft Azure 等云服务商。

1.4 产品详解：Quantum InfiniBand 交换机

它是什么

一个机架式的网络设备（外观像一个扁平的大型路由器），负责把多台服务器连接在一起。使用 InfiniBand 协议，这是一种专为高性能计算设计的网络标准，延迟极低。

Quantum 交换机外观（2U 机架式，"披萨盒"造型）

正面（端口面）：
┌────────────────────────────────────────────────────────────┐
│ [OSFP][OSFP][OSFP][OSFP]...(共 64-144 个端口)              │
│ [OSFP][OSFP][OSFP][OSFP]...                                │
│                                           [管理口][Console] │
│                                            (1G)    (RJ45)  │
├────────────────────────────────────────────────────────────┤
│  高 3.5 英寸 (2U)  ×  宽 17 英寸  ×  深 28 英寸              │
│  约等于一个大号披萨盒的尺寸                                    │
└────────────────────────────────────────────────────────────┘

背面：
┌────────────────────────────────────────────────────────────┐
│ [电源1]  [电源2]   [风扇1] [风扇2] [风扇3] [风扇4]          │
│ (冗余)   (冗余)   (可热插拔)                                │
└────────────────────────────────────────────────────────────┘

当前型号

型号	InfiniBand 代次	每端口速度	端口数	总带宽	配套平台
Quantum-2 (QM9700)	NDR (第7代)	400 Gb/s	64	25.6 Tb/s	H100/H200
Quantum-X800 (Q3400)	XDR (第8代)	800 Gb/s	144	115.2 Tb/s	B200/GB200

InfiniBand 速度代次

每一代速度翻倍，记住缩写对应关系：

InfiniBand 代次演进（每代速度翻倍）：

SDR ──► DDR ──► QDR ──► FDR ──► EDR ──► HDR ──► NDR ──► XDR
10G     20G     40G     56G    100G    200G    400G    800G
                                               ▲        ▲
                                               │        │
                                          当前主力    新一代
                                         (Hopper)  (Blackwell)

核心技术：SHARP（网内计算）

Quantum 交换机的独特能力：交换机本身可以做数学运算。AI 训练中 GPU 需要做 AllReduce（所有 GPU 汇总梯度更新），SHARP 让交换机在转发数据的同时完成部分计算，减轻 GPU 负担。Quantum-X800 的 SHARP v4 有 14.4 TFLOPS 的算力。

1.5 产品详解：Spectrum Ethernet 交换机

它是什么

同样是机架式交换机，但使用 Ethernet（以太网）协议。Ethernet 是全球最通用的网络标准（你家的 Wi-Fi 路由器底层就是 Ethernet）。NVIDIA 的 Spectrum-X 平台在标准 Ethernet 基础上针对 AI 做了专门优化。

InfiniBand vs Ethernet：什么时候用哪个

                InfiniBand                    Ethernet
                (Quantum 交换机)               (Spectrum 交换机)
                
性能：          最高                           略低，但 Spectrum-X 缩小了差距
延迟：          ~1 微秒                        ~1.5-2.5 微秒
成本：          更贵 (1.5-2.5x)               更便宜
生态：          NVIDIA 独家                    开放标准，多家供应商
多租户：        有限                           原生支持
最适合：        专用 AI 工厂                    多租户云服务
市场趋势：      2023 占 AI 后端 80%            2025 占 AI 后端 70%
                ▼                              ▲
             份额下降中                       份额上升中

关键点：NVIDIA 两边都卖，无论市场往哪边走都受益

当前型号

型号	速度	端口数	总带宽	特点
SN5600 (Spectrum-4)	800 GbE	64	51.2 Tb/s	当前旗舰
Spectrum-6 (规划中)	下一代	-	-	硅光集成

Spectrum-X 平台 = SN5600 交换机 + BlueField-3 SuperNIC + LinkX 线缆

这不是单个产品，而是一套组合方案。主要客户包括 Meta、Microsoft、Oracle。

1.6 产品详解：LinkX 线缆与光模块（Interconnect）

它是什么

连接网卡和交换机之间的物理线缆。每个交换机端口、每张网卡的网口都需要一根线缆。这是一个高出货量的消耗品业务：一台 144 端口的交换机就需要 144 根线缆，一个 10,000 GPU 的集群可能需要 50,000+ 根线缆。

线缆类型一览

线缆类型对比：

DAC（铜缆直连）
┌──────┐ ════════════════════ ┌──────┐
│ OSFP │ ~~~~ 铜线 ~~~~ 3米内 │ OSFP │
└──────┘                     └──────┘
特点：最便宜（$20-50），零功耗，只能短距离
用途：同机柜内，服务器到顶部交换机

AOC（有源光缆）
┌──────┐ ──────────────────── ┌──────┐
│ OSFP │ ≈≈≈ 光纤 ≈≈≈ 100米  │ OSFP │
└──────┘   (内嵌收发器)       └──────┘
特点：中等价格，光纤一体式，收发器不可拆
用途：跨机柜连接

可插拔光模块 + 光纤
┌──────┐   ┌─────┐ ═══════════ ┌─────┐   ┌──────┐
│交换机│◄──│光模块│≈≈ 光纤 ≈≈  │光模块│──►│交换机│
└──────┘   └─────┘  可达 10km  └─────┘   └──────┘
特点：最灵活也最贵，光模块可单独更换
用途：长距离连接，跨楼宇/跨数据中心

连接器类型（供应计划关键：不同连接器不兼容！）

连接器对比（物理尺寸，按实际比例）：

SFP28   [██]          ← 最小，25G，管理接口用
QSFP56  [████]        ← 4 通道，200G，上一代
QSFP112 [████]        ← 4 通道，400G，当前主力
OSFP    [█████]       ← 8 通道，800G，新一代

                     ▲
                     │
            注意：QSFP112 和 OSFP 物理上不兼容！
            订错线缆 = 端口无法使用。这是供应计划中的
            关键兼容性约束。

代际对应关系（供应计划必知）

GPU 平台           网卡              交换机            线缆连接器
─────────          ────              ──────            ──────────
H100/H200    →   ConnectX-7    →   Quantum-2(NDR)  →  QSFP112 (400G)
(Hopper)

B200/GB200   →   ConnectX-8    →   Quantum-X800    →  OSFP (800G)
(Blackwell)                        (XDR)

Vera Rubin   →   ConnectX-9    →   下一代           →  OSFP (800G+)
(2026-2027)

                    两代产品共存，不能混用线缆！

1.7 产品详解：NVLink 和 NVSwitch（Scale-Up 互联）

虽然这些产品不在 JD 列出的范围内（你负责的是 Scale-Out 层），但理解它们有助于面试中展示全局视野。

它们是什么

NVLink 是 NVIDIA 自有的 GPU 间直连通道，速度远超 InfiniBand。NVSwitch 是让多块 GPU 全互联的交换芯片。

速度对比（直观感受）：

PCIe Gen 5:      ██                              128 GB/s
InfiniBand NDR:  ████                             50 GB/s
NVLink 5:        ██████████████████████████████  1,800 GB/s
                                                  ▲
                                           NVLink 比 InfiniBand 快 36 倍

GB200 NVL72 参考架构

这是 NVIDIA 最新的旗舰系统，一个机柜就是一台"超级计算机"：

GB200 NVL72 单机柜架构

┌══════════════════════════════════════════════════════════════┐
│                    一个机柜 = 一台超级 GPU                     │
│                                                              │
│  ┌─────────────────────────────────────────────────────┐    │
│  │  18 个计算托盘 (Compute Tray)                        │    │
│  │  每个托盘 = 2 块 B200 GPU + 1 块 Grace CPU           │    │
│  │  总计：72 块 GPU + 36 块 CPU                         │    │
│  │                                                     │    │
│  │  每个托盘还装有 ConnectX-7/8 网卡                     │    │
│  │  （用于连接外部网络，即你负责的产品）                    │    │
│  └─────────────────────────────────────────────────────┘    │
│                         ↕ NVLink（机柜内互联，130 TB/s）      │
│  ┌─────────────────────────────────────────────────────┐    │
│  │  9 个 NVLink Switch 托盘                             │    │
│  │  让 72 块 GPU 像一块巨型 GPU 一样工作                  │    │
│  └─────────────────────────────────────────────────────┘    │
│                                                              │
│  性能：1.4 ExaFLOPS AI 算力                                  │
│  内存：30 TB 统一 GPU 内存                                    │
│  NVLink 总带宽：130 TB/s                                     │
│                                                              │
└══════════════════════════════════════════════════════════════┘
          │
          │  ConnectX-8 网卡 + LinkX 线缆（你负责的产品）
          ▼
    [外部网络：Quantum-X800 或 Spectrum-X 交换机]

第二部分：数据中心网络如何组装

2.1 从服务器到网络的完整路径

数据在两台服务器之间的传输路径：

服务器 A                                              服务器 B
┌────────────┐                                    ┌────────────┐
│ [GPU][GPU] │                                    │ [GPU][GPU] │
│     │      │                                    │      │     │
│ [ConnectX] │  ← PCIe 插槽                        │ [ConnectX] │
│     │      │     (网卡插在服务器主板上)              │      │     │
└─────┼──────┘                                    └──────┼─────┘
      │                                                  │
      │  LinkX DAC/AOC 线缆                               │
      │  (铜缆 ≤3 米 或 光缆 ≤100 米)                     │
      ▼                                                  ▼
┌─────────────┐        LinkX 线缆           ┌─────────────┐
│  Leaf 交换机 │ ◄──────────────────────────► │  Leaf 交换机 │
│ (机柜顶部)   │        (400G/800G)          │ (机柜顶部)   │
└──────┬──────┘                              └──────┬──────┘
       │                                            │
       │          LinkX 线缆 (高速上行链路)            │
       ▼                                            ▼
┌─────────────────────────────────────────────────────────┐
│                    Spine 交换机                           │
│              (数据中心的"骨干"交换机)                       │
│         Quantum-X800 (InfiniBand) 或                    │
│         Spectrum SN5600 (Ethernet)                      │
└─────────────────────────────────────────────────────────┘

2.2 Spine-Leaf（脊叶）网络架构

这是现代数据中心的标准网络拓扑。面试中可能会被问到。

传统三层架构 vs 现代 Spine-Leaf 架构

传统（已过时）：                        现代（当前标准）：
    [核心]                                [Spine 1] [Spine 2] [Spine 3] [Spine 4]
   /     \                                  │╲  ╲╲    ╱╱│ ╲╲   ╱╱│    ╲╲╱╱  │
  [汇聚]  [汇聚]                            │ ╲  ╲╲  ╱╱ │  ╲╲ ╱╱ │    ╱╱╲╲  │
  / \      / \                              │  ╲  ╲╲╱╱  │   ╲╳╱  │  ╱╱  ╲╲  │
[接入][接入][接入][接入]                     │   ╲  ╳╲   │   ╱╲╲  │ ╱╱    ╲╲ │
                                           [Leaf1] [Leaf2] [Leaf3] [Leaf4]
问题：瓶颈多，延迟不一致                    │││       │││       │││      │││
                                         服务器    服务器    服务器   服务器

规则：
- 每个 Leaf 连接到每个 Spine（全互联）
- 任意两台服务器之间恰好 2 跳（Leaf → Spine → Leaf）
- 延迟可预测且一致（对 AI 训练至关重要）
- 扩容简单：加 Spine = 加带宽，加 Leaf = 加服务器

2.3 机柜（Rack）基本概念

标准 42U 服务器机柜

┌────────────────────────────────────┐  ← 机柜顶部
│ [Top-of-Rack 交换机]    2U         │     (Leaf Switch)
├────────────────────────────────────┤
│ [服务器]                1U         │  ← 1U = 1.75 英寸 = 4.45 厘米
│ [服务器]                1U         │
│ [服务器]                1U         │
│ [服务器]                1U         │     标准机柜 42U 高
│ [服务器]                1U         │     约 6 英尺（1.8 米）
│ ...                               │
│ (可装 20-40 台 1U 服务器)           │
│                                    │
│ [服务器]                1U         │
│ [服务器]                1U         │
├────────────────────────────────────┤
│ [配线架]                1U         │  ← 线缆管理
│ [PDU 电源分配]                     │  ← 电源管理
└────────────────────────────────────┘  ← 机柜底部

为什么交换机放顶部？
→ 所有服务器到交换机距离 ≤3 米
→ 可以用最便宜的 DAC 铜缆连接

第三部分：硬件组件深度解析

3.1 PCB（印刷电路板）：一切的基础

PCB 截面示意（放大视图）：

      ┌─ 锡焊 (Solder)           ← 焊接元件用
      │  ┌─ 阻焊层 (Solder Mask)  ← 绿色保护层
      │  │  ┌─ 铜走线 (Trace)      ← 传输电信号的"微型电线"
      │  │  │  ┌─ 基板 (FR-4)      ← 玻璃纤维+环氧树脂，绝缘体
      ▼  ▼  ▼  ▼
    ┌─────────────────────────────────┐
    │ ●  ════  ●  ════  ●  ════  ●  │  ← 第 1 层铜
    ├─────────────────────────────────┤
    │ ▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒│  ← FR-4 基材
    ├─────────────────────────────────┤
    │ ════════════════════════════════│  ← 第 2 层铜（地线层）
    ├─────────────────────────────────┤
    │ ▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒│  ← FR-4 基材
    ├─────────────────────────────────┤
    │ ════  ●  ════  ●  ════  ●  ═══│  ← 第 3 层铜（信号层）
    ├─────────────────────────────────┤
    │         ... 重复 ...             │
    │    网卡 PCB 一般 8-14 层         │
    │    交换机 PCB 一般 16-32 层      │
    └─────────────────────────────────┘

材料：
- FR-4 基材 = 玻璃纤维布 + 环氧树脂（像复合材料）
- 铜层 = 超薄铜箔，被蚀刻成精密线路
- 阻焊层 = 绿色/黑色涂层，防止短路

供应计划相关：PCB 是定制件，每款产品都不同。交货期 6-16 周。层数越多、精度要求越高的 PCB，能做的工厂越少。

3.2 ASIC（专用集成电路）：产品的核心芯片

从沙子到芯片的旅程：

硅砂 ──► 提纯 ──► 硅锭 ──► 切割 ──► 硅晶圆 ──► 光刻+蚀刻 ──► 晶圆上的 Die
                                    (300mm 圆盘)   (500-1000 步)  (数百个芯片)

┌────────────────────────────────────────────────────────┐
│                                                        │
│     一片 300mm 晶圆上的 Die 分布                         │
│                                                        │
│              ╭────────╮                                │
│          ╭───┤ ■ ■ ■ ■├───╮                            │
│        ╭─┤ ■ │ ■ ■ ■ ■│ ■ ├─╮     ■ = 一个 Die        │
│       │■ │ ■ │ ■ ■ ■ ■│ ■ │■│       (一块芯片)         │
│       │■ │ ■ │ ■ ■ ■ ■│ ■ │■│                         │
│        ╰─┤ ■ │ ■ ■ ■ ■│ ■ ├─╯     良率 90% = 10% 废品 │
│          ╰───┤ ■ ■ ■ ■├───╯                            │
│              ╰────────╯                                │
│                                                        │
│     切割(Dicing) ──► 单个 Die ──► 封装(Packaging)       │
│                                                        │
│     ┌──┐     ┌──────────────────┐                      │
│     │■ │ ──► │ ■  Die           │  ← BGA 封装          │
│     └──┘     │ ●●●●●●●●●●●●●●● │     (焊球阵列)        │
│              │ ●●●●●●●●●●●●●●● │     底部有锡球，      │
│              │ ●●●●●●●●●●●●●●● │     焊接到 PCB 上     │
│              └──────────────────┘                      │
│                                                        │
└────────────────────────────────────────────────────────┘

供应计划关键知识：

ASIC 是唯一来源（NVIDIA 设计，只有 TSMC 能制造）
交货期 20-52 周（从晶圆投片到封装完成）
这是整个产品最大的供应瓶颈：芯片晚了，什么都发不出去
Bin Sort（分级）：同一片晶圆上的芯片性能不完全一致，测试后按性能分级，创建不同的产品型号

3.3 被动元件：数量最多的"小零件"

一张网卡上有数百到数千个被动元件，很多比米粒还小。

被动元件类比：

电容 (Capacitor)    ○──│├──○     电的"蓄水池"，稳定电压波动
                                 类比：水管系统的稳压罐

电阻 (Resistor)     ○──⊘⊘──○    电的"限流阀"，控制电流大小
                                 类比：水龙头的阀门

电感 (Inductor)     ○──⌇⌇──○    电的"滤波器"，消除噪音
                                 类比：净水器

铁氧体磁珠          ○──●──○     高频噪音过滤
(Ferrite Bead)                   类比：隔音耳塞

供应计划相关：被动元件是大宗商品，单价极低（$0.002 一个电容），但品种极多（一块板可能用 50 种不同规格的电容）。2021-2022 年供应危机期间，一个 $0.002 的电容缺货就能让整条生产线停工。

3.4 光模块（Transceiver）内部结构

OSFP 光模块内部（拇指大小的模块）：

┌──────────────────────────────────────────┐
│                                          │
│  [激光二极管]    → 电信号转为光脉冲         │
│  (VCSEL/EML)      (像超微型手电筒)        │
│                                          │
│  [光电检测器]    ← 接收端，光转回电信号     │
│  (PIN Diode)      (像微型太阳能板)        │
│                                          │
│  [DSP 芯片]     ← 数字信号处理，清理信号   │
│                                          │
│  [微型透镜]     ← 把光精确对准光纤芯       │
│                    光纤芯只有 9 微米        │
│                    (头发丝的 1/8)          │
│                                          │
│  [微型 PCB]     ← 所有元件的载体           │
│                    约 1cm × 5cm           │
│                                          │
└──────────────────────────────────────────┘
      │
      ▼
  插入交换机或网卡的 OSFP 端口

供应计划相关：

光模块是高出货量、高价值消耗品，单个数据中心部署可能需要 10,000-100,000 个
内部的激光二极管和 DSP 芯片都有自己的供应链瓶颈
光学对准是良率限制步骤：激光必须对准只有 9 微米的光纤芯，偏差几微米就会失败
交货期 12-26 周

3.5 制造流程概览

网络产品制造全流程：

阶段 1：晶圆制造 (TSMC)                    12-26 周
┌─────────────────────────────────────────────────┐
│  硅晶圆 → 光刻 → 蚀刻 → 离子注入 → 沉积 → ...   │
│  (500-1000 个加工步骤)                           │
│  产出：刻好电路的晶圆                             │
└───────────────────────────────┬─────────────────┘
                                ▼
阶段 2：封装 (ASE/Amkor)                    4-8 周
┌─────────────────────────────────────────────────┐
│  切割晶圆 → 单个 Die → 贴基板 → BGA 焊球         │
│  产出：封装好的芯片（可以焊到 PCB 上）              │
└───────────────────────────────┬─────────────────┘
                                ▼
阶段 3：PCB 制造 (TTM/Tripod)    ←── 与阶段 1-2 并行  6-12 周
┌─────────────────────────────────────────────────┐
│  层压 → 蚀刻 → 钻孔 → 镀铜 → 阻焊 → 测试         │
│  产出：裸 PCB                                     │
└───────────────────────────────┬─────────────────┘
                                ▼
阶段 4：SMT 组装 (Foxconn/Flex/Celestica)    2-4 周
┌─────────────────────────────────────────────────┐
│  锡膏印刷 → 贴片机放元件 → 回流焊接 → 检测         │
│                                                  │
│  具体步骤：                                       │
│  1. 钢网印刷：锡膏涂在 PCB 焊盘上                  │
│  2. SPI 检测：3D 相机检查锡膏量                    │
│  3. 贴片 (Pick & Place)：机械臂从料盘取元件         │
│     放到锡膏上，每小时可放 60,000 个元件             │
│  4. 回流焊：板子过温控烤箱 (220-250°C)              │
│     锡膏融化，形成永久焊点                          │
│  5. AOI 检测：自动光学检查每个焊点                  │
│                                                  │
│  产出：PCBA（组装好的电路板）                       │
└───────────────────────────────┬─────────────────┘
                                ▼
阶段 5：测试                                  1-2 周
┌─────────────────────────────────────────────────┐
│  ICT（在线测试）→ 功能测试 → 老化测试 → 系统测试   │
│                                                  │
│  ICT：探针接触测试点，检查短路/断路/元件值          │
│  功能测试：上电运行，验证全部功能                    │
│  老化测试 (Burn-in)：高温高压运行数小时，            │
│         筛选"婴儿期死亡"的不良品                    │
│                                                  │
│  产出：测试合格的成品                              │
└───────────────────────────────┬─────────────────┘
                                ▼
阶段 6：发货                                  1-2 周
┌─────────────────────────────────────────────────┐
│  标签 → 包装 → 序列号登记 → 发运                   │
│  直发：大客户（AWS/Microsoft/Google/Meta）          │
│  经销：Arrow, Avnet, TD SYNNEX                    │
└─────────────────────────────────────────────────┘

总周期：晶圆投片到成品发货 = 26-52+ 周

第四部分：供应链关键概念

4.1 NVIDIA 是 Fabless（无晶圆厂）公司

这是最重要的结构性事实：NVIDIA 只负责设计芯片，所有物理制造都外包。

NVIDIA 的角色 vs 制造合作伙伴：

NVIDIA 做什么：                     谁来做制造：
┌──────────────────────┐           ┌──────────────────────────────────┐
│                      │           │                                  │
│  设计芯片             │           │  晶圆制造：TSMC (台湾/亚利桑那)   │
│  定义 BOM            │           │  封装测试：ASE, Amkor (台湾/马来)  │
│  管理供应链           │  ◄────►  │  基板：Ibiden, Unimicron (台湾/日) │
│  销售产品             │           │  PCB 组装：Foxconn, Flex,         │
│  提供技术支持         │           │            Celestica, Quanta      │
│                      │           │  线缆/光模块：Coherent, Lumentum  │
└──────────────────────┘           └──────────────────────────────────┘

      你的角色 (Supply Planner)：
      协调 NVIDIA 内部需求和所有这些外部合作伙伴的产能、物料、排程

4.2 BOM（物料清单）层级结构

网络交换机 BOM 结构示意：

Level 0: Spectrum-X 交换机（成品）
│
├── Level 1: 交换机 PCBA（主板组件）
│   ├── Level 2: Spectrum ASIC（封装芯片） ← 最关键、最长交期
│   │   ├── Level 3: Spectrum Die（裸芯片，来自晶圆）
│   │   └── Level 3: Substrate（基板/中介层）← 第二长交期
│   ├── Level 2: DRAM 内存 × 8
│   ├── Level 2: Flash 存储
│   ├── Level 2: 电源管理 IC × 20+
│   ├── Level 2: 被动元件 × 500+ 种（电容/电阻/电感）
│   └── Level 2: 裸 PCB
│
├── Level 1: 管理板 PCBA（运行操作系统的小板）
├── Level 1: 电源模块 × 2（冗余）
├── Level 1: 风扇模块 × 4-6
├── Level 1: OSFP 端口笼（× 64）
├── Level 1: 机箱外壳（钣金件）
└── Level 1: 线缆、标签、文档

总计：500-2000 个不同料号

4.3 MRP（物料需求计划）在半导体中的运作

MRP 在 Amazon 配件 vs NVIDIA 网络产品：

Amazon 配件：
客户需求 → 查库存 → 差额下 PO → 8-16 周到货 → 入库
简单粗暴，一层 BOM，短交期

NVIDIA 网络产品：
客户需求 (ConnectX 网卡 1000 片)
│
├─ BOM 展开 → PCBA 需求 1000 片
│  ├─ BOM 展开 → ASIC 需求 1000 颗
│  │  ├─ 良率折算 → 需要投片晶圆能产出 1100 颗 Die（良率 90%）
│  │  │  └─ 检查 TSMC 产能分配 → 够不够？不够怎么办？
│  │  └─ Substrate 需求 1100 片 → 交期 20-52 周 → 要提前下单
│  ├─ DRAM 需求 → 交期 8-16 周
│  ├─ 被动元件 500 种 → 每种都要检查库存和交期
│  └─ 裸 PCB 需求 → 交期 6-12 周
│
└─ 生成计划订单 → 核对每层产能 → 确认交期

关键差异：
                Amazon 配件          NVIDIA 网络产品
BOM 层级         2-3 层              5-7 层
料号数量         20-100              500-2000
最长交期         8-16 周             52-78 周
良率折算         不需要              每层都要
产能约束         弹性（换 CM）        刚性（TSMC 排不上就排不上）

4.4 SAP/APO 系统：你会用到的工具

SAP ERP + APO 在供应计划中的角色：

┌────────────────────────────────────────────────────────────┐
│                    SAP APO（计划引擎）                       │
│                                                            │
│  ┌──────────┐  ┌──────────┐  ┌──────────┐  ┌──────────┐  │
│  │ 需求计划  │  │ 供应网络  │  │ 排产计划  │  │ 全球可用  │  │
│  │ (DP)     │  │ 计划(SNP)│  │ (PP/DS)  │  │ 量承诺    │  │
│  │          │  │          │  │          │  │ (gATP)   │  │
│  │ 12-18个月│  │ 多层级供  │  │ SMT产线  │  │ 客户订单  │  │
│  │ 需求预测  │  │ 需匹配   │  │ 排程     │  │ 交期确认  │  │
│  └──────────┘  └──────────┘  └──────────┘  └──────────┘  │
│                         ▲                                  │
│                         │ 数据交互                          │
│                         ▼                                  │
│  ┌──────────────────────────────────────────────────────┐  │
│  │              SAP ERP（主数据+交易记录）                │  │
│  │  BOM / 工艺路线 / 供应商信息 / 采购订单 / 生产订单     │  │
│  │  库存 / 销售订单 / 财务                              │  │
│  └──────────────────────────────────────────────────────┘  │
│                                                            │
│  供应受限时的关键功能：Product Allocation（产品配额）        │
│  → 每个客户/区域分配额度                                    │
│  → 订单只能在配额内确认                                     │
│  → 供应计划员手动调整配额（你的核心日常工作之一）             │
│                                                            │
└────────────────────────────────────────────────────────────┘

4.5 关键供应链指标

指标	英文	含义	为什么重要
周供应量	Weeks of Supply (WOS)	库存 / 周需求	太高 = E&O 风险，太低 = 断货
NCNR 负债	NCNR Liability	已承诺不可取消订单的金额	需求变化时的财务风险敞口
E&O 准备金	E&O Reserve	预计库存减值的会计准备	直接影响利润表
预测准确率	Forecast Accuracy	实际 vs 预测需求	驱动库存和负债决策
准时交付率	On-Time Delivery (OTD)	按承诺日期发货的百分比	客户满意度核心指标
一次通过率	First-Pass Yield (FPY)	首次测试通过的百分比	影响产能和成本
库存周转率	Inventory Turns	销售成本 / 平均库存	运营资本效率

第五部分：NVIDIA 网络业务的商业背景

5.1 Mellanox 收购：改变格局的一笔交易

2020 年，NVIDIA 以 69 亿美元收购了以色列公司 Mellanox Technologies。Mellanox 是 InfiniBand 高速网络芯片的领导者，其产品已装在全球 Top10 超算中的 6 台里。

收购逻辑（Jensen Huang 原话）：

"当 NVIDIA 把计算加速 10-50 倍时，数据搬运就成了瓶颈。这就是 Amdahl 定律。"

简单说：GPU 再快，如果数据传不过来也是白搭。NVIDIA 需要同时拥有"大脑"（GPU）和"神经系统"（网络）。

5.2 营收增长轨迹

NVIDIA 网络产品营收增长（单位：十亿美元）

FY2021   ▓▓▓                                              ~$3B
FY2024   ▓▓▓▓▓▓▓▓▓                                        $8.6B
FY2025   ▓▓▓▓▓▓▓▓▓▓▓▓▓                                    $13B
FY2026   ▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓                $31B+
FY2027E  ▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓ ~$57B

         5 年翻了 10 倍。Jensen Huang 在 FY2026 Q4 财报电话会上说：
         "NVIDIA 现在是世界上最大的网络公司。"

5.3 竞争格局

NVIDIA 网络产品竞争地图：

产品领域        NVIDIA 地位              主要竞争对手
──────────      ──────────              ────────────
InfiniBand     垄断 (~90%+ 份额)       无直接竞争者
               Quantum 系列             (UEC 联盟是长期威胁)

AI Ethernet    与 Celestica 合计        Broadcom (Tomahawk 芯片)
               约 50% 份额              Arista (高性能 Ethernet 交换机)
               Spectrum-X 系列          Cisco (Silicon One 芯片)

DPU/SmartNIC   市场领导者               AMD/Pensando (初期)
               BlueField 系列           Intel (IPU 项目收缩中)

线缆/光模块     市场参与者               Coherent, Lumentum, II-VI
               LinkX 系列               (NVIDIA 也是它们的客户)

Ultra Ethernet Consortium (UEC)

2023 年成立的开放标准联盟，100+ 家公司（包括 AMD、Broadcom、Cisco、Intel、Meta、Microsoft，甚至 NVIDIA 自己也加入了），目标是让标准 Ethernet 达到 InfiniBand 的 AI 性能。2025 年 6 月发布了 UEC 1.0 规范。

对供应计划的影响：如果 UEC 成功让 Ethernet 完全替代 InfiniBand，InfiniBand 产品线可能萎缩。但 NVIDIA 两边都卖（Quantum + Spectrum），所以影响可控。

5.4 当前正在管理的产品代际转换

这直接关系到你进去之后的日常工作：

产品代际转换时间线（2024-2026）：

              2024                2025                2026
              ├─────────────────┼─────────────────┼──────────

Hopper 时代   ████████████████████░░░░░░░░░░          逐步退出
(H100/H200)   ConnectX-7 + Quantum-2 (NDR, 400G)

Blackwell 时代          ░░░████████████████████████    全面量产
(B200/GB200)            ConnectX-8 + Quantum-X800 (XDR, 800G)

Vera Rubin                                    ░░░░░   准备中
(下一代)                                       ConnectX-9

████ = 量产出货   ░░░ = 爬坡/准备期

你的挑战：
- 旧产品 (NDR, 400G) 在退坡，需要管理剩余库存和 E&O
- 新产品 (XDR, 800G) 在爬坡，需要保障供应承诺
- 两代产品线缆不兼容 (QSFP112 vs OSFP)
- 供应链 52+ 周的交期意味着：今天的决策影响明年的供应

第六部分：Amazon 经验如何迁移

6.1 五个核心差异

维度对比（Amazon 配件 vs NVIDIA 网络产品）：

                    Amazon 配件              NVIDIA 网络产品
                    ──────────              ────────────────
计划周期            8-16 周                  52-78 周
                    ▓▓░░░░░░░░░░░░░░        ▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓

单品 BOM 成本       $20-200                  $2,000-50,000+
                    ▓░░░░░░░░░░░░░░░        ▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓

BOM 料号数          20-100                   500-2,000
                    ▓▓░░░░░░░░░░░░░░        ▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓

产能弹性            高（换 CM 即可）           低（TSMC 产能固定）
                    ▓▓▓▓▓▓▓▓▓▓▓▓░░░░       ▓▓▓░░░░░░░░░░░░░░

预测错误代价        中等（退货/打折）          极高（千万美金级 E&O）
                    ▓▓▓▓▓▓░░░░░░░░░░        ▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓

6.2 面试中如何表述迁移价值

面试官问"你在 Amazon 的经验怎么应用到 NVIDIA？"时，可以这样框架化回答：

可直接迁移的能力：

需求感知和预测分析（Demand Sensing）
库存优化和周转管理
供应商关系管理
跨部门协调（Demand Planning、Production、Purchasing）
数据驱动的决策能力
流程改进和自动化经验

需要额外学习的领域（诚实承认，展示学习意愿）：

半导体制造周期和良率概念
多层 BOM 展开和 MRP 在半导体中的运作
NCNR 承诺管理和 E&O 风险控制
SAP APO 产品配额管理（如果之前没用过 SAP APO）
代际转换中的供应计划（两代产品并行管理）

核心论点：

"Amazon 的 supply planning 训练了我在需求波动和供应不确定性中做数据驱动决策的能力。NVIDIA 网络产品的挑战在于更长的计划周期（52+ 周 vs 8-16 周）、更高的单品价值、更刚性的产能约束。这意味着预测错误的代价更高，每个承诺决策都需要更谨慎的风险评估。我在 Amazon 建立的分析框架和跨职能协调能力直接适用，而半导体特有的领域知识（良率管理、NCNR、代际转换）是我正在积极学习的方向。"

第七部分：关键术语速查表

产品和技术术语

术语	英文全称	含义
ASIC	Application-Specific Integrated Circuit	专用集成电路，产品核心芯片
PCB	Printed Circuit Board	印刷电路板，所有元件的载体
PCBA	PCB Assembly	组装好元件的电路板
PCIe	PCI Express	服务器内部的标准接口，网卡插在这里
RDMA	Remote Direct Memory Access	GPU 直接读取远程 GPU 内存，不经 CPU
InfiniBand (IB)	-	高性能网络协议，NVIDIA 垄断
Ethernet	-	通用网络协议，开放标准
RoCE	RDMA over Converged Ethernet	让 Ethernet 也能做 RDMA
NDR	Next Data Rate	InfiniBand 第7代，400 Gb/s
XDR	eXtreme Data Rate	InfiniBand 第8代，800 Gb/s
NVLink	-	NVIDIA 自有 GPU 间直连通道
NVSwitch	-	NVLink 的交换芯片
DPU	Data Processing Unit	自带处理器的智能网卡
OSFP	Octal Small Form-factor Pluggable	8 通道光模块/线缆连接器，800G
QSFP	Quad Small Form-factor Pluggable	4 通道连接器，400G 及以下
DAC	Direct Attach Copper	铜缆直连，短距离最便宜
AOC	Active Optical Cable	有源光缆，中距离
SHARP	Scalable Hierarchical Aggregation and Reduction Protocol	交换机内计算，减轻 GPU 负担
ToR	Top-of-Rack	机柜顶部交换机
Spine-Leaf	-	现代数据中心两层网络架构

供应链术语

术语	英文全称	含义
BOM	Bill of Materials	物料清单，产品所有零件的清单
MRP	Material Requirements Planning	物料需求计划，BOM 展开计算
NCNR	Non-Cancellable Non-Returnable	不可取消不可退货，一旦下单必须买
E&O	Excess and Obsolescence	过剩和过时库存
ECN	Engineering Change Notice	工程变更通知
PCN	Product Change Notice	供应商变更通知
EOL	End of Life	产品/元件停产
LTB	Last Time Buy	停产前最后一次采购
NPI	New Product Introduction	新产品导入
EVT/DVT/PVT	Engineering/Design/Production Validation Test	产品开发三阶段验证
AVL	Approved Vendor List	合格供应商清单
SMT	Surface Mount Technology	表面贴装技术（PCB 组装工艺）
ICT	In-Circuit Test	在线测试（检查焊接质量）
Yield	-	良率，合格品占总产出的百分比
Bin Sort	-	芯片按性能分级
Die	-	晶圆上切下来的单个芯片
Wafer	-	硅晶圆，300mm 圆盘
Substrate	-	基板/中介层，芯片和 PCB 之间的桥梁
Die Bank	-	封装好的芯片库存（延迟组装策略）
Fab	Fabrication Facility	晶圆制造工厂
OSAT	Outsourced Semiconductor Assembly and Test	外包封装测试厂商
CM	Contract Manufacturer	代工厂
ODM	Original Design Manufacturer	原始设计制造商
OEM	Original Equipment Manufacturer	原始设备制造商
WOS	Weeks of Supply	周供应量（库存健康指标）
OTD	On-Time Delivery	准时交付率
FPY	First-Pass Yield	一次通过率
gATP	global Available-to-Promise	全球可用量承诺

供应链组件交期速查

交期从短到长排列：

被动元件 (Cap/Res)    ▓▓▓▓                              4-8 周
风扇模块              ▓▓▓▓▓▓▓▓                          8-12 周
裸 PCB               ▓▓▓▓▓▓▓▓▓▓▓▓                      6-12 周
DRAM 内存             ▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓                  8-16 周
光模块                ▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓       12-26 周
晶圆 (先进制程)        ▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓ 16-26 周
基板 (Substrate)      ▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓ 20-52 周
先进封装 (CoWoS)      ▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓ 52-78 周

系统总交期            ▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓ 52-78 周
                     │                                                   │
                     0 周                                              78 周

第八部分：面试可能的问题和建议回答框架

Q1: "Tell me about NVIDIA's networking products."

框架：两层架构 → Scale-Up (NVLink) + Scale-Out (你负责的) → 列举产品线 → 强调代际转换

Q2: "How would you manage a supply constraint situation?"

框架：识别瓶颈组件 → 评估影响范围 → 与 Demand Planning 对齐优先级 → 使用 SAP APO Product Allocation 分配 → 沟通客户 → 持续跟踪至恢复

Q3: "How does semiconductor supply planning differ from your Amazon experience?"

框架：五个核心差异（计划周期、BOM 复杂度、成本、产能弹性、代际转换）→ 可迁移能力 → 学习计划

Q4: "How would you reduce excess inventory?"

框架：监控 WOS 指标 → 需求信号验证（客户是否重复下单？）→ 与 BU 对齐需求灵活性 → Die Bank 策略延迟组装 → ECN 影响评估 → Burn-down 计划

Q5: "Describe how you'd create a production schedule."

框架：需求输入 → BOM 展开 → 检查关键物料（ASIC, Substrate, Memory）→ Lot Sizing 考虑 → 产能约束检查（CM 产线、测试设备）→ 优先级排序 → 周度更新

附录：参考来源

NVIDIA 官方产品文档 (docs.nvidia.com)
NVIDIA ConnectX-7/8 用户手册和数据表
NVIDIA Quantum-2/X800 产品规格
NVIDIA Spectrum-4 SN5600 硬件手册
NVIDIA FY2025/FY2026 财报电话会议纪要
NVIDIA GTC 2025 技术发布会
Dell'Oro Group 2026 年 AI 网络市场份额报告
Moody's 半导体供应链分析 (2026)
ServeTheHome QSFP28 拆解分析
Umbrex IT 硬件与网络 OEM 行业分析
T1Nexus 1.6T 网络供应链分析
Ultra Ethernet Consortium (UEC) 1.0 规范 (2025.6)