NVIDIA Senior Supply Planner (Networking) 面试准备调研

42 min readNVIDIA · 供应链 · 半导体 · 面试准备 · 数据中心

为什么值得花时间读这份报告

这个岗位处在 NVIDIA 增长最快的业务线上。网络产品部(原 Mellanox)的营收从 2021 年的约 30 亿美元增长到 2026 年的 310+ 亿美元,5 年翻了 10 倍。AI 训练需要数千块 GPU 高速通信,网络就是连接它们的"高速公路"。你管的不是消费品配件,而是支撑全球 AI 基础设施的核心硬件。

这份报告会帮你回答面试中最可能遇到的问题:「你了解我们的产品吗?」「你知道这些产品在数据中心里是怎么工作的吗?」「半导体供应链和你在 Amazon 做的有什么不同?」


第一部分:NVIDIA 网络产品全景

1.1 一张图看懂整个产品家族

NVIDIA 网络产品分两层:Scale-Up(机柜内 GPU 互联)和 Scale-Out(机柜之间互联)。

╔══════════════════════════════════════════════════════════════════════════╗
║                     NVIDIA 网络产品两层架构                              ║
╠══════════════════════════════════════════════════════════════════════════╣
║                                                                        ║
║   [SCALE-UP 层] 机柜内部,GPU 之间的"神经系统"                          ║
║   ┌────────────────────────────────────────────────────────────────┐   ║
║   │  NVLink    ─── GPU 之间的直连高速通道,速度极快                   │   ║
║   │  NVSwitch  ─── 让一个机柜内 72 块 GPU 像一块超级 GPU 一样工作    │   ║
║   └────────────────────────────────────────────────────────────────┘   ║
║                         ▲                                              ║
║                         │  两层同时存在于一个机柜中                      ║
║                         ▼                                              ║
║   [SCALE-OUT 层] 机柜之间的"高速公路系统"      ◄── 你负责的产品都在这层  ║
║   ┌────────────────────────────────────────────────────────────────┐   ║
║   │  ConnectX 网卡 (Adapter)  ─── 服务器的"网络入口"                 │   ║
║   │  Quantum 交换机 (Switch)  ─── InfiniBand 协议,最高性能           │   ║
║   │  Spectrum 交换机 (Switch) ─── Ethernet 协议,开放标准             │   ║
║   │  BlueField DPU            ─── 智能网卡,自带处理器               │   ║
║   │  LinkX 线缆 (Interconnect) ── 连接一切的物理线缆和光模块          │   ║
║   └────────────────────────────────────────────────────────────────┘   ║
║                                                                        ║
╚══════════════════════════════════════════════════════════════════════════╝

类比:把数据中心想象成一座城市。

  • NVLink/NVSwitch 是一栋大楼内的电梯系统(楼内交通,超快)
  • ConnectX 是每栋楼的大门(出入口)
  • Quantum/Spectrum 交换机是十字路口的交通灯(指挥车流)
  • LinkX 线缆是马路本身(物理连接)

1.2 产品详解:ConnectX 网卡(Adapter)

它是什么

一张大约信用卡大小(但更厚)的电路板,插在服务器内部。每台服务器都需要至少一张网卡才能连接网络。

ConnectX-7 网卡物理结构

     ┌──────────────────────────────────────────────────┐
     │                                                  │
     │   [散热片]        [ASIC 芯片]                     │
     │   ████████        ▓▓▓▓▓▓▓▓                      │
     │   (铝制散热器)     (核心处理芯片)                    │
     │                                                  │
     │   ○○○○○○  ○○○○○○  ○○○○○○    ← 被动元件            │
     │   (电容)   (电阻)   (电感)      (数百个小零件)      │
     │                                                  │
     │   [内存芯片]                                      │
     │   ■■■■                                           │
     │                                                  │
     ╞══════════════════════════════╡  ← PCIe 金手指     │
     │  ▐▐▐▐▐▐▐▐▐▐▐▐▐▐▐▐▐▐▐▐▐▐▐▐  │    (插入服务器主板)  │
     └──────────┬───────────────────┘                    
                │                                        
          ┌─────┴─────┐                                  
          │ OSFP 端口  │  ← 网线插口(连接到交换机)        
          │  ███████  │                                  
          └───────────┘                                  

当前主力型号

型号速度接口配套 GPU 平台地位
ConnectX-7400 Gb/sPCIe Gen 5H100/H200 (Hopper)当前出货量最大
ConnectX-8 SuperNIC800 Gb/sPCIe Gen 6B200/GB200 (Blackwell)新一代,正在爬坡
ConnectX-9800 Gb/sPCIe Gen 6Vera Rubin (下一代)2026 年发布

它做什么

网卡的核心功能是 RDMA(Remote Direct Memory Access,远程直接内存访问)。简单说就是:GPU A 可以直接读取 GPU B 的内存数据,不需要经过 CPU 中转。这对 AI 训练至关重要,因为数千块 GPU 需要不断交换计算结果。

为什么重要

AI 集群中每台服务器都需要 1-2 张网卡。一个 10,000 GPU 的集群意味着数千张 ConnectX 网卡的订单。这是高出货量、高价值的核心产品。


1.3 产品详解:BlueField DPU(智能网卡)

它是什么

DPU = Data Processing Unit。可以理解为一张"自带大脑的网卡"。普通网卡只管收发数据,BlueField 还自带 ARM 处理器、内存和存储,能独立运行操作系统。

普通网卡 vs BlueField DPU 对比

普通网卡 (ConnectX):                   BlueField DPU:
┌──────────────────┐                   ┌──────────────────────────────┐
│                  │                   │                              │
│  [网络芯片]       │                   │  [网络芯片]  +  [ARM CPU]     │
│   只管收发数据    │                   │   收发数据       独立运算      │
│                  │                   │                              │
│                  │                   │  [16GB 内存]  +  [128GB SSD] │
│                  │                   │   可以运行自己的操作系统        │
│                  │                   │                              │
└──────────────────┘                   └──────────────────────────────┘
   功能:网络通信                          功能:网络通信 + 安全防火墙
                                              + 存储加速 + 加密
                                              + 虚拟化管理

当前型号

型号速度ARM 核心数内存状态
BlueField-3400 Gb/s16 核16-32 GB当前量产
BlueField-4800 Gb/s64 核128 GB2026 年上市

为什么重要

传统服务器中,CPU 要花 30% 以上的算力处理网络管理、安全加密、存储等"杂活"。BlueField 把这些活全接过来,让 CPU 和 GPU 专心做 AI 计算。主要客户包括 Oracle Cloud、Microsoft Azure 等云服务商。


1.4 产品详解:Quantum InfiniBand 交换机

它是什么

一个机架式的网络设备(外观像一个扁平的大型路由器),负责把多台服务器连接在一起。使用 InfiniBand 协议,这是一种专为高性能计算设计的网络标准,延迟极低。

Quantum 交换机外观(2U 机架式,"披萨盒"造型)

正面(端口面):
┌────────────────────────────────────────────────────────────┐
│ [OSFP][OSFP][OSFP][OSFP]...(共 64-144 个端口)              │
│ [OSFP][OSFP][OSFP][OSFP]...                                │
│                                           [管理口][Console] │
│                                            (1G)    (RJ45)  │
├────────────────────────────────────────────────────────────┤
│  高 3.5 英寸 (2U)  ×  宽 17 英寸  ×  深 28 英寸              │
│  约等于一个大号披萨盒的尺寸                                    │
└────────────────────────────────────────────────────────────┘

背面:
┌────────────────────────────────────────────────────────────┐
│ [电源1]  [电源2]   [风扇1] [风扇2] [风扇3] [风扇4]          │
│ (冗余)   (冗余)   (可热插拔)                                │
└────────────────────────────────────────────────────────────┘

当前型号

型号InfiniBand 代次每端口速度端口数总带宽配套平台
Quantum-2 (QM9700)NDR (第7代)400 Gb/s6425.6 Tb/sH100/H200
Quantum-X800 (Q3400)XDR (第8代)800 Gb/s144115.2 Tb/sB200/GB200

InfiniBand 速度代次

每一代速度翻倍,记住缩写对应关系:

InfiniBand 代次演进(每代速度翻倍):

SDR ──► DDR ──► QDR ──► FDR ──► EDR ──► HDR ──► NDR ──► XDR
10G     20G     40G     56G    100G    200G    400G    800G
                                               ▲        ▲
                                               │        │
                                          当前主力    新一代
                                         (Hopper)  (Blackwell)

核心技术:SHARP(网内计算)

Quantum 交换机的独特能力:交换机本身可以做数学运算。AI 训练中 GPU 需要做 AllReduce(所有 GPU 汇总梯度更新),SHARP 让交换机在转发数据的同时完成部分计算,减轻 GPU 负担。Quantum-X800 的 SHARP v4 有 14.4 TFLOPS 的算力。


1.5 产品详解:Spectrum Ethernet 交换机

它是什么

同样是机架式交换机,但使用 Ethernet(以太网)协议。Ethernet 是全球最通用的网络标准(你家的 Wi-Fi 路由器底层就是 Ethernet)。NVIDIA 的 Spectrum-X 平台在标准 Ethernet 基础上针对 AI 做了专门优化。

InfiniBand vs Ethernet:什么时候用哪个

                InfiniBand                    Ethernet
                (Quantum 交换机)               (Spectrum 交换机)
                
性能:          最高                           略低,但 Spectrum-X 缩小了差距
延迟:          ~1 微秒                        ~1.5-2.5 微秒
成本:          更贵 (1.5-2.5x)               更便宜
生态:          NVIDIA 独家                    开放标准,多家供应商
多租户:        有限                           原生支持
最适合:        专用 AI 工厂                    多租户云服务
市场趋势:      2023 占 AI 后端 80%            2025 占 AI 后端 70%
                ▼                              ▲
             份额下降中                       份额上升中

关键点:NVIDIA 两边都卖,无论市场往哪边走都受益

当前型号

型号速度端口数总带宽特点
SN5600 (Spectrum-4)800 GbE6451.2 Tb/s当前旗舰
Spectrum-6 (规划中)下一代--硅光集成

Spectrum-X 平台 = SN5600 交换机 + BlueField-3 SuperNIC + LinkX 线缆

这不是单个产品,而是一套组合方案。主要客户包括 Meta、Microsoft、Oracle。


1.6 产品详解:LinkX 线缆与光模块(Interconnect)

它是什么

连接网卡和交换机之间的物理线缆。每个交换机端口、每张网卡的网口都需要一根线缆。这是一个高出货量的消耗品业务:一台 144 端口的交换机就需要 144 根线缆,一个 10,000 GPU 的集群可能需要 50,000+ 根线缆。

线缆类型一览

线缆类型对比:

DAC(铜缆直连)
┌──────┐ ════════════════════ ┌──────┐
│ OSFP │ ~~~~ 铜线 ~~~~ 3米内 │ OSFP │
└──────┘                     └──────┘
特点:最便宜($20-50),零功耗,只能短距离
用途:同机柜内,服务器到顶部交换机

AOC(有源光缆)
┌──────┐ ──────────────────── ┌──────┐
│ OSFP │ ≈≈≈ 光纤 ≈≈≈ 100米  │ OSFP │
└──────┘   (内嵌收发器)       └──────┘
特点:中等价格,光纤一体式,收发器不可拆
用途:跨机柜连接

可插拔光模块 + 光纤
┌──────┐   ┌─────┐ ═══════════ ┌─────┐   ┌──────┐
│交换机│◄──│光模块│≈≈ 光纤 ≈≈  │光模块│──►│交换机│
└──────┘   └─────┘  可达 10km  └─────┘   └──────┘
特点:最灵活也最贵,光模块可单独更换
用途:长距离连接,跨楼宇/跨数据中心

连接器类型(供应计划关键:不同连接器不兼容!)

连接器对比(物理尺寸,按实际比例):

SFP28   [██]          ← 最小,25G,管理接口用
QSFP56  [████]        ← 4 通道,200G,上一代
QSFP112 [████]        ← 4 通道,400G,当前主力
OSFP    [█████]       ← 8 通道,800G,新一代

                     ▲
                     │
            注意:QSFP112 和 OSFP 物理上不兼容!
            订错线缆 = 端口无法使用。这是供应计划中的
            关键兼容性约束。

代际对应关系(供应计划必知)

GPU 平台           网卡              交换机            线缆连接器
─────────          ────              ──────            ──────────
H100/H200    →   ConnectX-7    →   Quantum-2(NDR)  →  QSFP112 (400G)
(Hopper)

B200/GB200   →   ConnectX-8    →   Quantum-X800    →  OSFP (800G)
(Blackwell)                        (XDR)

Vera Rubin   →   ConnectX-9    →   下一代           →  OSFP (800G+)
(2026-2027)

                    两代产品共存,不能混用线缆!

1.7 产品详解:NVLink 和 NVSwitch(Scale-Up 互联)

虽然这些产品不在 JD 列出的范围内(你负责的是 Scale-Out 层),但理解它们有助于面试中展示全局视野。

它们是什么

NVLink 是 NVIDIA 自有的 GPU 间直连通道,速度远超 InfiniBand。NVSwitch 是让多块 GPU 全互联的交换芯片。

速度对比(直观感受):

PCIe Gen 5:      ██                              128 GB/s
InfiniBand NDR:  ████                             50 GB/s
NVLink 5:        ██████████████████████████████  1,800 GB/s
                                                  ▲
                                           NVLink 比 InfiniBand 快 36 倍

GB200 NVL72 参考架构

这是 NVIDIA 最新的旗舰系统,一个机柜就是一台"超级计算机":

GB200 NVL72 单机柜架构

┌══════════════════════════════════════════════════════════════┐
│                    一个机柜 = 一台超级 GPU                     │
│                                                              │
│  ┌─────────────────────────────────────────────────────┐    │
│  │  18 个计算托盘 (Compute Tray)                        │    │
│  │  每个托盘 = 2 块 B200 GPU + 1 块 Grace CPU           │    │
│  │  总计:72 块 GPU + 36 块 CPU                         │    │
│  │                                                     │    │
│  │  每个托盘还装有 ConnectX-7/8 网卡                     │    │
│  │  (用于连接外部网络,即你负责的产品)                    │    │
│  └─────────────────────────────────────────────────────┘    │
│                         ↕ NVLink(机柜内互联,130 TB/s)      │
│  ┌─────────────────────────────────────────────────────┐    │
│  │  9 个 NVLink Switch 托盘                             │    │
│  │  让 72 块 GPU 像一块巨型 GPU 一样工作                  │    │
│  └─────────────────────────────────────────────────────┘    │
│                                                              │
│  性能:1.4 ExaFLOPS AI 算力                                  │
│  内存:30 TB 统一 GPU 内存                                    │
│  NVLink 总带宽:130 TB/s                                     │
│                                                              │
└══════════════════════════════════════════════════════════════┘
          │
          │  ConnectX-8 网卡 + LinkX 线缆(你负责的产品)
          ▼
    [外部网络:Quantum-X800 或 Spectrum-X 交换机]

第二部分:数据中心网络如何组装

2.1 从服务器到网络的完整路径

数据在两台服务器之间的传输路径:

服务器 A                                              服务器 B
┌────────────┐                                    ┌────────────┐
│ [GPU][GPU] │                                    │ [GPU][GPU] │
│     │      │                                    │      │     │
│ [ConnectX] │  ← PCIe 插槽                        │ [ConnectX] │
│     │      │     (网卡插在服务器主板上)              │      │     │
└─────┼──────┘                                    └──────┼─────┘
      │                                                  │
      │  LinkX DAC/AOC 线缆                               │
      │  (铜缆 ≤3 米 或 光缆 ≤100 米)                     │
      ▼                                                  ▼
┌─────────────┐        LinkX 线缆           ┌─────────────┐
│  Leaf 交换机 │ ◄──────────────────────────► │  Leaf 交换机 │
│ (机柜顶部)   │        (400G/800G)          │ (机柜顶部)   │
└──────┬──────┘                              └──────┬──────┘
       │                                            │
       │          LinkX 线缆 (高速上行链路)            │
       ▼                                            ▼
┌─────────────────────────────────────────────────────────┐
│                    Spine 交换机                           │
│              (数据中心的"骨干"交换机)                       │
│         Quantum-X800 (InfiniBand) 或                    │
│         Spectrum SN5600 (Ethernet)                      │
└─────────────────────────────────────────────────────────┘

2.2 Spine-Leaf(脊叶)网络架构

这是现代数据中心的标准网络拓扑。面试中可能会被问到。

传统三层架构 vs 现代 Spine-Leaf 架构

传统(已过时):                        现代(当前标准):
    [核心]                                [Spine 1] [Spine 2] [Spine 3] [Spine 4]
   /     \                                  │╲  ╲╲    ╱╱│ ╲╲   ╱╱│    ╲╲╱╱  │
  [汇聚]  [汇聚]                            │ ╲  ╲╲  ╱╱ │  ╲╲ ╱╱ │    ╱╱╲╲  │
  / \      / \                              │  ╲  ╲╲╱╱  │   ╲╳╱  │  ╱╱  ╲╲  │
[接入][接入][接入][接入]                     │   ╲  ╳╲   │   ╱╲╲  │ ╱╱    ╲╲ │
                                           [Leaf1] [Leaf2] [Leaf3] [Leaf4]
问题:瓶颈多,延迟不一致                    │││       │││       │││      │││
                                         服务器    服务器    服务器   服务器

规则:
- 每个 Leaf 连接到每个 Spine(全互联)
- 任意两台服务器之间恰好 2 跳(Leaf → Spine → Leaf)
- 延迟可预测且一致(对 AI 训练至关重要)
- 扩容简单:加 Spine = 加带宽,加 Leaf = 加服务器

2.3 机柜(Rack)基本概念

标准 42U 服务器机柜

┌────────────────────────────────────┐  ← 机柜顶部
│ [Top-of-Rack 交换机]    2U         │     (Leaf Switch)
├────────────────────────────────────┤
│ [服务器]                1U         │  ← 1U = 1.75 英寸 = 4.45 厘米
│ [服务器]                1U         │
│ [服务器]                1U         │
│ [服务器]                1U         │     标准机柜 42U 高
│ [服务器]                1U         │     约 6 英尺(1.8 米)
│ ...                               │
│ (可装 20-40 台 1U 服务器)           │
│                                    │
│ [服务器]                1U         │
│ [服务器]                1U         │
├────────────────────────────────────┤
│ [配线架]                1U         │  ← 线缆管理
│ [PDU 电源分配]                     │  ← 电源管理
└────────────────────────────────────┘  ← 机柜底部

为什么交换机放顶部?
→ 所有服务器到交换机距离 ≤3 米
→ 可以用最便宜的 DAC 铜缆连接

第三部分:硬件组件深度解析

3.1 PCB(印刷电路板):一切的基础

PCB 截面示意(放大视图):

      ┌─ 锡焊 (Solder)           ← 焊接元件用
      │  ┌─ 阻焊层 (Solder Mask)  ← 绿色保护层
      │  │  ┌─ 铜走线 (Trace)      ← 传输电信号的"微型电线"
      │  │  │  ┌─ 基板 (FR-4)      ← 玻璃纤维+环氧树脂,绝缘体
      ▼  ▼  ▼  ▼
    ┌─────────────────────────────────┐
    │ ●  ════  ●  ════  ●  ════  ●  │  ← 第 1 层铜
    ├─────────────────────────────────┤
    │ ▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒│  ← FR-4 基材
    ├─────────────────────────────────┤
    │ ════════════════════════════════│  ← 第 2 层铜(地线层)
    ├─────────────────────────────────┤
    │ ▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒│  ← FR-4 基材
    ├─────────────────────────────────┤
    │ ════  ●  ════  ●  ════  ●  ═══│  ← 第 3 层铜(信号层)
    ├─────────────────────────────────┤
    │         ... 重复 ...             │
    │    网卡 PCB 一般 8-14 层         │
    │    交换机 PCB 一般 16-32 层      │
    └─────────────────────────────────┘

材料:
- FR-4 基材 = 玻璃纤维布 + 环氧树脂(像复合材料)
- 铜层 = 超薄铜箔,被蚀刻成精密线路
- 阻焊层 = 绿色/黑色涂层,防止短路

供应计划相关:PCB 是定制件,每款产品都不同。交货期 6-16 周。层数越多、精度要求越高的 PCB,能做的工厂越少。

3.2 ASIC(专用集成电路):产品的核心芯片

从沙子到芯片的旅程:

硅砂 ──► 提纯 ──► 硅锭 ──► 切割 ──► 硅晶圆 ──► 光刻+蚀刻 ──► 晶圆上的 Die
                                    (300mm 圆盘)   (500-1000 步)  (数百个芯片)

┌────────────────────────────────────────────────────────┐
│                                                        │
│     一片 300mm 晶圆上的 Die 分布                         │
│                                                        │
│              ╭────────╮                                │
│          ╭───┤ ■ ■ ■ ■├───╮                            │
│        ╭─┤ ■ │ ■ ■ ■ ■│ ■ ├─╮     ■ = 一个 Die        │
│       │■ │ ■ │ ■ ■ ■ ■│ ■ │■│       (一块芯片)         │
│       │■ │ ■ │ ■ ■ ■ ■│ ■ │■│                         │
│        ╰─┤ ■ │ ■ ■ ■ ■│ ■ ├─╯     良率 90% = 10% 废品 │
│          ╰───┤ ■ ■ ■ ■├───╯                            │
│              ╰────────╯                                │
│                                                        │
│     切割(Dicing) ──► 单个 Die ──► 封装(Packaging)       │
│                                                        │
│     ┌──┐     ┌──────────────────┐                      │
│     │■ │ ──► │ ■  Die           │  ← BGA 封装          │
│     └──┘     │ ●●●●●●●●●●●●●●● │     (焊球阵列)        │
│              │ ●●●●●●●●●●●●●●● │     底部有锡球,      │
│              │ ●●●●●●●●●●●●●●● │     焊接到 PCB 上     │
│              └──────────────────┘                      │
│                                                        │
└────────────────────────────────────────────────────────┘

供应计划关键知识

  • ASIC 是唯一来源(NVIDIA 设计,只有 TSMC 能制造)
  • 交货期 20-52 周(从晶圆投片到封装完成)
  • 这是整个产品最大的供应瓶颈:芯片晚了,什么都发不出去
  • Bin Sort(分级):同一片晶圆上的芯片性能不完全一致,测试后按性能分级,创建不同的产品型号

3.3 被动元件:数量最多的"小零件"

一张网卡上有数百到数千个被动元件,很多比米粒还小。

被动元件类比:

电容 (Capacitor)    ○──│├──○     电的"蓄水池",稳定电压波动
                                 类比:水管系统的稳压罐

电阻 (Resistor)     ○──⊘⊘──○    电的"限流阀",控制电流大小
                                 类比:水龙头的阀门

电感 (Inductor)     ○──⌇⌇──○    电的"滤波器",消除噪音
                                 类比:净水器

铁氧体磁珠          ○──●──○     高频噪音过滤
(Ferrite Bead)                   类比:隔音耳塞

供应计划相关:被动元件是大宗商品,单价极低($0.002 一个电容),但品种极多(一块板可能用 50 种不同规格的电容)。2021-2022 年供应危机期间,一个 $0.002 的电容缺货就能让整条生产线停工。

3.4 光模块(Transceiver)内部结构

OSFP 光模块内部(拇指大小的模块):

┌──────────────────────────────────────────┐
│                                          │
│  [激光二极管]    → 电信号转为光脉冲         │
│  (VCSEL/EML)      (像超微型手电筒)        │
│                                          │
│  [光电检测器]    ← 接收端,光转回电信号     │
│  (PIN Diode)      (像微型太阳能板)        │
│                                          │
│  [DSP 芯片]     ← 数字信号处理,清理信号   │
│                                          │
│  [微型透镜]     ← 把光精确对准光纤芯       │
│                    光纤芯只有 9 微米        │
│                    (头发丝的 1/8)          │
│                                          │
│  [微型 PCB]     ← 所有元件的载体           │
│                    约 1cm × 5cm           │
│                                          │
└──────────────────────────────────────────┘
      │
      ▼
  插入交换机或网卡的 OSFP 端口

供应计划相关

  • 光模块是高出货量、高价值消耗品,单个数据中心部署可能需要 10,000-100,000 个
  • 内部的激光二极管和 DSP 芯片都有自己的供应链瓶颈
  • 光学对准是良率限制步骤:激光必须对准只有 9 微米的光纤芯,偏差几微米就会失败
  • 交货期 12-26 周

3.5 制造流程概览

网络产品制造全流程:

阶段 1:晶圆制造 (TSMC)                    12-26 周
┌─────────────────────────────────────────────────┐
│  硅晶圆 → 光刻 → 蚀刻 → 离子注入 → 沉积 → ...   │
│  (500-1000 个加工步骤)                           │
│  产出:刻好电路的晶圆                             │
└───────────────────────────────┬─────────────────┘
                                ▼
阶段 2:封装 (ASE/Amkor)                    4-8 周
┌─────────────────────────────────────────────────┐
│  切割晶圆 → 单个 Die → 贴基板 → BGA 焊球         │
│  产出:封装好的芯片(可以焊到 PCB 上)              │
└───────────────────────────────┬─────────────────┘
                                ▼
阶段 3:PCB 制造 (TTM/Tripod)    ←── 与阶段 1-2 并行  6-12 周
┌─────────────────────────────────────────────────┐
│  层压 → 蚀刻 → 钻孔 → 镀铜 → 阻焊 → 测试         │
│  产出:裸 PCB                                     │
└───────────────────────────────┬─────────────────┘
                                ▼
阶段 4:SMT 组装 (Foxconn/Flex/Celestica)    2-4 周
┌─────────────────────────────────────────────────┐
│  锡膏印刷 → 贴片机放元件 → 回流焊接 → 检测         │
│                                                  │
│  具体步骤:                                       │
│  1. 钢网印刷:锡膏涂在 PCB 焊盘上                  │
│  2. SPI 检测:3D 相机检查锡膏量                    │
│  3. 贴片 (Pick & Place):机械臂从料盘取元件         │
│     放到锡膏上,每小时可放 60,000 个元件             │
│  4. 回流焊:板子过温控烤箱 (220-250°C)              │
│     锡膏融化,形成永久焊点                          │
│  5. AOI 检测:自动光学检查每个焊点                  │
│                                                  │
│  产出:PCBA(组装好的电路板)                       │
└───────────────────────────────┬─────────────────┘
                                ▼
阶段 5:测试                                  1-2 周
┌─────────────────────────────────────────────────┐
│  ICT(在线测试)→ 功能测试 → 老化测试 → 系统测试   │
│                                                  │
│  ICT:探针接触测试点,检查短路/断路/元件值          │
│  功能测试:上电运行,验证全部功能                    │
│  老化测试 (Burn-in):高温高压运行数小时,            │
│         筛选"婴儿期死亡"的不良品                    │
│                                                  │
│  产出:测试合格的成品                              │
└───────────────────────────────┬─────────────────┘
                                ▼
阶段 6:发货                                  1-2 周
┌─────────────────────────────────────────────────┐
│  标签 → 包装 → 序列号登记 → 发运                   │
│  直发:大客户(AWS/Microsoft/Google/Meta)          │
│  经销:Arrow, Avnet, TD SYNNEX                    │
└─────────────────────────────────────────────────┘

总周期:晶圆投片到成品发货 = 26-52+ 周

第四部分:供应链关键概念

4.1 NVIDIA 是 Fabless(无晶圆厂)公司

这是最重要的结构性事实:NVIDIA 只负责设计芯片,所有物理制造都外包。

NVIDIA 的角色 vs 制造合作伙伴:

NVIDIA 做什么:                     谁来做制造:
┌──────────────────────┐           ┌──────────────────────────────────┐
│                      │           │                                  │
│  设计芯片             │           │  晶圆制造:TSMC (台湾/亚利桑那)   │
│  定义 BOM            │           │  封装测试:ASE, Amkor (台湾/马来)  │
│  管理供应链           │  ◄────►  │  基板:Ibiden, Unimicron (台湾/日) │
│  销售产品             │           │  PCB 组装:Foxconn, Flex,         │
│  提供技术支持         │           │            Celestica, Quanta      │
│                      │           │  线缆/光模块:Coherent, Lumentum  │
└──────────────────────┘           └──────────────────────────────────┘

      你的角色 (Supply Planner):
      协调 NVIDIA 内部需求和所有这些外部合作伙伴的产能、物料、排程

4.2 BOM(物料清单)层级结构

网络交换机 BOM 结构示意:

Level 0: Spectrum-X 交换机(成品)
│
├── Level 1: 交换机 PCBA(主板组件)
│   ├── Level 2: Spectrum ASIC(封装芯片) ← 最关键、最长交期
│   │   ├── Level 3: Spectrum Die(裸芯片,来自晶圆)
│   │   └── Level 3: Substrate(基板/中介层)← 第二长交期
│   ├── Level 2: DRAM 内存 × 8
│   ├── Level 2: Flash 存储
│   ├── Level 2: 电源管理 IC × 20+
│   ├── Level 2: 被动元件 × 500+ 种(电容/电阻/电感)
│   └── Level 2: 裸 PCB
│
├── Level 1: 管理板 PCBA(运行操作系统的小板)
├── Level 1: 电源模块 × 2(冗余)
├── Level 1: 风扇模块 × 4-6
├── Level 1: OSFP 端口笼(× 64)
├── Level 1: 机箱外壳(钣金件)
└── Level 1: 线缆、标签、文档

总计:500-2000 个不同料号

4.3 MRP(物料需求计划)在半导体中的运作

MRP 在 Amazon 配件 vs NVIDIA 网络产品:

Amazon 配件:
客户需求 → 查库存 → 差额下 PO → 8-16 周到货 → 入库
简单粗暴,一层 BOM,短交期

NVIDIA 网络产品:
客户需求 (ConnectX 网卡 1000 片)
│
├─ BOM 展开 → PCBA 需求 1000 片
│  ├─ BOM 展开 → ASIC 需求 1000 颗
│  │  ├─ 良率折算 → 需要投片晶圆能产出 1100 颗 Die(良率 90%)
│  │  │  └─ 检查 TSMC 产能分配 → 够不够?不够怎么办?
│  │  └─ Substrate 需求 1100 片 → 交期 20-52 周 → 要提前下单
│  ├─ DRAM 需求 → 交期 8-16 周
│  ├─ 被动元件 500 种 → 每种都要检查库存和交期
│  └─ 裸 PCB 需求 → 交期 6-12 周
│
└─ 生成计划订单 → 核对每层产能 → 确认交期

关键差异:
                Amazon 配件          NVIDIA 网络产品
BOM 层级         2-3 层              5-7 层
料号数量         20-100              500-2000
最长交期         8-16 周             52-78 周
良率折算         不需要              每层都要
产能约束         弹性(换 CM)        刚性(TSMC 排不上就排不上)

4.4 SAP/APO 系统:你会用到的工具

SAP ERP + APO 在供应计划中的角色:

┌────────────────────────────────────────────────────────────┐
│                    SAP APO(计划引擎)                       │
│                                                            │
│  ┌──────────┐  ┌──────────┐  ┌──────────┐  ┌──────────┐  │
│  │ 需求计划  │  │ 供应网络  │  │ 排产计划  │  │ 全球可用  │  │
│  │ (DP)     │  │ 计划(SNP)│  │ (PP/DS)  │  │ 量承诺    │  │
│  │          │  │          │  │          │  │ (gATP)   │  │
│  │ 12-18个月│  │ 多层级供  │  │ SMT产线  │  │ 客户订单  │  │
│  │ 需求预测  │  │ 需匹配   │  │ 排程     │  │ 交期确认  │  │
│  └──────────┘  └──────────┘  └──────────┘  └──────────┘  │
│                         ▲                                  │
│                         │ 数据交互                          │
│                         ▼                                  │
│  ┌──────────────────────────────────────────────────────┐  │
│  │              SAP ERP(主数据+交易记录)                │  │
│  │  BOM / 工艺路线 / 供应商信息 / 采购订单 / 生产订单     │  │
│  │  库存 / 销售订单 / 财务                              │  │
│  └──────────────────────────────────────────────────────┘  │
│                                                            │
│  供应受限时的关键功能:Product Allocation(产品配额)        │
│  → 每个客户/区域分配额度                                    │
│  → 订单只能在配额内确认                                     │
│  → 供应计划员手动调整配额(你的核心日常工作之一)             │
│                                                            │
└────────────────────────────────────────────────────────────┘

4.5 关键供应链指标

指标英文含义为什么重要
周供应量Weeks of Supply (WOS)库存 / 周需求太高 = E&O 风险,太低 = 断货
NCNR 负债NCNR Liability已承诺不可取消订单的金额需求变化时的财务风险敞口
E&O 准备金E&O Reserve预计库存减值的会计准备直接影响利润表
预测准确率Forecast Accuracy实际 vs 预测需求驱动库存和负债决策
准时交付率On-Time Delivery (OTD)按承诺日期发货的百分比客户满意度核心指标
一次通过率First-Pass Yield (FPY)首次测试通过的百分比影响产能和成本
库存周转率Inventory Turns销售成本 / 平均库存运营资本效率

第五部分:NVIDIA 网络业务的商业背景

5.1 Mellanox 收购:改变格局的一笔交易

2020 年,NVIDIA 以 69 亿美元收购了以色列公司 Mellanox Technologies。Mellanox 是 InfiniBand 高速网络芯片的领导者,其产品已装在全球 Top10 超算中的 6 台里。

收购逻辑(Jensen Huang 原话):

"当 NVIDIA 把计算加速 10-50 倍时,数据搬运就成了瓶颈。这就是 Amdahl 定律。"

简单说:GPU 再快,如果数据传不过来也是白搭。NVIDIA 需要同时拥有"大脑"(GPU)和"神经系统"(网络)。

5.2 营收增长轨迹

NVIDIA 网络产品营收增长(单位:十亿美元)

FY2021   ▓▓▓                                              ~$3B
FY2024   ▓▓▓▓▓▓▓▓▓                                        $8.6B
FY2025   ▓▓▓▓▓▓▓▓▓▓▓▓▓                                    $13B
FY2026   ▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓                $31B+
FY2027E  ▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓ ~$57B

         5 年翻了 10 倍。Jensen Huang 在 FY2026 Q4 财报电话会上说:
         "NVIDIA 现在是世界上最大的网络公司。"

5.3 竞争格局

NVIDIA 网络产品竞争地图:

产品领域        NVIDIA 地位              主要竞争对手
──────────      ──────────              ────────────
InfiniBand     垄断 (~90%+ 份额)       无直接竞争者
               Quantum 系列             (UEC 联盟是长期威胁)

AI Ethernet    与 Celestica 合计        Broadcom (Tomahawk 芯片)
               约 50% 份额              Arista (高性能 Ethernet 交换机)
               Spectrum-X 系列          Cisco (Silicon One 芯片)

DPU/SmartNIC   市场领导者               AMD/Pensando (初期)
               BlueField 系列           Intel (IPU 项目收缩中)

线缆/光模块     市场参与者               Coherent, Lumentum, II-VI
               LinkX 系列               (NVIDIA 也是它们的客户)

Ultra Ethernet Consortium (UEC)

2023 年成立的开放标准联盟,100+ 家公司(包括 AMD、Broadcom、Cisco、Intel、Meta、Microsoft,甚至 NVIDIA 自己也加入了),目标是让标准 Ethernet 达到 InfiniBand 的 AI 性能。2025 年 6 月发布了 UEC 1.0 规范。

对供应计划的影响:如果 UEC 成功让 Ethernet 完全替代 InfiniBand,InfiniBand 产品线可能萎缩。但 NVIDIA 两边都卖(Quantum + Spectrum),所以影响可控。

5.4 当前正在管理的产品代际转换

这直接关系到你进去之后的日常工作:

产品代际转换时间线(2024-2026):

              2024                2025                2026
              ├─────────────────┼─────────────────┼──────────

Hopper 时代   ████████████████████░░░░░░░░░░          逐步退出
(H100/H200)   ConnectX-7 + Quantum-2 (NDR, 400G)

Blackwell 时代          ░░░████████████████████████    全面量产
(B200/GB200)            ConnectX-8 + Quantum-X800 (XDR, 800G)

Vera Rubin                                    ░░░░░   准备中
(下一代)                                       ConnectX-9

████ = 量产出货   ░░░ = 爬坡/准备期

你的挑战:
- 旧产品 (NDR, 400G) 在退坡,需要管理剩余库存和 E&O
- 新产品 (XDR, 800G) 在爬坡,需要保障供应承诺
- 两代产品线缆不兼容 (QSFP112 vs OSFP)
- 供应链 52+ 周的交期意味着:今天的决策影响明年的供应

第六部分:Amazon 经验如何迁移

6.1 五个核心差异

维度对比(Amazon 配件 vs NVIDIA 网络产品):

                    Amazon 配件              NVIDIA 网络产品
                    ──────────              ────────────────
计划周期            8-16 周                  52-78 周
                    ▓▓░░░░░░░░░░░░░░        ▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓

单品 BOM 成本       $20-200                  $2,000-50,000+
                    ▓░░░░░░░░░░░░░░░        ▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓

BOM 料号数          20-100                   500-2,000
                    ▓▓░░░░░░░░░░░░░░        ▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓

产能弹性            高(换 CM 即可)           低(TSMC 产能固定)
                    ▓▓▓▓▓▓▓▓▓▓▓▓░░░░       ▓▓▓░░░░░░░░░░░░░░

预测错误代价        中等(退货/打折)          极高(千万美金级 E&O)
                    ▓▓▓▓▓▓░░░░░░░░░░        ▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓

6.2 面试中如何表述迁移价值

面试官问"你在 Amazon 的经验怎么应用到 NVIDIA?"时,可以这样框架化回答:

可直接迁移的能力

  • 需求感知和预测分析(Demand Sensing)
  • 库存优化和周转管理
  • 供应商关系管理
  • 跨部门协调(Demand Planning、Production、Purchasing)
  • 数据驱动的决策能力
  • 流程改进和自动化经验

需要额外学习的领域(诚实承认,展示学习意愿):

  • 半导体制造周期和良率概念
  • 多层 BOM 展开和 MRP 在半导体中的运作
  • NCNR 承诺管理和 E&O 风险控制
  • SAP APO 产品配额管理(如果之前没用过 SAP APO)
  • 代际转换中的供应计划(两代产品并行管理)

核心论点

"Amazon 的 supply planning 训练了我在需求波动和供应不确定性中做数据驱动决策的能力。NVIDIA 网络产品的挑战在于更长的计划周期(52+ 周 vs 8-16 周)、更高的单品价值、更刚性的产能约束。这意味着预测错误的代价更高,每个承诺决策都需要更谨慎的风险评估。我在 Amazon 建立的分析框架和跨职能协调能力直接适用,而半导体特有的领域知识(良率管理、NCNR、代际转换)是我正在积极学习的方向。"


第七部分:关键术语速查表

产品和技术术语

术语英文全称含义
ASICApplication-Specific Integrated Circuit专用集成电路,产品核心芯片
PCBPrinted Circuit Board印刷电路板,所有元件的载体
PCBAPCB Assembly组装好元件的电路板
PCIePCI Express服务器内部的标准接口,网卡插在这里
RDMARemote Direct Memory AccessGPU 直接读取远程 GPU 内存,不经 CPU
InfiniBand (IB)-高性能网络协议,NVIDIA 垄断
Ethernet-通用网络协议,开放标准
RoCERDMA over Converged Ethernet让 Ethernet 也能做 RDMA
NDRNext Data RateInfiniBand 第7代,400 Gb/s
XDReXtreme Data RateInfiniBand 第8代,800 Gb/s
NVLink-NVIDIA 自有 GPU 间直连通道
NVSwitch-NVLink 的交换芯片
DPUData Processing Unit自带处理器的智能网卡
OSFPOctal Small Form-factor Pluggable8 通道光模块/线缆连接器,800G
QSFPQuad Small Form-factor Pluggable4 通道连接器,400G 及以下
DACDirect Attach Copper铜缆直连,短距离最便宜
AOCActive Optical Cable有源光缆,中距离
SHARPScalable Hierarchical Aggregation and Reduction Protocol交换机内计算,减轻 GPU 负担
ToRTop-of-Rack机柜顶部交换机
Spine-Leaf-现代数据中心两层网络架构

供应链术语

术语英文全称含义
BOMBill of Materials物料清单,产品所有零件的清单
MRPMaterial Requirements Planning物料需求计划,BOM 展开计算
NCNRNon-Cancellable Non-Returnable不可取消不可退货,一旦下单必须买
E&OExcess and Obsolescence过剩和过时库存
ECNEngineering Change Notice工程变更通知
PCNProduct Change Notice供应商变更通知
EOLEnd of Life产品/元件停产
LTBLast Time Buy停产前最后一次采购
NPINew Product Introduction新产品导入
EVT/DVT/PVTEngineering/Design/Production Validation Test产品开发三阶段验证
AVLApproved Vendor List合格供应商清单
SMTSurface Mount Technology表面贴装技术(PCB 组装工艺)
ICTIn-Circuit Test在线测试(检查焊接质量)
Yield-良率,合格品占总产出的百分比
Bin Sort-芯片按性能分级
Die-晶圆上切下来的单个芯片
Wafer-硅晶圆,300mm 圆盘
Substrate-基板/中介层,芯片和 PCB 之间的桥梁
Die Bank-封装好的芯片库存(延迟组装策略)
FabFabrication Facility晶圆制造工厂
OSATOutsourced Semiconductor Assembly and Test外包封装测试厂商
CMContract Manufacturer代工厂
ODMOriginal Design Manufacturer原始设计制造商
OEMOriginal Equipment Manufacturer原始设备制造商
WOSWeeks of Supply周供应量(库存健康指标)
OTDOn-Time Delivery准时交付率
FPYFirst-Pass Yield一次通过率
gATPglobal Available-to-Promise全球可用量承诺

供应链组件交期速查

交期从短到长排列:

被动元件 (Cap/Res)    ▓▓▓▓                              4-8 周
风扇模块              ▓▓▓▓▓▓▓▓                          8-12 周
裸 PCB               ▓▓▓▓▓▓▓▓▓▓▓▓                      6-12 周
DRAM 内存             ▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓                  8-16 周
光模块                ▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓       12-26 周
晶圆 (先进制程)        ▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓ 16-26 周
基板 (Substrate)      ▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓ 20-52 周
先进封装 (CoWoS)      ▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓ 52-78 周

系统总交期            ▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓ 52-78 周
                     │                                                   │
                     0 周                                              78 周

第八部分:面试可能的问题和建议回答框架

Q1: "Tell me about NVIDIA's networking products."

框架:两层架构 → Scale-Up (NVLink) + Scale-Out (你负责的) → 列举产品线 → 强调代际转换

Q2: "How would you manage a supply constraint situation?"

框架:识别瓶颈组件 → 评估影响范围 → 与 Demand Planning 对齐优先级 → 使用 SAP APO Product Allocation 分配 → 沟通客户 → 持续跟踪至恢复

Q3: "How does semiconductor supply planning differ from your Amazon experience?"

框架:五个核心差异(计划周期、BOM 复杂度、成本、产能弹性、代际转换)→ 可迁移能力 → 学习计划

Q4: "How would you reduce excess inventory?"

框架:监控 WOS 指标 → 需求信号验证(客户是否重复下单?)→ 与 BU 对齐需求灵活性 → Die Bank 策略延迟组装 → ECN 影响评估 → Burn-down 计划

Q5: "Describe how you'd create a production schedule."

框架:需求输入 → BOM 展开 → 检查关键物料(ASIC, Substrate, Memory)→ Lot Sizing 考虑 → 产能约束检查(CM 产线、测试设备)→ 优先级排序 → 周度更新


附录:参考来源

  • NVIDIA 官方产品文档 (docs.nvidia.com)
  • NVIDIA ConnectX-7/8 用户手册和数据表
  • NVIDIA Quantum-2/X800 产品规格
  • NVIDIA Spectrum-4 SN5600 硬件手册
  • NVIDIA FY2025/FY2026 财报电话会议纪要
  • NVIDIA GTC 2025 技术发布会
  • Dell'Oro Group 2026 年 AI 网络市场份额报告
  • Moody's 半导体供应链分析 (2026)
  • ServeTheHome QSFP28 拆解分析
  • Umbrex IT 硬件与网络 OEM 行业分析
  • T1Nexus 1.6T 网络供应链分析
  • Ultra Ethernet Consortium (UEC) 1.0 规范 (2025.6)