NVIDIA Senior Supply Planner (Networking) 岗位深度拆解

48 min readNVIDIA · 供应链 · 面试准备 · 岗位分析

这份报告解决什么问题

上一份报告解释了 NVIDIA 卖什么产品、产品长什么样、数据中心怎么组装。这份报告专注于一个问题:这个岗位每天到底在做什么?

JD 里有很多术语(supply dedication、production schedule、liability、tradeoff options),面试官会假设你理解这些词的实际含义。这份报告会逐条拆解 JD 的每一句话,把抽象描述翻译成具体的日常工作场景。


第一部分:你负责的产品到底是什么

JD 写的是 "Adapters, Switches, and Interconnect"。在你去理解岗位职责之前,先搞清楚这三样东西是什么、长什么样、在哪里用、为什么值那么多钱。

先看大图:一个 AI 数据中心的网络是怎么连的

训练 ChatGPT 这样的大模型需要几千块 GPU 同时工作。这些 GPU 分布在不同的服务器里,服务器装在机柜里,机柜摆在数据中心的大厅里。GPU 之间需要不断互相传数据(交换计算结果),传得越快,训练效率越高。你负责的产品就是让这些 GPU 能高速通信的全套"网络设备"。

一个 AI 数据中心的网络连接全貌:

机柜 A                    机柜 B                    机柜 C
┌──────────────┐         ┌──────────────┐         ┌──────────────┐
│ 服务器 ← GPU │         │ 服务器 ← GPU │         │ 服务器 ← GPU │
│   │          │         │   │          │         │   │          │
│ [网卡]       │         │ [网卡]       │         │ [网卡]       │
│   │ Adapter  │         │   │ Adapter  │         │   │ Adapter  │
│   │          │         │   │          │         │   │          │
│ 服务器 ← GPU │         │ 服务器 ← GPU │         │ 服务器 ← GPU │
│   │          │         │   │          │         │   │          │
│ [网卡]       │         │ [网卡]       │         │ [网卡]       │
│   │          │         │   │          │         │   │          │
├──┼───────────┤         ├──┼───────────┤         ├──┼───────────┤
│  ▼           │         │  ▼           │         │  ▼           │
│ [Leaf 交换机]│         │ [Leaf 交换机]│         │ [Leaf 交换机]│
│  Switch      │         │  Switch      │         │  Switch      │
└──┬───────────┘         └──┬───────────┘         └──┬───────────┘
   │                        │                        │
   │    ┌───────────────────┤                        │
   │    │    ┌──────────────┼────────────────────────┘
   │    │    │              │
   ▼    ▼    ▼              ▼
┌────────────────────────────────────────┐
│         Spine 交换机(骨干层)           │
│         Switch                         │
└────────────────────────────────────────┘

所有的 │ 和 ─ 连线 = 线缆 (Interconnect)

你负责供应计划的三样东西:
  1. 网卡 (Adapter)    ← 每台服务器里面插一张
  2. 交换机 (Switch)    ← 每个机柜顶部放一台,骨干层还有更大的
  3. 线缆 (Interconnect) ← 把网卡和交换机连起来的物理线

产品 1:Adapter(网卡) —— ConnectX 系列

它是什么

一张电路板,大约一个手掌大小(2.7 英寸 × 6.6 英寸),插在服务器内部的插槽里。它是服务器连接外部网络的唯一出口。没有这张卡,服务器就是一台孤岛,GPU 再强也没用。

网卡在服务器里的位置:

服务器(一台扁平的大电脑,装在机柜里)
┌─────────────────────────────────────────────────────┐
│                                                     │
│  [CPU]  [CPU]     [内存条][内存条][内存条]             │
│                                                     │
│  [GPU]  [GPU]  [GPU]  [GPU]    ← 做 AI 计算的       │
│                                                     │
│  ┌─────────────────────┐                            │
│  │     ConnectX 网卡    │  ← 你负责的产品,插在这里   │
│  │  ┌───┐              │                            │
│  │  │芯片│ ○○○ ○○○     │  ← 一块芯片 + 几百个小零件  │
│  │  └───┘              │                            │
│  │  ▐▐▐▐▐▐▐▐▐▐▐▐▐▐▐▐  │  ← 金手指,插入主板插槽     │
│  └──────────┬──────────┘                            │
│             │ ← 网口,线缆从这里接出去                │
└─────────────┼───────────────────────────────────────┘
              │
              ▼
         [线缆 → 交换机]

它为什么这么重要

AI 训练的核心瓶颈不是计算速度,而是数据传输速度。几千块 GPU 必须不断互传计算结果(叫 AllReduce 操作),传得慢就等于所有 GPU 都在空转等数据。网卡的速度直接决定 GPU 的利用率。一张 ConnectX-7 网卡传输速度是 400 Gb/s(每秒 400 千兆比特),最新的 ConnectX-8 达到 800 Gb/s。

当前卖的型号

型号速度配套哪代 GPU状态你会管的事
ConnectX-7400 Gb/sH100/H200当前出货主力,量最大需求稳定但在退坡
ConnectX-8800 Gb/sB200/GB200 (Blackwell)新一代,正在爬坡NPI 供应保障
ConnectX-9800 Gb/sVera Rubin (下一代)2026 发布早期规划

出货量级:一个 10,000 GPU 的 AI 集群需要几千张网卡。每台服务器 1-2 张。这是高出货量产品。

它是怎么造出来的(简化版)

ConnectX 网卡的制造流程:

1. TSMC 造芯片(晶圆 → 切割 → 封装)     16-26 周
         │
2. PCB 工厂造电路板(裸板)               6-12 周(和第 1 步并行)
         │
3. 代工厂组装(芯片 + 电路板 + 几百个零件)  2-4 周
   Foxconn / Flex / Celestica
         │
4. 测试(上电运行,验证所有功能)            1-2 周
         │
5. 出货                                   1 周

总周期:26-52 周
       └── 你需要在这么早之前开始规划

一张网卡上有什么零件(BOM 简览)

零件是什么数量交期供应风险
ASIC 芯片核心处理器,指甲盖大小1 颗20-52 周🔴 最高:唯一来源 (TSMC)
基板 (Substrate)芯片和电路板之间的桥梁1 片20-52 周🔴 高:供应紧张
内存 (DRAM)临时数据缓存2-4 颗8-16 周🟡 中:大宗商品但周期性
被动元件电容/电阻/电感,比米粒还小数百个4-8 周🟡 中:品种极多
PCB 裸板所有零件的载体(绿色板子)1 片6-12 周🟡 中
散热器铝块,给芯片降温1 个4-8 周🟢 低
金属支架固定在服务器机箱上1 个4-8 周🟢 低

供应计划核心知识:整个产品的瓶颈是 ASIC 芯片。芯片到了,其他零件基本都能凑齐。芯片没到,什么都发不出去。


产品 2:Switch(交换机) —— Quantum 系列和 Spectrum 系列

它是什么

一台机架式网络设备,外观像一个扁平的黑色盒子,宽约 17 英寸,高 3.5 英寸(2U),深约 28 英寸。大小类似一个大号披萨盒。它装在机柜的顶部(叫 Top-of-Rack,简称 ToR),负责把同一个机柜内所有服务器的网络流量汇聚并转发。

交换机的外观和内部:

正面(你看到的一面):
┌────────────────────────────────────────────────────────────────┐
│                                                                │
│  [■][■][■][■][■][■][■][■][■][■][■][■][■][■][■][■]  ← 64 个端口│
│  [■][■][■][■][■][■][■][■][■][■][■][■][■][■][■][■]    每个端口 │
│                                                      插一根线缆│
│                                               [管理口][Console] │
│  高 3.5 英寸 × 宽 17 英寸 × 深 28 英寸                          │
│  ≈ 一个大号披萨盒                                               │
└────────────────────────────────────────────────────────────────┘

背面:
┌────────────────────────────────────────────────────────────────┐
│  [电源 1] [电源 2]     [风扇][风扇][风扇][风扇]                  │
│  (两个冗余,             (吹风散热,                              │
│   一个坏了另一个接管)      可以不停机更换)                         │
└────────────────────────────────────────────────────────────────┘

内部核心(打开盖子能看到的):
┌────────────────────────────────────────────────────────────────┐
│                                                                │
│  [交换芯片 ASIC]  ← 核心,比网卡的芯片更大更贵                   │
│   决定每个数据包往哪个端口走                                      │
│   每秒处理数十亿个数据包                                          │
│                                                                │
│  [管理 CPU + 内存 + SSD]  ← 运行操作系统,管理交换机配置          │
│                                                                │
│  [大量被动元件 + 电源模块]                                       │
│                                                                │
└────────────────────────────────────────────────────────────────┘

交换机做什么

类比:交换机就是数据中心里的十字路口交通灯。每台服务器发出的数据包到达交换机后,交换机在几纳秒内读取目的地地址,把它送到正确的端口。一台 64 端口的交换机同时管理 64 条"车道"的交通,每秒钟处理几十亿个"车辆"(数据包)。

NVIDIA 卖两种交换机

两种交换机的区别:

Quantum 交换机(InfiniBand 协议)           Spectrum 交换机(Ethernet 协议)
─────────────────────────                 ─────────────────────────

用 InfiniBand 语言通信                     用 Ethernet 语言通信
(NVIDIA 独有的高速协议)                   (全球通用的网络标准)

性能最高,延迟最低(~1 微秒)               性能略低但很接近(~1.5-2.5 微秒)
价格更贵(1.5-2.5 倍)                     价格更便宜
只有 NVIDIA 做                             开放生态,多家供应商

适合:专门建来做 AI 的数据中心               适合:同时跑 AI 和其他业务的云服务商

主要客户:                                 主要客户:
  专用 AI 训练集群                           AWS, Azure, Google Cloud
  国家实验室/超算中心                         Meta, Oracle

当前型号:                                 当前型号:
  Quantum-2 (QM9700) — 64 口 × 400G        SN5600 — 64 口 × 800G
  Quantum-X800 (Q3400) — 144 口 × 800G     (下一代 Spectrum-6 规划中)

关键点:NVIDIA 两种都卖,无论市场偏向哪边,你的工作量都不会少

交换机的 BOM(比网卡复杂得多)

交换机 BOM 层级:

成品交换机(你最终出货的东西)
│
├── 主板 PCBA(最核心)
│   ├── 交换芯片 ASIC × 1       ← 最贵、最长交期
│   ├── 内存模块 × 8
│   ├── Flash 存储 × 1
│   ├── 电源管理芯片 × 20+
│   ├── 被动元件 × 500-1000 种
│   └── 裸 PCB × 1(16-32 层)
│
├── 管理板 PCBA
│   ├── AMD CPU × 1(运行操作系统)
│   ├── 32 GB RAM
│   └── 160 GB SSD
│
├── 电源模块 × 2(冗余)          ← 单独的供应链
├── 风扇模块 × 4-6(可热插拔)    ← 也是单独管的
├── 机箱外壳(钣金件)
└── 端口笼 × 64(OSFP 接口)

总料号:500-2000 个不同零件
单台成本:比网卡高得多(交换芯片 + 电源 + 机箱 + 风扇 = $$$$)

产品 3:Interconnect(线缆和光模块) —— LinkX 系列

它是什么

连接网卡和交换机之间的物理线。每个交换机端口都要插一根线缆,每张网卡的网口也要插一根。这是一个超高出货量的消耗品生意

线缆在系统中的位置:

     服务器里                     机柜顶部
  ┌───────────┐               ┌───────────┐
  │ [ConnectX │               │ [Quantum  │
  │  网卡]    │               │  交换机]  │
  │   ■■■■    │               │  ■ ■ ■ ■  │
  └─────┬─────┘               └─────┬─────┘
        │                           │
        │         线缆              │
        └──── ═══════════════ ──────┘
              ▲
              │
              这根线就是 Interconnect
              每个端口一根
              64 口交换机 = 至少 64 根线缆
              一个 10,000 GPU 集群 = 50,000+ 根线缆

三种线缆类型

按距离和价格排列:

类型 1:DAC 铜缆(Direct Attach Copper)
────────────────────────────────────────
[连接器] ════ 铜线 ════ [连接器]
          最多 3 米

  价格:$20-50 一根(最便宜)
  功耗:几乎为零
  用途:同一个机柜内,服务器到顶部交换机(距离很短)
  类比:USB 数据线


类型 2:AOC 有源光缆(Active Optical Cable)
────────────────────────────────────────
[连接器+激光] ≈≈≈ 光纤 ≈≈≈ [连接器+激光]
              最多 100 米

  价格:中等
  功耗:需要供电(内有激光器)
  用途:跨机柜连接,同一数据中心大厅内
  类比:HDMI 光纤线


类型 3:可插拔光模块 + 独立光纤
────────────────────────────────────────
[交换机] ← [光模块] ≈≈≈ 光纤 ≈≈≈ [光模块] → [交换机]
             ▲         可达 10 公里        ▲
             │                            │
          拇指大小的                     可单独
          可插拔模块                     更换

  价格:最贵(光模块 $200-2000+ 一个)
  用途:长距离,跨楼宇,跨数据中心
  类比:SFP 光纤收发器

光模块内部(为什么贵?为什么有供应风险?)

一个 OSFP 光模块内部(约 1cm × 5cm,拇指大小):

┌──────────────────────────────────────┐
│                                      │
│  [激光二极管]   → 把电信号变成光脉冲   │
│   比针尖还小      像超微型手电筒       │
│                                      │
│  [光电检测器]   ← 把光信号变回电信号   │
│                  像微型太阳能电池      │
│                                      │
│  [DSP 芯片]    ← 数字信号处理器       │
│                  清理和放大信号        │
│                                      │
│  [微型透镜]    ← 把光精确对准光纤芯    │
│                  光纤芯只有 9 微米     │
│                  头发丝的 1/8         │
│                                      │
│  [微型电路板]  ← 所有元件的载体        │
│                                      │
└──────────────────────────────────────┘

为什么有供应风险:
  - 激光二极管:特殊半导体工艺,少数厂商能做
  - DSP 芯片:供应紧张(Broadcom 等供应商在分配)
  - 光学对准:光纤芯只有 9 微米,对准精度要求极高
    → 不是每个都能做成功(良率问题)
  - 交期:12-26 周

连接器兼容性(供应计划必须记住的)

不同连接器物理上不兼容!

QSFP112 连接器 [████]     ← 400G,ConnectX-7 / Quantum-2 用
OSFP 连接器    [█████]    ← 800G,ConnectX-8 / Quantum-X800 用

         ╳ 不能混插!

如果客户的交换机是 OSFP 端口,你发的是 QSFP112 线缆 → 插不进去 → 废了

代际对应关系(必须记住):

  Hopper 平台 (H100/H200)
    → ConnectX-7 + Quantum-2 → QSFP112 线缆 (400G)

  Blackwell 平台 (B200/GB200)
    → ConnectX-8 + Quantum-X800 → OSFP 线缆 (800G)

  两代共存,线缆不通用,订单不能搞混

三个产品的出货量和价值感

一个 10,000 GPU 的 AI 集群大概需要:

产品               数量           单价范围          总价值量级
────               ──             ──               ──
网卡 (Adapter)     ~2,500 张      $500-2,000       $1.25M - $5M
交换机 (Switch)    ~200 台        $10,000-50,000   $2M - $10M
线缆 (Interconnect) ~50,000 根    $20-2,000        $1M - $100M
                                                   (看用什么类型)

你管的不是小生意。
一个大客户的单笔订单可能就是数千万美元。

产品代际转换:你进去马上就会面对的事

2024-2026 产品代际转换时间线:

              2024                2025                2026
              ├─────────────────┼─────────────────┼──────────

Hopper 时代   ████████████████████░░░░░░░░░░          退坡中
              CX-7 + Quantum-2 + QSFP112 线缆

Blackwell     ░░░░░░░████████████████████████████    爬坡中
              CX-8 + Quantum-X800 + OSFP 线缆

你入职后马上要管的:
  1. 旧产品退坡:CX-7 需求在下降,但还有客户要
     → 库存会不会过剩?NCNR 要不要砍?
  2. 新产品爬坡:CX-8 需求在猛涨,但产能还在建
     → 芯片够不够?产线排得上吗?
  3. 线缆不通用:QSFP112 和 OSFP 混不了
     → 必须分别管两套供应链

第二部分:一句话定义这个角色

你不是在"订货",你是在"指挥生产"。

这是从 Amazon 配件供应计划迁移过来最大的认知转换。在 Amazon,产品已经存在于供应商的仓库里,你决定买多少、放在哪里。在 NVIDIA,产品还不存在,你决定什么时候开始造、造多少、先给谁。你不是在管库存,你是在指挥一个全球制造网络。

Amazon 配件 Supply Planner                    NVIDIA Networking Supply Planner

  供应商仓库里有现货                              产品还没造出来
       │                                            │
       ▼                                            ▼
  "我要下单买 5000 个"                           "我要让工厂在第 12 周
                                                  生产 5000 片网卡"
       │                                            │
       ▼                                            ▼
  8-16 周后到货                                  需要协调:
  入库、分仓                                      - TSMC 的晶圆(20-52 周前下单)
                                                  - 基板供应商(20-52 周前下单)
                                                  - 代工厂的产线排期
                                                  - 500 种零件的到位情况
                                                  - 测试设备的排期
                                                       │
                                                       ▼
                                                  26-52 周后才能出货

核心差异:你在 Amazon 管的是物流和库存
         在 NVIDIA 管的是生产和制造

第三部分:JD 逐句拆解

JD 原文 1: "Act as the critical link within Operations to Demand Planning and the Business Units to set priorities and supply strategies."

翻译成大白话

你是信息枢纽。公司里没有第二个人同时掌握以下信息:

  • 客户要多少(来自 Demand Planning)
  • 工厂能造多少(来自 Production/CM)
  • 原材料够不够(来自 Purchasing)
  • 产线排不排得上(来自 Capacity Planning)
  • 哪个客户优先(来自 Business Unit)

你的工作就是把这五条信息合成一个可执行的计划。

你在组织中的位置:

                    ┌──────────────┐
                    │  Business    │  ← 告诉你:哪个客户优先、
                    │  Unit (BU)   │     营收目标是什么
                    └──────┬───────┘
                           │
     ┌─────────────┐       │       ┌──────────────┐
     │  Demand     │       │       │  Capacity    │
     │  Planning   │       │       │  Planning    │
     │             │◄──────┤──────►│              │
     │ 客户要多少   │       │       │ 产线能跑多少  │
     └──────┬──────┘       │       └──────┬───────┘
            │              │              │
            │       ┌──────▼───────┐      │
            └──────►│              │◄─────┘
                    │   你         │
                    │ Supply       │
                    │ Planner      │
                    │              │
            ┌──────►│              │◄─────┐
            │       └──────┬───────┘      │
            │              │              │
     ┌──────┴──────┐       │       ┌──────┴───────┐
     │ Purchasing  │       │       │ Production/  │
     │             │       │       │ CM (代工厂)  │
     │ 零件买到没   │       ▼       │ 工厂产出情况  │
     └─────────────┘  汇总所有信息   └──────────────┘
                      做出生产计划
                      发出供应承诺

面试中怎么展示理解

"这个角色是 Demand 和 Supply 之间的翻译官。Demand Planning 给我一个'客户想要什么'的信号,我把它转化成'工厂该造什么'的指令,同时确保 BU 的优先级得到执行。"


JD 原文 2: "Own the supply dedication for various networking products such as Adapters, Switches, and Interconnect. These products support NVIDIA's customer and revenue promises."

翻译成大白话

Supply dedication = 你是这些产品供应的唯一责任人。

当 CFO 问"下季度能出多少台 InfiniBand 交换机?",答案来自你。当销售团队跟客户承诺"Q3 交 10,000 张 ConnectX 网卡",这个承诺能不能兑现,看你。

"Own" 意味着什么:

你可以自己决定的事:                      你需要上报的事:
──────────────────                      ──────────────
✅ 在产能受限时决定先造哪个 SKU           ⬆️ 对大客户改交期(需要 BU 签字)
✅ 接受或拒绝客户的提前交货请求           ⬆️ 超过额度的 NCNR 负债审批
✅ 在产品家族内调配供应                   ⬆️ 把一个战略客户的供应转给另一个
✅ 决定什么时候给管理层预警               ⬆️ 超出预算的加急费用
✅ 安排代工厂的生产批次排序               ⬆️ 影响当季营收的任何决定

"support NVIDIA's customer and revenue promises" 是关键。你不只是在管物流,你的供应承诺直接决定 NVIDIA 的营收能否达标。如果你承诺了 10,000 台但只交了 8,000 台,差的 2,000 台就是直接的营收损失。


JD 原文 3: "Craft an optimized requested production schedule considering lot-sizing, priorities, constraints for NVIDIA's execution teams and contract manufacturers globally."

翻译成大白话

你每周要做一份生产排程表,告诉代工厂"这周造什么、造多少、先造哪个"。

这是你最核心的日常产出物。

这份排程表是怎么做出来的

生产排程的输入和输出:

输入(你每周收集的信息):
┌─────────────────────────────────────────────────────────────────┐
│                                                                 │
│  1. 需求信号                 ← Demand Planning 给你的 13-26 周预测 │
│     "Q3 需要 ConnectX-7 网卡 8000 片"                            │
│                                                                 │
│  2. 现有库存                 ← SAP 系统中的成品库存                │
│     "仓库里还有 1200 片"                                         │
│                                                                 │
│  3. 在制品 (WIP)             ← 代工厂正在生产的                   │
│     "SMT 线上有 500 片,测试中有 300 片"                          │
│                                                                 │
│  4. 零件到位情况             ← Purchasing 告诉你的                 │
│     "ASIC 芯片够 6000 片,但电容只够 4000 片"                     │
│                                                                 │
│  5. 代工厂产能               ← Capacity Planning 告诉你的         │
│     "这条 SMT 线每周最多跑 2000 片"                               │
│                                                                 │
│  6. BU 优先级                ← Business Unit 告诉你的              │
│     "Microsoft 的订单最优先,其次是 Meta"                          │
│                                                                 │
└─────────────────────────────────────────────────────────────────┘
                              │
                              ▼
你的工作:把这些信息揉在一起,做出一个可执行的排程
                              │
                              ▼
输出(你每周发给代工厂的指令):
┌─────────────────────────────────────────────────────────────────┐
│                                                                 │
│   周       产品              数量    优先级    备注              │
│   ──       ────              ──      ──       ──               │
│   W12    ConnectX-7 400G    1000    P1       Microsoft 订单     │
│   W12    ConnectX-7 200G     500    P2       Meta 订单          │
│   W13    ConnectX-7 400G    1000    P1       Microsoft 订单     │
│   W13    Quantum-2 switch    200    P1       Google 订单        │
│   W14    ConnectX-8 800G     300    P2       NPI 样品           │
│   ...                                                          │
│                                                                 │
└─────────────────────────────────────────────────────────────────┘

Lot-sizing(批次大小)是怎么回事

这是 Amazon 配件规划里不太会遇到的概念。

为什么不能想造多少就造多少:

SMT 产线换线需要时间和成本:

换线 = 更换锡膏钢网 + 重新编程贴片机 + 上料 + 调试
     = 2-4 小时停机 + $500-2000 成本

所以:
  造 100 片 ConnectX-7 → 换线 → 造 50 片 Quantum 交换机 → 换线 → ...
  每次换线都浪费 2-4 小时

  vs.

  造 500 片 ConnectX-7(跑 2 天)→ 换线 → 造 300 片 Quantum(跑 1.5 天)
  换线次数少,效率高

但是:
  大批次 = 效率高,但库存堆积(万一卖不掉呢?)
  小批次 = 灵活,但换线多,成本高

  ──► 你的工作:在"效率"和"灵活性"之间找到最优点

JD 原文 4: "Guard NVIDIA's liability by working to reduce excess. Coordinate closely with the BU on demand and flexibility trade-offs. Ensure every additional liability is carefully weighed."

翻译成大白话

你是 NVIDIA 的"财务看门人"。每一个生产决策背后都是真金白银的承诺。

什么是 Liability(负债/敞口)

NCNR (Non-Cancellable Non-Returnable) 机制:

你下单给代工厂:"请生产 5000 片 ConnectX-7"
            │
            ▼
代工厂收到订单,开始采购零件:
  - 向 TSMC 下了 ASIC 芯片订单 ← 不可取消
  - 向 Ibiden 下了基板订单      ← 不可取消
  - 向各供应商下了被动元件订单  ← 不可取消
            │
            ▼
此时,即使 NVIDIA 说"我不要了":
  - 零件已经买了 ← NVIDIA 必须付钱
  - 产能已经占了 ← NVIDIA 必须付钱

这就是 NCNR Liability(不可取消负债)

为什么这很危险?
─────────────
  假设你按照需求预测下了 5000 片的订单
  6 个月后产品出来了,但客户只要了 3000 片

  多出来的 2000 片:
  - 每片成本 $2000-5000
  - 总敞口:$4M - $10M
  - 这笔钱直接从 NVIDIA 的利润里扣

  这就是 Excess & Obsolescence (E&O)

你和 BU 的"灵活性谈判"

这是这个岗位最需要情商的部分。

BU(业务部门)和你的利益天然存在张力:

BU 的立场:                              你的立场:
"多备货!客户随时可能加单!"              "多备货 = 多 NCNR 负债"
"错过一个订单就是错过营收!"              "多造了卖不掉就是 E&O 损失"
"保守估计不如激进估计"                   "你签字承担超额负债吗?"

你的工作不是拒绝 BU,而是让决策透明化:

  "如果我多造 2000 片来覆盖你的乐观情景,
   万一需求不到位,NVIDIA 承担 $8M 负债。
   你是否授权这笔额外负债?"

              │
              ▼
   如果 BU 说"是" → 你执行,但要拿到书面确认
   如果 BU 说"让我想想" → 你提供折中方案:
     例如 "造 1000 片 firm + 1000 片 flex(4 周内可取消)"

负债审批层级

审批权限(典型结构):

你可以自己批的:            < $X 百万(在既有计划内)
需要经理批的:              $X - $Y 百万
需要总监/VP 批的:          $Y - $Z 百万(需 BU + Finance 联签)
需要 CFO/COO 批的:         > $Z 百万

JD 原文 5: "Often, there will be capacity, materials, and production issues that will prevent satisfying all demand. You will be planning's person in charge to determine tradeoff options and work with internal partners to craft an efficient plan."

翻译成大白话

供应不足是常态,不是异常。你的核心价值就是在"不够分"的时候做出最优分配。

三个真实场景

场景 A:零件短缺
────────────────
光模块的 DSP 芯片被供应商限制分配,你只拿到 3000 颗,但需求是 5000。

你的动作流程:
1. 确认短缺(和 Purchasing 核实,这是真的还是供应商在谈条件?)
2. 决定先造哪 3000 台(按客户优先级排:合同承诺 > 战略客户 > 一般客户)
3. 量化缺口的营收影响(差 2000 台 × 单价 = $X M 营收 at risk)
4. 探索替代方案:
   - 能不能用另一款 DSP?(需要工程部认证,4-8 周)
   - 能不能从其他产品线借?(需要其他 Planner 同意)
   - 能不能让供应商加急?(可能要付溢价)
5. 做成"选项表"给管理层:

   ┌──────────────────────────────────────────────────────┐
   │  选项    描述              成本       恢复量   风险    │
   │  ──      ──                ──         ──      ──     │
   │  A    加急采购 DSP        +$200K     +800    低      │
   │  B    从 GPU 产线借零件    $0        +500    中(*)   │
   │  C    接受缺口,推迟交期    $0         0      高(**)  │
   │                                                      │
   │  (*) GPU 产线会推迟 1 周                              │
   │  (**) 客户可能转向竞品                                │
   │                                                      │
   │  建议:A + B 组合,恢复 1300 台。仍差 700 台。         │
   │  需要 BU 决定哪些客户推迟。                            │
   └──────────────────────────────────────────────────────┘


场景 B:代工厂产能问题
────────────────────
台湾代工厂出了品质问题,500 块板子测试失败,需要返工。出货推迟 2 周。

你的动作流程:
1. 拿到代工厂的恢复计划(返工什么时候完?)
2. 评估哪些客户的出货受影响
3. 有没有备选代工厂能分担?
4. 要不要加急(加班、空运)?成本多少?
5. 给 BU 一个影响清单:"这些客户会晚 X 天,要不要接受?"


场景 C:紧急大单
──────────────
一个超大规模客户突然追加 1000 台交换机,要求 6 周内交。你的排程里没有这个量。

你的动作流程:
1. 代工厂能不能加班加产?(可能需要 10-15% 溢价)
2. 加了这 1000 台,谁的订单会被挤掉?
3. 挤掉的客户 BU 能接受吗?
4. 做成选项给 BU:
   "我能满足这个紧急订单,但代价是客户 B 推迟 3 周 + $150K 加急费。
    你要吗?"

客户优先级框架

当供应不足时,谁先拿到货?

优先级 1:有合同约束的订单        ← 法律义务,必须先满足
优先级 2:战略客户(AWS/Azure/Google/Meta)← 关系最重要的大客户
优先级 3:营收影响大的订单        ← 高利润或高金额
优先级 4:预测准确的客户          ← 历史上说多少买多少的客户
优先级 5:配合度高的客户          ← 愿意灵活调整交期的客户

注意:你不是单方面决定优先级。你做分析、提方案,BU 做最终决定。

JD 原文 6: "Analyze demand shortfalls and changes in supply to prepare a weekly supply summary to management."

翻译成大白话

每周五你要交一份"供应周报",这是管理层了解供应健康度的主要窗口。

周报长什么样

周供应报告结构(通常是 PPT 或 Power BI 仪表盘):

Slide 1: 执行摘要
─────────────────
总体供应健康度:  🟢 Adapters   🟡 Switches   🔴 Interconnect
本周 Top 3 风险:
  1. OSFP 光模块 DSP 芯片分配,影响 Q3 出货 2000 台
  2. Quantum-X800 良率低于预期,回到 88%(目标 93%)
  3. 代工厂 B 换线延迟,ConnectX-8 NPI 推迟 1 周
需要管理层决定的事项:
  - 是否批准 $200K 加急费用追回 OSFP 产能

Slide 2-3: 供应 vs 需求对比表
────────────────────────────
产品         W12   W13   W14   W15   W16   W17 ...
──────       ───   ───   ───   ───   ───   ───
CX-7 需求    1500  1500  1600  1600  1400  1400
CX-7 供应    1500  1500  1200  1400  1400  1400
差额            0     0  -400  -200     0     0
                        ^^^^  ^^^^
                      红色标注缺口

当前库存:1,200 片 / 周供应量 (WOS):0.8 周

Slide 4: 代工厂产出追踪
──────────────────────
上周承诺 vs 实际产出:
  CM-A (Foxconn):   承诺 2000,实际 1850,达成率 92.5%
  CM-B (Celestica):  承诺 800,实际 810,达成率 101%
在制品 (WIP) 状态:
  SMT 阶段:600 片 / 测试阶段:400 片 / 包装:200 片

Slide 5: 物料风险
────────────────
受限物料清单:
  零件            供应商     交期      缺口    影响产品
  ────            ────      ──       ──      ────
  DSP-XYZ 芯片   Broadcom   26 周    -800    OSFP 光模块
  DRAM DDR5      SK Hynix   12 周    无缺口   -
  基板 ABC       Ibiden     32 周    -200    ConnectX-8

Slide 6: 负债/库存风险
────────────────────
当前 NCNR 负债总额:$XXM
超过 90 天无订单的库存:$X.XM(含 200 片 CX-7 旧版本)
建议动作:对旧版本启动 burn-down 计划

Slide 7: 本周需要决策的事项
────────────────────────
1. 批准 $200K 加急费用?           → 需要 Director 签字
2. ConnectX-8 NPI 排期是否接受推迟? → 需要 BU 确认
3. Q4 ConnectX-7 是否追加 NCNR?   → 需要 BU + Finance 联签

你报告缺口的标准格式

不是只报坏消息,而是带着方案来。

"产品 X 在第 14 周有 400 台缺口,原因是 DSP 芯片分配。三个选项:(A) 加急采购,+$50K 成本,可恢复 300 台;(B) 从产品 Y 调配,影响客户 Z 推迟 2 周;(C) 接受缺口,推迟客户 A 的订单。建议选 A。需要周三前批准。"


JD 原文 7: "At NVIDIA, we keep striving for continuous improvement with our partners. Our team will provide suggestions to the management team of NVIDIA and its subcontractors on how to pursue a higher performance level on our Key Performance Indexes."

翻译成大白话

你不只是执行计划,还要持续优化流程和推动代工厂改进。

你关注的 KPI

KPI含义目标方向
Committed Shipment Hit Rate代工厂承诺交多少就交多少的比例越高越好(>95%)
On-Time Delivery (OTD)按客户承诺日期出货的比例越高越好(>98%)
Cycle Time从投产到成品的天数越短越好
Supply Commit Accuracy你每周预测的供应量 vs 实际越准越好
Excess Inventory ($)没有客户订单的库存金额越低越好
NCNR Liability ($)不可取消订单的总敞口控制在预算内
First-Pass Yield (FPY)一次测试通过率越高越好(>90%)

"自动化和流程改进"具体指什么

JD 明确要求 "proven track record to automate and improve processes"。这不是空话。

NVIDIA Supply Planner 常见的改进项目:

1. Excel VBA 宏
   ──────────────
   场景:每周从 SAP 拉数据 → 手动粘贴到周报模板 → 花 3 小时
   改进:写 VBA 宏自动拉取 + 格式化 → 15 分钟搞定
   价值:每周省 2.5 小时,一年省 130 小时

2. Power BI 仪表盘
   ──────────────
   场景:BU 每周问"供应情况怎么样?" → 你做 PPT → 邮件发过去
   改进:建 Power BI 实时仪表盘,BU 自己看
   价值:减少 80% 的 ad-hoc 数据请求

3. Python/SQL 脚本
   ──────────────
   场景:每天手动核对代工厂的出货报告 vs SAP 的 PO 状态
   改进:写脚本自动匹配 + 标红异常
   价值:漏单率从 3% 降到 0.2%

4. SAP APO/IBP 规则配置
   ──────────────
   场景:供应低于 2 周需求量时手动发现
   改进:配置 SAP 自动预警规则
   价值:提前 1-2 周发现风险

5. AI/LLM 应用(NVIDIA 最新要求)
   ──────────────
   NVIDIA 最新的 Senior Production Planner JD 明确提到
   "Implement innovative solutions using AI and LLMs to
    streamline planning processes"
   这已经是正式的岗位期望

第四部分:你的一周节奏

典型工作周安排:

┌────────────────────────────────────────────────────────────────┐
│ 周一                                                          │
│ ──                                                            │
│ 早晨:拉 SAP 异常报告,看周末有没有什么变化                      │
│       代工厂周末产出了多少?有没有 miss?                        │
│ 上午:更新 WIP 追踪表                                          │
│ 下午:和 Demand Planning 对齐本周需求变化                       │
│       "哪些客户加了单?哪些推迟了?哪些取消了?"                  │
├────────────────────────────────────────────────────────────────┤
│ 周二                                                          │
│ ──                                                            │
│ 上午:Demand Planning 发布本周更新的需求预测                     │
│       在 SAP APO/IBP 里跑 MRP(系统算出需要造什么、买什么)       │
│ 下午:分析系统产出的差异:                                       │
│       新需求 vs 现有排程 → 哪里多了?哪里少了?                   │
│       标出需要手动调整的地方(系统不知道的约束)                   │
├────────────────────────────────────────────────────────────────┤
│ 周三                                                          │
│ ──                                                            │
│ 早晨:和代工厂的 Weekly Commit Call                             │
│       (亚洲时区,可能 6-7am 开始)                              │
│       代工厂确认本周和未来 4 周能交多少                           │
│       如果承诺量 < 你的要求 → 当场谈判或记录差异                 │
│ 下午:和 Purchasing 同步物料风险                                │
│       处理 BU 的紧急请求(客户加单、提前交期等)                  │
├────────────────────────────────────────────────────────────────┤
│ 周四                                                          │
│ ──                                                            │
│ 上午:准备周供应报告(前面描述的那份 PPT/仪表盘)                │
│ 下午:内部供应审查会(Supply Review Meeting)                    │
│       参会人:你 + 你的经理 + Demand Planning + BU 代表          │
│       内容:展示供应状态、标红风险、拿到优先级决策                │
│       这是你每周最重要的会议                                     │
├────────────────────────────────────────────────────────────────┤
│ 周五                                                          │
│ ──                                                            │
│ 上午:发布周供应报告给所有 stakeholders                         │
│       更新供应承诺数字到系统和 Demand Planning                   │
│ 下午:处理本周遗留的 action items                               │
│       为下周做准备                                              │
├────────────────────────────────────────────────────────────────┤
│ 贯穿全周                                                      │
│ ──────                                                        │
│ - 响应 BU 的紧急请求("客户要提前交货,能不能做到?")           │
│ - 监控代工厂 WIP(有没有品质暂停?产线停机?)                   │
│ - 和 Capacity Planning 协调产能瓶颈                             │
│ - 在 SAP 里更新计划变更                                        │
└────────────────────────────────────────────────────────────────┘

第五部分:月度 S&OP 流程 —— 你在其中的位置

除了每周节奏,还有一个月度大循环叫 S&OP(Sales & Operations Planning),是整个公司对齐的机制。

月度 S&OP 四阶段循环:

第 1 周           第 2 周           第 3 周           第 4 周
──────           ──────           ──────           ──────
需求审查          供应审查          Pre-S&OP         Exec S&OP
(Demand Review)  (Supply Review)  (管理层预演)      (高层决策)

"客户要多少?"   "能造多少?"     "差多少?怎么办?" "最终拍板"

你的参与度:       你的参与度:       你的参与度:        你的参与度:
★☆☆☆☆           ★★★★★           ★★★☆☆            ★☆☆☆☆
(接收信息)        (你的主场)        (提供分析)         (你的工作被
                                                    上级代表)

你的主场:Supply Review(第 2 周)

这是月度循环里你最关键的环节:

  1. 拿到 Demand Planning 的未来 3-18 个月需求预测(unconstrained demand,不考虑能不能造)
  2. 在 SAP 里跑计划,看能造多少(constrained supply,考虑所有现实约束)
  3. 算出差距:需求 10,000 台,能造 8,000 台 → 差 2,000 台
  4. 分析差距原因:是芯片不够?是产能不够?是基板交期太长?
  5. 提出弥补方案和成本
  6. 把分析结果带到 Pre-S&OP,让管理层决策
Unconstrained vs Constrained:

Unconstrained Plan = "如果什么都不缺,我们能满足所有需求"
(Demand Planning 给的愿望清单)

                    │
                    ▼  你的工作就是量化这个差距

Constrained Plan = "考虑到产能、零件、交期的现实,我们能造这么多"
(你给出的现实答案)

差距 = Unconstrained - Constrained = 你要解决的问题

第六部分:这个岗位的真实画像

谁在做这个工作

从 LinkedIn 上真实的 NVIDIA Supply Planner 的背景来看:

典型职业路径(到 NVIDIA Senior Supply Planner):

年限     职级                    你在学什么
────     ──                     ──────────
0-2 年   Planning Analyst        SAP 操作、Excel 透视表、MRP 基础
2-4 年   Supply Chain Planner    独立管一条产品线、供应商关系
4-6 年   Senior Planner          多产品管理、NPI、主持 S&OP、第一个自动化项目
6-8 年   Principal Planner       跨部门影响力、系统迁移、带人
8+ 年    NVIDIA 的这个岗位        经历过完整产品生命周期、至少一次重大供应危机

常见背景公司:Qualcomm, Broadcom, Marvell, Jabil, Foxconn, Micron
常见学历:工科本科 + 供应链 MBA
常见认证:CPIM, CSCP (APICS 系列)

Amazon 经验够不够

诚实的评估:

可以迁移的 ✅                        需要补课的 ❌
────────────                        ────────────
S&OP 流程纪律                       晶圆厂经济学(良率、掩模版)
需求-供应平衡                        TSMC 产能分配机制
供应商管理和上报                     16-52 周长交期管理
数据工具能力                         SAP APO/IBP(Amazon 用自研系统)
NPI 经验(如果做过硬件新品)          半导体专有术语
跨部门协调                          NCNR 负债管理

评估:Amazon 硬件配件是可信的跳板。
面试中需要展示你正在主动补半导体知识。
定位在经验区间的较低端是合理的。

薪资和工作强度

薪资结构:
  Base: $128K - $201K(JD 标注)
  实际中位数大约 $155K - $175K
  RSU: 每年约 $40K - $80K(grant value)
  总包约 $200K - $260K(入职时)

  但真正的优势是 NVIDIA 股票升值:
  2019 年以来 NVIDIA 股票涨了 ~3,776%
  待了 3+ 年的员工 RSU 收益非常可观
  
  RSU vest 节奏:40% 第一年 / 30% 第二年 / 20% 第三年 / 10% 第四年
  (前重后轻,比标准的 25/25/25/25 更吸引人)

工作强度:
  - 5 天全勤到 Santa Clara 办公室(强制)
  - 和亚洲供应商协作 → 早晨 6-7am 的电话是家常便饭
  - Glassdoor WLB 评分 4.2/5(半导体行业算不错的)
  - 有周期性高压期(产品发布、供应危机),但不是常态 80 小时周
  - Jensen Huang 设定的文化基调:高标准、结果导向、扁平化

第七部分:JD 要求的能力 vs 你的匹配度

"8+ years of working experience in the semiconductor planning field"

这是最硬的一条。Amazon 配件不算 semiconductor planning。但 JD 用的是 "or equivalent experience"(JD 原文在学历要求中提到 "or equivalent experience")。面试策略:强调硬件供应链的复杂度相通性,同时展示你在主动学习半导体知识。

"Strong communication, problem-solving, teamwork, organizational, and quantitative skills"

这些你在 Amazon 每天都在用。面试中用 STAR 故事证明。

"Proven track record to automate and improve processes and inspire changes cross-functionally"

准备 1-2 个在 Amazon 推动流程改进的具体案例。最好涉及 Excel/VBA/SQL/BI 工具。

"Experience in supply chain management and planning system implementation. An in-depth understanding of MRP concepts and systems such as SAP / APO."

如果没有 SAP 经验,坦诚说 Amazon 用自研系统,但 MRP 的底层逻辑一样。面试前至少了解 SAP APO 的模块结构(DP/SNP/PP-DS/gATP)。

"Highly organized, detail-oriented, a self-starter with a strong sense of ownership"

Ownership 是 Amazon 的 Leadership Principle。用 Amazon 的语言讲 NVIDIA 的故事。


附录:关键术语速查(本报告新增)

术语含义
Supply Dedication对特定产品线供应的唯一责任人制
Requested Production Schedule你发给代工厂的"请造这些"指令
Commit代工厂回复你的"我能造这些"确认
Hit Rate代工厂兑现承诺的比率
S&OP月度销售与运营计划流程
IBP集成业务计划(S&OP 的升级版)
Unconstrained Demand不考虑供应限制的需求计划(愿望清单)
Constrained Supply考虑所有现实限制后的供应计划(你的答案)
Supply Review月度 S&OP 中你主导的环节
Weekly Supply Summary你每周五交的供应周报
Commit Call你和代工厂每周的产能确认电话
Pull-in客户要求提前交货
Push-out交期推迟
Allocation供应不足时的分配机制
Expedite加急,通常要额外付费
Burn-down Plan消化过剩库存的计划
QBRQuarterly Business Review,和代工厂的季度绩效回顾
AnaplanNVIDIA 使用的另一个计划工具(和 SAP 并行)
NSUNVIDIA Stock Unit,NVIDIA 的 RSU 叫法

参考来源

  • NVIDIA JR2013989 职位描述原文
  • NVIDIA Senior Production Planner (JR2013986) 职位描述(对照参考)
  • NVIDIA Supply Chain Planning and Analytics Specialist 职位描述
  • Glassdoor NVIDIA Operations 板块员工评价 (2024-2026)
  • LinkedIn NVIDIA Supply Planner 公开 profile(Christina L., Jason Shea, Steve Shanahan, Ted Robinson)
  • The Nvidia Way (Tae Kim, 2024) 关于工作文化的描述
  • Blind NVIDIA 板块验证员工讨论 (2025-2026)
  • NVIDIA Anaplan 案例研究(20 个集成计划模型)
  • Dell'Oro Group 2026 半导体供应链分析
  • APICS/ASCM S&OP 框架文档
  • SAP IBP for Semiconductor 产品文档