gpu-operator

更新时间:2025年8月30日 10:50 浏览:6

官网说明

https://docs.nvidia.com/datacenter/cloud-native/gpu-operator/latest/gpu-operator-mig.html

gpu operator 包含了

  • 设备扩展(nvidia-device-plugin)
  • 节点信息发现(NFD)
  • GPU信息发现(GFD)
  • 驱动管理(nvidia-driver)
  • 容器运行时管理(nvidia-container-toolkit)
  • 显卡切分(nvidia-mig-manager)

等一系列组件

helm 安装 gpu operator

官网 helm 安装说明
https://docs.nvidia.com/datacenter/cloud-native/gpu-operator/latest/getting-started.html


helm repo add nvidia https://helm.ngc.nvidia.com/nvidia

helm repo update

helm install \
  --wait \
  --generate-name \
  -n gpu-operator \
  --create-namespace \
  nvidia/gpu-operator \
  --version=v25.3.1 \
  --set driver.enabled=false \
  --set toolkit.enabled=false \
  --set mig.strategy=mixed

显卡切分策略

# 查看 0 号显卡支持的切分
nvidia-smi mig -i 0 -lgip

# 查看所有显卡
nvidia-smi mig -lgip

H200 示例:
mig-lgip.png

切分示例:

  • “1g.18gb”: 2
  • “2g.35gb”: 1
  • “3g.71gb”: 1

切分原则:

  • 简单计算 - 点号前面的 1g, 2g, 3g 表示几组计算单元,总和不超过 7 即可,
  • 精确计算 - 确保 各种计算单元(Memory/SM/CE/DEC/JPEG/ENC/OFA)的总和不超过 最大的那个(7b.141.gb)
导航