gpu-operator
更新时间:2025年8月30日 10:50
浏览:6
官网说明
https://docs.nvidia.com/datacenter/cloud-native/gpu-operator/latest/gpu-operator-mig.html
gpu operator 包含了
- 设备扩展(nvidia-device-plugin)
- 节点信息发现(NFD)
- GPU信息发现(GFD)
- 驱动管理(nvidia-driver)
- 容器运行时管理(nvidia-container-toolkit)
- 显卡切分(nvidia-mig-manager)
等一系列组件
helm 安装 gpu operator
官网 helm 安装说明
https://docs.nvidia.com/datacenter/cloud-native/gpu-operator/latest/getting-started.html
helm repo add nvidia https://helm.ngc.nvidia.com/nvidia
helm repo update
helm install \
--wait \
--generate-name \
-n gpu-operator \
--create-namespace \
nvidia/gpu-operator \
--version=v25.3.1 \
--set driver.enabled=false \
--set toolkit.enabled=false \
--set mig.strategy=mixed
显卡切分策略
# 查看 0 号显卡支持的切分
nvidia-smi mig -i 0 -lgip
# 查看所有显卡
nvidia-smi mig -lgip
切分示例:
- “1g.18gb”: 2
- “2g.35gb”: 1
- “3g.71gb”: 1
切分原则:
- 简单计算 - 点号前面的 1g, 2g, 3g 表示几组计算单元,总和不超过 7 即可,
- 精确计算 - 确保 各种计算单元(Memory/SM/CE/DEC/JPEG/ENC/OFA)的总和不超过 最大的那个(7b.141.gb)