4台H800

更新时间:2025年3月29日 19:13 浏览:308

4 台 H500,按 2 台 H800 相同的方式部署,1个 head 节点,3 个 worker 节点

直接修改显卡张数参数

  • tensor-parallel-size 32
docker run \
  --restart=always \
  --name deepseek \
  --network host \
  --shm-size 512g \
  --gpus=all \
  --privileged \
  --entrypoint /bin/bash \
  -v /path/to/shell:/root/shell \
  -v /path/to/model-cache:/model-cache \
  -e HF_ENDPOINT=https://hf-mirror.com \
  -e VLLM_ALLOW_LONG_MAX_MODEL_LEN=1 \
  -e VLLM_HOST_IP=本机IP \
  -e NCCL_SOCKET_IFNAME=bond0 \
  -e GLOO_SOCKET_IFNAME=bond0 \
  -e NCCL_IB_HCA=mlx5 \
  -e NCCL_DEBUG=TRACE \
  -e RAY_HEAD_HOST=本机IP \
  -itd \
  llm/vllm-openai:v0.7.2 \
    /root/shell/ray-head.sh \
      --model /model-cache/deepseek-ai/DeepSeek-R1 \
      --served-model-name deepseek-ai/DeepSeek-R1 \
      --api-key xxxx \
      --host 0.0.0.0 \
      --port 80 \
      --trust-remote-code \
      --device cuda \
      --tensor-parallel-size 32 \
      --gpu-memory-utilization 0.95 \
      --max-model-len 128000 \
      --max-num-batched-tokens 32000 \
      --enforce-eager

报错信处

ValueError: Weight output_partition_size = 576 is not divisible by weight quantization block_n = 128.

删除醒型配置文件 config.json 中的

 "quantization_config": {
    "activation_scheme": "dynamic",
    "fmt": "e4m3",
    "quant_method": "fp8",
    "weight_block_size": [
      128,
      128
    ]
  },

尝试修改模型参数,未成功

最终调整 vllm 参数可以启动,但效果很差,每秒不到 20 tokens

  • —tensor-parallel-size 8
  • —pipeline-parallel-size 4
docker run \
  --restart=always \
  --name deepseek \
  --network host \
  --shm-size 512g \
  --gpus=all \
  --privileged \
  --entrypoint /bin/bash \
  -v /path/to/shell:/root/shell \
  -v /path/to/model-cache:/model-cache \
  -e HF_ENDPOINT=https://hf-mirror.com \
  -e VLLM_ALLOW_LONG_MAX_MODEL_LEN=1 \
  -e VLLM_HOST_IP=本机IP \
  -e NCCL_SOCKET_IFNAME=bond0 \
  -e GLOO_SOCKET_IFNAME=bond0 \
  -e NCCL_IB_HCA=mlx5 \
  -e NCCL_DEBUG=TRACE \
  -e RAY_HEAD_HOST=本机IP \
  -itd \
  llm/vllm-openai:v0.7.2 \
    /root/shell/ray-head.sh \
      --model /model-cache/deepseek-ai/DeepSeek-R1 \
      --served-model-name deepseek-ai/DeepSeek-R1 \
      --api-key xxxx \
      --host 0.0.0.0 \
      --port 80 \
      --trust-remote-code \
      --device cuda \
      --tensor-parallel-size 8 \
      --pipeline-parallel-size 4 \
      --gpu-memory-utilization 0.95 \
      --max-model-len 128000 \
      --max-num-batched-tokens 32000 \
      --enforce-eager

模型可以正常启动,但近千万的成本, 推理速度比两台 H800 更慢,暂时放弃 4 台组网

导航