4台H800
更新时间:2025年3月29日 19:13
浏览:308
4 台 H500,按 2 台 H800 相同的方式部署,1个 head 节点,3 个 worker 节点
直接修改显卡张数参数
- tensor-parallel-size 32
docker run \
--restart=always \
--name deepseek \
--network host \
--shm-size 512g \
--gpus=all \
--privileged \
--entrypoint /bin/bash \
-v /path/to/shell:/root/shell \
-v /path/to/model-cache:/model-cache \
-e HF_ENDPOINT=https://hf-mirror.com \
-e VLLM_ALLOW_LONG_MAX_MODEL_LEN=1 \
-e VLLM_HOST_IP=本机IP \
-e NCCL_SOCKET_IFNAME=bond0 \
-e GLOO_SOCKET_IFNAME=bond0 \
-e NCCL_IB_HCA=mlx5 \
-e NCCL_DEBUG=TRACE \
-e RAY_HEAD_HOST=本机IP \
-itd \
llm/vllm-openai:v0.7.2 \
/root/shell/ray-head.sh \
--model /model-cache/deepseek-ai/DeepSeek-R1 \
--served-model-name deepseek-ai/DeepSeek-R1 \
--api-key xxxx \
--host 0.0.0.0 \
--port 80 \
--trust-remote-code \
--device cuda \
--tensor-parallel-size 32 \
--gpu-memory-utilization 0.95 \
--max-model-len 128000 \
--max-num-batched-tokens 32000 \
--enforce-eager
报错信处
ValueError: Weight output_partition_size = 576 is not divisible by weight quantization block_n = 128.
删除醒型配置文件 config.json 中的
"quantization_config": {
"activation_scheme": "dynamic",
"fmt": "e4m3",
"quant_method": "fp8",
"weight_block_size": [
128,
128
]
},
尝试修改模型参数,未成功
最终调整 vllm 参数可以启动,但效果很差,每秒不到 20 tokens
- —tensor-parallel-size 8
- —pipeline-parallel-size 4
docker run \
--restart=always \
--name deepseek \
--network host \
--shm-size 512g \
--gpus=all \
--privileged \
--entrypoint /bin/bash \
-v /path/to/shell:/root/shell \
-v /path/to/model-cache:/model-cache \
-e HF_ENDPOINT=https://hf-mirror.com \
-e VLLM_ALLOW_LONG_MAX_MODEL_LEN=1 \
-e VLLM_HOST_IP=本机IP \
-e NCCL_SOCKET_IFNAME=bond0 \
-e GLOO_SOCKET_IFNAME=bond0 \
-e NCCL_IB_HCA=mlx5 \
-e NCCL_DEBUG=TRACE \
-e RAY_HEAD_HOST=本机IP \
-itd \
llm/vllm-openai:v0.7.2 \
/root/shell/ray-head.sh \
--model /model-cache/deepseek-ai/DeepSeek-R1 \
--served-model-name deepseek-ai/DeepSeek-R1 \
--api-key xxxx \
--host 0.0.0.0 \
--port 80 \
--trust-remote-code \
--device cuda \
--tensor-parallel-size 8 \
--pipeline-parallel-size 4 \
--gpu-memory-utilization 0.95 \
--max-model-len 128000 \
--max-num-batched-tokens 32000 \
--enforce-eager
模型可以正常启动,但近千万的成本, 推理速度比两台 H800 更慢,暂时放弃 4 台组网