vllm serve 参数

更新时间:2025年7月4日 15:02 浏览:13

使用以下命令获取

vllm serve --help

基础服务参数

参数 说明 默认值
model_tag 要服务的模型标签(配置文件中已指定时可省略) None
--allow-credentials 允许跨域凭证 False
--allowed-headers 允许的HTTP请求头 ['*']
--allowed-methods 允许的HTTP方法 ['*']
--allowed-origins 允许的请求来源 ['*']
--api-key API访问密钥(需在请求头提供) None
--api-server-count API服务器进程数 1
--chat-template 聊天模板文件路径或单行模板内容 None
--chat-template-content-format 消息内容渲染格式(auto/string/openai) auto
--config YAML配置文件路径 ``
--data-parallel-start-rank 次级节点的起始数据并行rank 0
--disable-fastapi-docs 禁用OpenAPI文档 False
--disable-frontend-multiprocessing 在前端服务器与模型服务相同进程中运行 False
--disable-log-requests 禁用请求日志 False
--disable-log-stats 禁用统计日志 False
--disable-uvicorn-access-log 禁用uvicorn访问日志 False
--enable-auto-tool-choice 启用自动工具选择 False
--enable-prompt-tokens-details 在usage中显示prompt_tokens详情 False
--enable-request-id-headers 在响应中添加X-Request-Id头 False
--enable-server-load-tracking 启用服务器负载跟踪 False
--enable-ssl-refresh SSL证书变更时刷新上下文 False
--headless 无头模式运行 False
--host 服务主机名 None
--log-config-file 日志配置JSON文件路径 None
--lora-modules LoRA模块配置(name=path或JSON格式) None
--max-log-len 日志中打印的最大prompt长度 None
--middleware 额外ASGI中间件(可多次指定) []
--port 服务端口号 8000
--prompt-adapters Prompt适配器配置(name=path格式) None
--response-role 当request.add_generation_prompt=true时的返回角色名 assistant
--return-tokens-as-token-ids 以’token_id:{token_id}’格式返回token False
--root-path 代理路由时的FastAPI root_path None
--ssl-ca-certs CA证书文件路径 None
--ssl-cert-reqs 客户端证书要求(参见ssl模块) 0
--ssl-certfile SSL证书文件路径 None
--ssl-keyfile SSL密钥文件路径 None
--tool-call-parser 工具调用解析器(根据模型选择) None
--tool-parser-plugin 自定义工具解析器插件 ``
--use-v2-block-manager [已弃用] 不再生效 True
--uvicorn-log-level uvicorn日志级别 info

模型配置 (ModelConfig)

参数 说明 默认值
--allowed-local-media-path 允许读取的本地媒体文件路径(安全风险) ``
--code-revision HuggingFace Hub模型代码版本 None
--config-format 模型配置格式(auto/hf/mistral) auto
--disable-async-output-proc 禁用异步输出处理 False
--disable-cascade-attn 禁用V1级联注意力 False
--disable-sliding-window 禁用滑动窗口 False
--dtype 模型权重和激活的数据类型 auto
--enable-prompt-embeds 启用通过prompt_embeds传递文本嵌入 False
--enable-sleep-mode 启用引擎睡眠模式(仅CUDA) False
--enforce-eager 强制使用eager模式PyTorch False
--generation-config 生成配置文件夹路径 auto
--hf-config-path HuggingFace配置名称/路径 None
--hf-overrides HuggingFace配置覆盖参数 {}
--hf-token HuggingFace认证token None
--logits-processor-pattern 有效的logits处理器正则模式 None
--max-logprobs 当logprobs指定时返回的最大log概率数 20
--max-model-len 模型上下文最大长度(支持k/m/g单位) None
--max-seq-len-to-capture CUDA图覆盖的最大序列长度 8192
--model-impl 模型实现方式(auto/vllm/transformers) auto
--override-generation-config 生成配置覆盖参数 {}
--override-neuron-config Neuron设备特定配置覆盖 {}
--override-pooler-config 池化模型配置覆盖 None
--quantization 权重量化方法 None
--revision 模型版本(分支/标签/commit id) None
--rope-scaling RoPE缩放配置 {}
--rope-theta RoPE theta参数 None
--seed 随机种子 None
--served-model-name API中使用的模型名称(可多个) None
--skip-tokenizer-init 跳过tokenizer初始化 False
--task 模型任务类型 auto
--tokenizer HuggingFace tokenizer名称/路径 None
--tokenizer-mode tokenizer模式 auto
--tokenizer-revision tokenizer版本 None
--trust-remote-code 信任远程代码 False

加载配置 (LoadConfig)

参数 说明 默认值
--download-dir 权重下载目录 None
--ignore-patterns 加载模型时忽略的模式 None
--load-format 权重加载格式 auto
--model-loader-extra-config 模型加载器额外配置 {}
--pt-load-map-location PyTorch加载映射位置 cpu
--qlora-adapter-name-or-path [即将移除] 无效果参数 None
--use-tqdm-on-load 加载时显示进度条 True

解码配置 (DecodingConfig)

参数 说明 默认值
--enable-reasoning [已弃用] 使用—reasoning-parser替代 None
--guided-decoding-backend 引导解码后端 auto
--guided-decoding-disable-additional-properties 禁用JSON schema中的additionalProperties False
--guided-decoding-disable-any-whitespace 禁用引导解码中的空白字符生成 False
--guided-decoding-disable-fallback 禁用后端错误回退 False
--reasoning-parser 推理内容解析器 ``

并行配置 (ParallelConfig)

参数 说明 默认值
--data-parallel-address 数据并行集群头节点地址 None
--data-parallel-backend 数据并行后端(mp/ray) mp
--data-parallel-rpc-port 数据并行RPC端口 None
--data-parallel-size 数据并行组数量 1
--data-parallel-size-local 本地节点数据并行副本数 None
--disable-custom-all-reduce 禁用自定义all-reduce内核 False
--distributed-executor-backend 分布式工作器后端 None
--enable-expert-parallel 对MoE层使用专家并行 False
--enable-multimodal-encoder-data-parallel 对视觉编码器使用数据并行 False
--max-parallel-loading-workers 并行加载工作器最大数量 None
--pipeline-parallel-size 流水线并行组数量 1
--ray-workers-use-nsight 对Ray工作器使用nsight分析 False
--tensor-parallel-size 张量并行组数量 1
--worker-cls 工作器类名 auto
--worker-extension-cls 工作器扩展类名 ``

缓存配置 (CacheConfig)

参数 说明 默认值
--block-size 连续缓存块的token数 None
--calculate-kv-scales 动态计算fp8 KV缓存比例 False
--cpu-offload-gb 每GPU的CPU卸载空间(GiB) 0
--enable-prefix-caching 启用前缀缓存 None
--gpu-memory-utilization GPU内存利用率(0-1) 0.9
--kv-cache-dtype KV缓存数据类型 auto
--num-gpu-blocks-override 覆盖分析的GPU块数 None
--prefix-caching-hash-algo 前缀缓存哈希算法 builtin
--swap-space 每GPU的CPU交换空间(GiB) 4

调度配置 (SchedulerConfig)

参数 说明 默认值
--cuda-graph-sizes CUDA图捕获大小 [512]
--disable-chunked-mm-input 禁用分块多模态输入 False
--disable-hybrid-kv-cache-manager 禁用混合KV缓存管理器 False
--enable-chunked-prefill 启用分块prefill None
--long-prefill-token-threshold 长prefill请求的token阈值 0
--max-long-partial-prefills 并发长prefill最大数量 1
--max-num-batched-tokens 单次迭代最大处理token数 None
--max-num-partial-prefills 并发部分prefill最大数量 1
--max-num-seqs 单次迭代最大处理序列数 None
--multi-step-stream-outputs 多步时流式输出 True
--num-lookahead-slots 前瞻slot数量(推测解码用) 0
--num-scheduler-steps 每次调度调用的最大前向步数 1
--preemption-mode 抢占模式(recompute/swap) None
--scheduler-cls 调度器类 vllm.core.scheduler.Scheduler
--scheduler-delay-factor 调度延迟因子 0.0
--scheduling-policy 调度策略 fcfs
导航