vllm serve 参数

更新时间：2025年9月26日 18:12 浏览：452

使用以下命令获取

vllm serve --help

基础服务参数

参数	说明	默认值
`model_tag`	要服务的模型标签（配置文件中已指定时可省略）	`None`
`--allow-credentials`	允许跨域凭证	`False`
`--allowed-headers`	允许的HTTP请求头	`['*']`
`--allowed-methods`	允许的HTTP方法	`['*']`
`--allowed-origins`	允许的请求来源	`['*']`
`--api-key`	API访问密钥（需在请求头提供）	`None`
`--api-server-count`	API服务器进程数	`1`
`--chat-template`	聊天模板文件路径或单行模板内容	`None`
`--chat-template-content-format`	消息内容渲染格式（auto/string/openai）	`auto`
`--config`	YAML配置文件路径	``
`--data-parallel-start-rank`	次级节点的起始数据并行rank	`0`
`--disable-fastapi-docs`	禁用OpenAPI文档	`False`
`--disable-frontend-multiprocessing`	在前端服务器与模型服务相同进程中运行	`False`
`--disable-log-requests`	禁用请求日志	`False`
`--disable-log-stats`	禁用统计日志	`False`
`--disable-uvicorn-access-log`	禁用uvicorn访问日志	`False`
`--enable-auto-tool-choice`	启用自动工具选择	`False`
`--enable-prompt-tokens-details`	在usage中显示prompt_tokens详情	`False`
`--enable-request-id-headers`	在响应中添加X-Request-Id头	`False`
`--enable-server-load-tracking`	启用服务器负载跟踪	`False`
`--enable-ssl-refresh`	SSL证书变更时刷新上下文	`False`
`--headless`	无头模式运行	`False`
`--host`	服务主机名	`None`
`--log-config-file`	日志配置JSON文件路径	`None`
`--lora-modules`	LoRA模块配置（name=path或JSON格式）	`None`
`--max-log-len`	日志中打印的最大prompt长度	`None`
`--middleware`	额外ASGI中间件（可多次指定）	`[]`
`--port`	服务端口号	`8000`
`--prompt-adapters`	Prompt适配器配置（name=path格式）	`None`
`--response-role`	当request.add_generation_prompt=true时的返回角色名	`assistant`
`--return-tokens-as-token-ids`	以’token_id:{token_id}’格式返回token	`False`
`--root-path`	代理路由时的FastAPI root_path	`None`
`--ssl-ca-certs`	CA证书文件路径	`None`
`--ssl-cert-reqs`	客户端证书要求（参见ssl模块）	`0`
`--ssl-certfile`	SSL证书文件路径	`None`
`--ssl-keyfile`	SSL密钥文件路径	`None`
`--tool-call-parser`	工具调用解析器（根据模型选择）	`None`
`--tool-parser-plugin`	自定义工具解析器插件	``
`--use-v2-block-manager`	[已弃用] 不再生效	`True`
`--uvicorn-log-level`	uvicorn日志级别	`info`

模型配置 (ModelConfig)

参数	说明	默认值
`--allowed-local-media-path`	允许读取的本地媒体文件路径（安全风险）	``
`--code-revision`	HuggingFace Hub模型代码版本	`None`
`--config-format`	模型配置格式（auto/hf/mistral）	`auto`
`--disable-async-output-proc`	禁用异步输出处理	`False`
`--disable-cascade-attn`	禁用V1级联注意力	`False`
`--disable-sliding-window`	禁用滑动窗口	`False`
`--dtype`	模型权重和激活的数据类型	`auto`
`--enable-prompt-embeds`	启用通过prompt_embeds传递文本嵌入	`False`
`--enable-sleep-mode`	启用引擎睡眠模式（仅CUDA）	`False`
`--enforce-eager`	强制使用eager模式PyTorch	`False`
`--generation-config`	生成配置文件夹路径	`auto`
`--hf-config-path`	HuggingFace配置名称/路径	`None`
`--hf-overrides`	HuggingFace配置覆盖参数	`{}`
`--hf-token`	HuggingFace认证token	`None`
`--logits-processor-pattern`	有效的logits处理器正则模式	`None`
`--max-logprobs`	当logprobs指定时返回的最大log概率数	`20`
`--max-model-len`	模型上下文最大长度（支持k/m/g单位）	`None`
`--max-seq-len-to-capture`	CUDA图覆盖的最大序列长度	`8192`
`--model-impl`	模型实现方式（auto/vllm/transformers）	`auto`
`--override-generation-config`	生成配置覆盖参数	`{}`
`--override-neuron-config`	Neuron设备特定配置覆盖	`{}`
`--override-pooler-config`	池化模型配置覆盖	`None`
`--quantization`	权重量化方法	`None`
`--revision`	模型版本（分支/标签/commit id）	`None`
`--rope-scaling`	RoPE缩放配置	`{}`
`--rope-theta`	RoPE theta参数	`None`
`--seed`	随机种子	`None`
`--served-model-name`	API中使用的模型名称（可多个）	`None`
`--skip-tokenizer-init`	跳过tokenizer初始化	`False`
`--task`	模型任务类型	`auto`
`--tokenizer`	HuggingFace tokenizer名称/路径	`None`
`--tokenizer-mode`	tokenizer模式	`auto`
`--tokenizer-revision`	tokenizer版本	`None`
`--trust-remote-code`	信任远程代码	`False`

加载配置 (LoadConfig)

参数	说明	默认值
`--download-dir`	权重下载目录	`None`
`--ignore-patterns`	加载模型时忽略的模式	`None`
`--load-format`	权重加载格式	`auto`
`--model-loader-extra-config`	模型加载器额外配置	`{}`
`--pt-load-map-location`	PyTorch加载映射位置	`cpu`
`--qlora-adapter-name-or-path`	[即将移除] 无效果参数	`None`
`--use-tqdm-on-load`	加载时显示进度条	`True`

解码配置 (DecodingConfig)

参数	说明	默认值
`--enable-reasoning`	[已弃用] 使用—reasoning-parser替代	`None`
`--guided-decoding-backend`	引导解码后端	`auto`
`--guided-decoding-disable-additional-properties`	禁用JSON schema中的additionalProperties	`False`
`--guided-decoding-disable-any-whitespace`	禁用引导解码中的空白字符生成	`False`
`--guided-decoding-disable-fallback`	禁用后端错误回退	`False`
`--reasoning-parser`	推理内容解析器	``

并行配置 (ParallelConfig)

参数	说明	默认值
`--data-parallel-address`	数据并行集群头节点地址	`None`
`--data-parallel-backend`	数据并行后端（mp/ray）	`mp`
`--data-parallel-rpc-port`	数据并行RPC端口	`None`
`--data-parallel-size`	数据并行组数量	`1`
`--data-parallel-size-local`	本地节点数据并行副本数	`None`
`--disable-custom-all-reduce`	禁用自定义all-reduce内核	`False`
`--distributed-executor-backend`	分布式工作器后端	`None`
`--enable-expert-parallel`	对MoE层使用专家并行	`False`
`--enable-multimodal-encoder-data-parallel`	对视觉编码器使用数据并行	`False`
`--max-parallel-loading-workers`	并行加载工作器最大数量	`None`
`--pipeline-parallel-size`	流水线并行组数量	`1`
`--ray-workers-use-nsight`	对Ray工作器使用nsight分析	`False`
`--tensor-parallel-size`	张量并行组数量	`1`
`--worker-cls`	工作器类名	`auto`
`--worker-extension-cls`	工作器扩展类名	``

缓存配置 (CacheConfig)

参数	说明	默认值
`--block-size`	连续缓存块的token数	`None`
`--calculate-kv-scales`	动态计算fp8 KV缓存比例	`False`
`--cpu-offload-gb`	每GPU的CPU卸载空间(GiB)	`0`
`--enable-prefix-caching`	启用前缀缓存	`None`
`--gpu-memory-utilization`	GPU内存利用率(0-1)	`0.9`
`--kv-cache-dtype`	KV缓存数据类型	`auto`
`--num-gpu-blocks-override`	覆盖分析的GPU块数	`None`
`--prefix-caching-hash-algo`	前缀缓存哈希算法	`builtin`
`--swap-space`	每GPU的CPU交换空间(GiB)	`4`

调度配置 (SchedulerConfig)

参数	说明	默认值
`--cuda-graph-sizes`	CUDA图捕获大小	`[512]`
`--disable-chunked-mm-input`	禁用分块多模态输入	`False`
`--disable-hybrid-kv-cache-manager`	禁用混合KV缓存管理器	`False`
`--enable-chunked-prefill`	启用分块prefill	`None`
`--long-prefill-token-threshold`	长prefill请求的token阈值	`0`
`--max-long-partial-prefills`	并发长prefill最大数量	`1`
`--max-num-batched-tokens`	单次迭代最大处理token数	`None`
`--max-num-partial-prefills`	并发部分prefill最大数量	`1`
`--max-num-seqs`	单次迭代最大处理序列数	`None`
`--multi-step-stream-outputs`	多步时流式输出	`True`
`--num-lookahead-slots`	前瞻slot数量（推测解码用）	`0`
`--num-scheduler-steps`	每次调度调用的最大前向步数	`1`
`--preemption-mode`	抢占模式（recompute/swap）	`None`
`--scheduler-cls`	调度器类	`vllm.core.scheduler.Scheduler`
`--scheduler-delay-factor`	调度延迟因子	`0.0`
`--scheduling-policy`	调度策略	`fcfs`