vllm serve 参数
更新时间:2025年7月4日 15:02
浏览:13
使用以下命令获取
vllm serve --help
基础服务参数
参数 |
说明 |
默认值 |
model_tag |
要服务的模型标签(配置文件中已指定时可省略) |
None |
--allow-credentials |
允许跨域凭证 |
False |
--allowed-headers |
允许的HTTP请求头 |
['*'] |
--allowed-methods |
允许的HTTP方法 |
['*'] |
--allowed-origins |
允许的请求来源 |
['*'] |
--api-key |
API访问密钥(需在请求头提供) |
None |
--api-server-count |
API服务器进程数 |
1 |
--chat-template |
聊天模板文件路径或单行模板内容 |
None |
--chat-template-content-format |
消息内容渲染格式(auto/string/openai) |
auto |
--config |
YAML配置文件路径 |
`` |
--data-parallel-start-rank |
次级节点的起始数据并行rank |
0 |
--disable-fastapi-docs |
禁用OpenAPI文档 |
False |
--disable-frontend-multiprocessing |
在前端服务器与模型服务相同进程中运行 |
False |
--disable-log-requests |
禁用请求日志 |
False |
--disable-log-stats |
禁用统计日志 |
False |
--disable-uvicorn-access-log |
禁用uvicorn访问日志 |
False |
--enable-auto-tool-choice |
启用自动工具选择 |
False |
--enable-prompt-tokens-details |
在usage中显示prompt_tokens详情 |
False |
--enable-request-id-headers |
在响应中添加X-Request-Id头 |
False |
--enable-server-load-tracking |
启用服务器负载跟踪 |
False |
--enable-ssl-refresh |
SSL证书变更时刷新上下文 |
False |
--headless |
无头模式运行 |
False |
--host |
服务主机名 |
None |
--log-config-file |
日志配置JSON文件路径 |
None |
--lora-modules |
LoRA模块配置(name=path或JSON格式) |
None |
--max-log-len |
日志中打印的最大prompt长度 |
None |
--middleware |
额外ASGI中间件(可多次指定) |
[] |
--port |
服务端口号 |
8000 |
--prompt-adapters |
Prompt适配器配置(name=path格式) |
None |
--response-role |
当request.add_generation_prompt=true时的返回角色名 |
assistant |
--return-tokens-as-token-ids |
以’token_id:{token_id}’格式返回token |
False |
--root-path |
代理路由时的FastAPI root_path |
None |
--ssl-ca-certs |
CA证书文件路径 |
None |
--ssl-cert-reqs |
客户端证书要求(参见ssl模块) |
0 |
--ssl-certfile |
SSL证书文件路径 |
None |
--ssl-keyfile |
SSL密钥文件路径 |
None |
--tool-call-parser |
工具调用解析器(根据模型选择) |
None |
--tool-parser-plugin |
自定义工具解析器插件 |
`` |
--use-v2-block-manager |
[已弃用] 不再生效 |
True |
--uvicorn-log-level |
uvicorn日志级别 |
info |
模型配置 (ModelConfig)
参数 |
说明 |
默认值 |
--allowed-local-media-path |
允许读取的本地媒体文件路径(安全风险) |
`` |
--code-revision |
HuggingFace Hub模型代码版本 |
None |
--config-format |
模型配置格式(auto/hf/mistral) |
auto |
--disable-async-output-proc |
禁用异步输出处理 |
False |
--disable-cascade-attn |
禁用V1级联注意力 |
False |
--disable-sliding-window |
禁用滑动窗口 |
False |
--dtype |
模型权重和激活的数据类型 |
auto |
--enable-prompt-embeds |
启用通过prompt_embeds传递文本嵌入 |
False |
--enable-sleep-mode |
启用引擎睡眠模式(仅CUDA) |
False |
--enforce-eager |
强制使用eager模式PyTorch |
False |
--generation-config |
生成配置文件夹路径 |
auto |
--hf-config-path |
HuggingFace配置名称/路径 |
None |
--hf-overrides |
HuggingFace配置覆盖参数 |
{} |
--hf-token |
HuggingFace认证token |
None |
--logits-processor-pattern |
有效的logits处理器正则模式 |
None |
--max-logprobs |
当logprobs指定时返回的最大log概率数 |
20 |
--max-model-len |
模型上下文最大长度(支持k/m/g单位) |
None |
--max-seq-len-to-capture |
CUDA图覆盖的最大序列长度 |
8192 |
--model-impl |
模型实现方式(auto/vllm/transformers) |
auto |
--override-generation-config |
生成配置覆盖参数 |
{} |
--override-neuron-config |
Neuron设备特定配置覆盖 |
{} |
--override-pooler-config |
池化模型配置覆盖 |
None |
--quantization |
权重量化方法 |
None |
--revision |
模型版本(分支/标签/commit id) |
None |
--rope-scaling |
RoPE缩放配置 |
{} |
--rope-theta |
RoPE theta参数 |
None |
--seed |
随机种子 |
None |
--served-model-name |
API中使用的模型名称(可多个) |
None |
--skip-tokenizer-init |
跳过tokenizer初始化 |
False |
--task |
模型任务类型 |
auto |
--tokenizer |
HuggingFace tokenizer名称/路径 |
None |
--tokenizer-mode |
tokenizer模式 |
auto |
--tokenizer-revision |
tokenizer版本 |
None |
--trust-remote-code |
信任远程代码 |
False |
加载配置 (LoadConfig)
参数 |
说明 |
默认值 |
--download-dir |
权重下载目录 |
None |
--ignore-patterns |
加载模型时忽略的模式 |
None |
--load-format |
权重加载格式 |
auto |
--model-loader-extra-config |
模型加载器额外配置 |
{} |
--pt-load-map-location |
PyTorch加载映射位置 |
cpu |
--qlora-adapter-name-or-path |
[即将移除] 无效果参数 |
None |
--use-tqdm-on-load |
加载时显示进度条 |
True |
解码配置 (DecodingConfig)
参数 |
说明 |
默认值 |
--enable-reasoning |
[已弃用] 使用—reasoning-parser替代 |
None |
--guided-decoding-backend |
引导解码后端 |
auto |
--guided-decoding-disable-additional-properties |
禁用JSON schema中的additionalProperties |
False |
--guided-decoding-disable-any-whitespace |
禁用引导解码中的空白字符生成 |
False |
--guided-decoding-disable-fallback |
禁用后端错误回退 |
False |
--reasoning-parser |
推理内容解析器 |
`` |
并行配置 (ParallelConfig)
参数 |
说明 |
默认值 |
--data-parallel-address |
数据并行集群头节点地址 |
None |
--data-parallel-backend |
数据并行后端(mp/ray) |
mp |
--data-parallel-rpc-port |
数据并行RPC端口 |
None |
--data-parallel-size |
数据并行组数量 |
1 |
--data-parallel-size-local |
本地节点数据并行副本数 |
None |
--disable-custom-all-reduce |
禁用自定义all-reduce内核 |
False |
--distributed-executor-backend |
分布式工作器后端 |
None |
--enable-expert-parallel |
对MoE层使用专家并行 |
False |
--enable-multimodal-encoder-data-parallel |
对视觉编码器使用数据并行 |
False |
--max-parallel-loading-workers |
并行加载工作器最大数量 |
None |
--pipeline-parallel-size |
流水线并行组数量 |
1 |
--ray-workers-use-nsight |
对Ray工作器使用nsight分析 |
False |
--tensor-parallel-size |
张量并行组数量 |
1 |
--worker-cls |
工作器类名 |
auto |
--worker-extension-cls |
工作器扩展类名 |
`` |
缓存配置 (CacheConfig)
参数 |
说明 |
默认值 |
--block-size |
连续缓存块的token数 |
None |
--calculate-kv-scales |
动态计算fp8 KV缓存比例 |
False |
--cpu-offload-gb |
每GPU的CPU卸载空间(GiB) |
0 |
--enable-prefix-caching |
启用前缀缓存 |
None |
--gpu-memory-utilization |
GPU内存利用率(0-1) |
0.9 |
--kv-cache-dtype |
KV缓存数据类型 |
auto |
--num-gpu-blocks-override |
覆盖分析的GPU块数 |
None |
--prefix-caching-hash-algo |
前缀缓存哈希算法 |
builtin |
--swap-space |
每GPU的CPU交换空间(GiB) |
4 |
调度配置 (SchedulerConfig)
参数 |
说明 |
默认值 |
--cuda-graph-sizes |
CUDA图捕获大小 |
[512] |
--disable-chunked-mm-input |
禁用分块多模态输入 |
False |
--disable-hybrid-kv-cache-manager |
禁用混合KV缓存管理器 |
False |
--enable-chunked-prefill |
启用分块prefill |
None |
--long-prefill-token-threshold |
长prefill请求的token阈值 |
0 |
--max-long-partial-prefills |
并发长prefill最大数量 |
1 |
--max-num-batched-tokens |
单次迭代最大处理token数 |
None |
--max-num-partial-prefills |
并发部分prefill最大数量 |
1 |
--max-num-seqs |
单次迭代最大处理序列数 |
None |
--multi-step-stream-outputs |
多步时流式输出 |
True |
--num-lookahead-slots |
前瞻slot数量(推测解码用) |
0 |
--num-scheduler-steps |
每次调度调用的最大前向步数 |
1 |
--preemption-mode |
抢占模式(recompute/swap) |
None |
--scheduler-cls |
调度器类 |
vllm.core.scheduler.Scheduler |
--scheduler-delay-factor |
调度延迟因子 |
0.0 |
--scheduling-policy |
调度策略 |
fcfs |