错误信息:
Input prompt (8725 tokens) is too long and exceeds limit of 2048
增加参数
# 最大 tokens 长度 (请求 + 响应),显存较小时需要设置为较小的值 --max-model-len 128000 # 请求的最大 tokens 长茺 --max_num_batched_tokens=32000