ChatGPT API 有两个维度的限制:
其中 TPM 针对不同的模型,单位是不同的。
模型 | 1 TPM 相当于 |
---|---|
davinci | 1 个分词每分钟 |
curie | 25 个分词每分钟 |
babbage | 100 个分词每分钟 |
ada | 200 个分词每分钟 |
可以理解为TPM 是以最为复杂的 davinci 模型定义的,其它模型为简化模型,成本更低,这些简化模型处理 25 ~ 200 个 tokens 才计为一个。
GPT3.5 davinci 模型速率限制:
文本(TEXT & EMBEDDING) | 聊天(CHAT) | 代码(CODEX) | 文本修改(EDIT) | 图像(IMAGE) | 音频(AUDIO) | |
---|---|---|---|---|---|---|
免费账号 | 3 次/分钟 150,000 分词/分钟 |
3 次/分钟 40,000 分词/分钟 |
3 次/分钟 40,000 分词/分钟 |
3 次/分钟 150,000 分词/分钟 |
5 个/分钟 | 3 次/分钟 |
付费账号48小时内 | 60 次/分钟 250,000 分词/分钟 |
60 次/分钟 60,000 分词/分钟 |
20 次/分钟 40,000 分词/分钟 |
20 次/分钟 150,000 分词/分钟 |
50 个/分钟 | 50 次/分钟 |
付费账号48小时后 | 3,500 次/分钟 350,000 分词/分钟 |
3,500 次/分钟 90,000 分词/分钟 |
20 次/分钟 40,000 分词/分钟 |
20 次/分钟 150,000 分词/分钟 |
50 个/分钟 | 50 次/分钟 |
其它简化模型的 TPM,按前文表格的比率 x25 ~ x200
使用中发现,次数限制并不是分钟来统计的,比如一分钟内你只调用了两次,但这两次间隔很短,第二次调用会失败。如免费账号限制 3 次每分钟,相当于 20 秒每次,它是按照 20 秒来限制的,本次调用距上次调用不足 20 秒,马上报错。
GPT 4 速率限制
模型 | 限制 |
---|---|
gpt-4/gpt-4-0314 | 200 次/分钟 40,000 分词/分钟 |
gpt-4-32k/gpt-4-32k-0314 | 20 次/分钟 250,000 分词/分钟 |
速率超限时的报错提示示例:
Rate limit reached for default-text-davinci-002 in organization org-{id} on requests per min. Limit: 20.000000 / min. Current: 24.000000 / min.