docker 部署

更新时间：2025年10月18日 00:13 浏览：1537

docker 镜像地址
https://hub.docker.com/r/ollama/ollama

官方使用文档：
https://ollama.com/blog/ollama-is-now-available-as-an-official-docker-image

CPU示例：

docker run \
  -d \
  -v /path/to/ollama:/root/.ollama \
  -p 11434:11434 \
  --name ollama \
  ollama/ollama

# 只需要下载下来模型却可，调用时会自动加载
# 可下载多个模型备用
docker exec -it ollama ollama pull qwen2.5:7b
docker exec -it ollama ollama pull qwen2.5:14b

GPU示例：

docker run \
  -d \
  --gpus=all \
  -v /path/to/ollama:/root/.ollama \
  -p 11434:11434 \
  --name ollama \
  ollama/ollama

# 只需要下载下来模型却可，调用时会自动加载
# 可下载多个模型备用
docker exec -it ollama ollama pull qwen2.5:7b
docker exec -it ollama ollama pull qwen2.5:14b

使用 GPU时，

服务器需要装好显卡驱动
docker 需要安装 nvidia-runtime
https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/latest/install-guide.html#installation

API 调用

生成内容

curl http://localhost:11434/api/generate -d '{
  "model": "qwen2.5:7b",
  "prompt":"介绍下你自已"
}'

curl http://localhost:11434/api/generate -d '{
  "model": "qwen2.5:14b",
  "prompt":"介绍下你自已"
}'

对话

curl http://localhost:11434/api/chat -d '{
  "model": "qwen2.5:7b",
  "messages": [
    { "role": "user", "content": "介绍下你自已" }
  ]
}'

curl http://localhost:11434/api/chat -d '{
  "model": "qwen2.5:14b",
  "messages": [
    { "role": "user", "content": "介绍下你自已" }
  ]
}'

关于 ollama 冷启动

ollama 动态管理加载的模型，长时间不用时，模型会从内存或显存中卸载。
只需要执行 ollama pull xxx 将模型下载下来却可
可以下载多个模型
调用接口时，指定的模型名在已下载的橡型列表中时， ollama 会自动加载该模型,
首次调用未加载的模型的时间较长，