docker 部署

更新时间:2025年3月19日 01:16 浏览:1002

docker 镜像地址
https://hub.docker.com/r/ollama/ollama

官方使用文档:
https://ollama.com/blog/ollama-is-now-available-as-an-official-docker-image

CPU示例:

docker run \
  -d \
  -v /path/to/ollama:/root/.ollama \
  -p 11434:11434 \
  --name ollama \
  ollama/ollama

# 只需要下载下来模型却可,调用时会自动加载
# 可下载多个模型备用
docker exec -it ollama ollama pull qwen2.5:7b
docker exec -it ollama ollama pull qwen2.5:14b

GPU示例:

docker run \
  -d \
  --gpus=all \
  -v /path/to/ollama:/root/.ollama \
  -p 11434:11434 \
  --name ollama \
  ollama/ollama

# 只需要下载下来模型却可,调用时会自动加载
# 可下载多个模型备用
docker exec -it ollama ollama pull qwen2.5:7b
docker exec -it ollama ollama pull qwen2.5:14b

使用 GPU时,

API 调用

生成内容

curl http://localhost:11434/api/generate -d '{
  "model": "qwen2.5:7b",
  "prompt":"介绍下你自已"
}'

curl http://localhost:11434/api/generate -d '{
  "model": "qwen2.5:14b",
  "prompt":"介绍下你自已"
}'

对话

curl http://localhost:11434/api/chat -d '{
  "model": "qwen2.5:7b",
  "messages": [
    { "role": "user", "content": "介绍下你自已" }
  ]
}'

curl http://localhost:11434/api/chat -d '{
  "model": "qwen2.5:14b",
  "messages": [
    { "role": "user", "content": "介绍下你自已" }
  ]
}'

关于 ollama 冷启动

  • ollama 动态管理加载的模型,长时间不用时,模型会从内存或显存中卸载。
  • 只需要执行 ollama pull xxx 将模型下载下来却可
  • 可以下载多个模型
  • 调用接口时,指定的模型名在已下载的橡型列表中时, ollama 会自动加载该模型,
  • 首次调用未加载的模型的时间较长,
导航