docker 部署
更新时间:2025年3月19日 01:16
浏览:1002
docker 镜像地址
https://hub.docker.com/r/ollama/ollama
官方使用文档:
https://ollama.com/blog/ollama-is-now-available-as-an-official-docker-image
CPU示例:
docker run \
-d \
-v /path/to/ollama:/root/.ollama \
-p 11434:11434 \
--name ollama \
ollama/ollama
# 只需要下载下来模型却可,调用时会自动加载
# 可下载多个模型备用
docker exec -it ollama ollama pull qwen2.5:7b
docker exec -it ollama ollama pull qwen2.5:14b
GPU示例:
docker run \
-d \
--gpus=all \
-v /path/to/ollama:/root/.ollama \
-p 11434:11434 \
--name ollama \
ollama/ollama
# 只需要下载下来模型却可,调用时会自动加载
# 可下载多个模型备用
docker exec -it ollama ollama pull qwen2.5:7b
docker exec -it ollama ollama pull qwen2.5:14b
使用 GPU时,
- 服务器需要装好显卡驱动
- docker 需要安装 nvidia-runtime
https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/latest/install-guide.html#installation
API 调用
生成内容
curl http://localhost:11434/api/generate -d '{
"model": "qwen2.5:7b",
"prompt":"介绍下你自已"
}'
curl http://localhost:11434/api/generate -d '{
"model": "qwen2.5:14b",
"prompt":"介绍下你自已"
}'
对话
curl http://localhost:11434/api/chat -d '{
"model": "qwen2.5:7b",
"messages": [
{ "role": "user", "content": "介绍下你自已" }
]
}'
curl http://localhost:11434/api/chat -d '{
"model": "qwen2.5:14b",
"messages": [
{ "role": "user", "content": "介绍下你自已" }
]
}'
关于 ollama 冷启动
- ollama 动态管理加载的模型,长时间不用时,模型会从内存或显存中卸载。
- 只需要执行 ollama pull xxx 将模型下载下来却可
- 可以下载多个模型
- 调用接口时,指定的模型名在已下载的橡型列表中时, ollama 会自动加载该模型,
- 首次调用未加载的模型的时间较长,