环境变量设置
Ollama可配置环境变量:
- OLLAMA_DEBUG: 显示额外的调试信息(例如:OLLAMA_DEBUG=1)。
- OLLAMA_HOST: Ollama 服务器的 IP 地址(默认值:127.0.0.1:11434)。
- OLLAMA_KEEP_ALIVE: 模型在内存中保持加载的时长(默认值:“5m”)。
- OLLAMA_MAX_LOADED_MODELS: 每个 GPU 上最大加载模型数量。
- OLLAMA_MAX_QUEUE: 请求队列的最大长度。
- OLLAMA_MODELS: 模型目录的路径。
- OLLAMA_NUM_PARALLEL: 最大并行请求数。
- OLLAMA_NOPRUNE: 启动时不修剪模型 blob。
- OLLAMA_ORIGINS: 允许的源列表,使用逗号分隔。
- OLLAMA_SCHED_SPREAD: 始终跨所有 GPU 调度模型。
- OLLAMA_TMPDIR: 临时文件的位置。
- OLLAMA_FLASH_ATTENTION: 启用 Flash Attention。
- OLLAMA_LLM_LIBRARY: 设置 LLM 库以绕过自动检测。
# 设置远程访问地址
Environment="OLLAMA_HOST=0.0.0.0:11434"
# 设置model存放位置
Environment="OLLAMA_MODELS=/data/ollama/models"
# 跨域访问
Environment="OLLAMA_ORIGINS=*"
# 最大载入模型数,请根据具体电脑内存配置
Environment="OLLAMA_MAX_LOADED_MODELS=2"
参考文档:ollama/docs/faq.md at main · ollama/ollama · GitHub
命令行
安装后终端直接输入 ollama 即可显示可用命令
API 简介
拉取模型
curl http://localhost:11434/api/pull -d '{
"model": "deepseek-r1:7b"
}'
设置模型常驻内存
curl http://localhost:11434/api/generate -d '{
"model": "llama3.2",
"keep_alive": "8h"
}'
curl http://localhost:11434/api/generate -d '{
"model": "deepseek-r1:latest",
"keep_alive": -1
}'
keep_alive 参数支持 “5m”、”8h”、-1代表不限制、0代表立即卸载
查看版本号
curl http://localhost:11434/api/version