ollama命令行使用和API简介

环境变量设置

Ollama可配置环境变量:

  • OLLAMA_DEBUG: 显示额外的调试信息(例如:OLLAMA_DEBUG=1)。
  • OLLAMA_HOST: Ollama 服务器的 IP 地址(默认值:127.0.0.1:11434)。
  • OLLAMA_KEEP_ALIVE: 模型在内存中保持加载的时长(默认值:“5m”)。
  • OLLAMA_MAX_LOADED_MODELS: 每个 GPU 上最大加载模型数量。
  • OLLAMA_MAX_QUEUE: 请求队列的最大长度。
  • OLLAMA_MODELS: 模型目录的路径。
  • OLLAMA_NUM_PARALLEL: 最大并行请求数。
  • OLLAMA_NOPRUNE: 启动时不修剪模型 blob。
  • OLLAMA_ORIGINS: 允许的源列表,使用逗号分隔。
  • OLLAMA_SCHED_SPREAD: 始终跨所有 GPU 调度模型。
  • OLLAMA_TMPDIR: 临时文件的位置。
  • OLLAMA_FLASH_ATTENTION: 启用 Flash Attention。
  • OLLAMA_LLM_LIBRARY: 设置 LLM 库以绕过自动检测。
# 设置远程访问地址
Environment="OLLAMA_HOST=0.0.0.0:11434"

# 设置model存放位置
Environment="OLLAMA_MODELS=/data/ollama/models"

# 跨域访问
Environment="OLLAMA_ORIGINS=*" 

# 最大载入模型数,请根据具体电脑内存配置
Environment="OLLAMA_MAX_LOADED_MODELS=2"

参考文档:ollama/docs/faq.md at main · ollama/ollama · GitHub

命令行

安装后终端直接输入 ollama 即可显示可用命令

API 简介

拉取模型

curl http://localhost:11434/api/pull -d '{
"model": "deepseek-r1:7b"
}'

设置模型常驻内存

curl http://localhost:11434/api/generate -d '{
"model": "llama3.2",
"keep_alive": "8h"
}'

curl http://localhost:11434/api/generate -d '{
"model": "deepseek-r1:latest",
"keep_alive": -1
}'

keep_alive 参数支持 “5m”、”8h”、-1代表不限制、0代表立即卸载

查看版本号

curl http://localhost:11434/api/version
Author: thinkwei

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注