5月28日 06:59

如何安装 Ollama？常用命令和实操技巧有哪些？

各平台安装方式

Ollama 支持在 macOS、Linux 和 Windows 三个主流平台上安装，同时也提供 Docker 部署方案。

macOS 安装

通过 Homebrew 一键安装：

bash
brew install ollama

也可以从 Ollama 官网下载 macOS 版本的安装包，拖入 Applications 文件夹即可完成安装。安装后菜单栏会出现 Ollama 图标，点击可查看服务状态。

Linux 安装

使用官方一键安装脚本：

bash
curl -fsSL https://ollama.com/install.sh | sh

如果遇到权限问题，可以加 sudo 执行。安装完成后 Ollama 会自动注册为 systemd 服务，开箱即用。

Windows 安装

两种方式可选：

bash
# 方式一：通过 winget 安装
winget install Ollama.Ollama

方式二是从官网下载 OllamaSetup.exe，双击运行安装程序。安装完成后 Ollama 默认开机自启，如需关闭可在任务管理器的启动应用中禁用。

Docker 部署

服务器环境下推荐使用 Docker 部署：

bash
docker run -d -v /home/ollama:/root/.ollama   -p 11434:11434   --name ollama   ollama/ollama

验证安装是否成功

安装完成后执行以下命令确认：

bash
ollama --version

也可以直接请求 API 端点检查服务状态：

bash
curl http://localhost:11434
# 返回 "Ollama is running" 即表示服务正常

核心命令速查

模型管理

运行模型（首次运行会自动下载）：

bash
ollama run llama3.2
ollama run mistral
ollama run codellama

下载模型：

bash
ollama pull llama3.2
ollama pull phi3:mini    # 适合 8GB 内存的小型模型
ollama pull llama3.1:70b # 需要 32GB+ 内存

查看已安装模型：

bash
ollama list

查看正在运行的模型：

bash
ollama ps

删除模型：

bash
ollama rm llama3.2

停止运行中的模型：

bash
ollama stop llama3.2

查看模型详细信息：

bash
ollama show llama3.2

复制模型：

bash
ollama cp llama3.2 my-llama

服务管理

启动 API 服务：

bash
ollama serve

查看帮助信息：

bash
ollama -h

自定义模型：Modelfile

Ollama 支持通过 Modelfile 创建自定义模型，类似于 Dockerfile 的工作方式：

bash
ollama create my-model -f ./Modelfile

Modelfile 示例：

dockerfile
FROM llama3.2

# 设置系统提示词
SYSTEM You are a helpful coding assistant that always responds in Chinese.

# 设置温度参数
PARAMETER temperature 0.7

# 设置模板
TEMPLATE {{- .System }}
{{- .Prompt }}

创建后可以直接运行：

bash
ollama run my-model

API 调用方式

Ollama 默认在 localhost:11434 提供 REST API 服务，支持两种主要接口。

生成接口

bash
curl http://localhost:11434/api/generate -d '{
  "model": "llama3.2",
  "prompt": "用 Python 实现快速排序",
  "stream": false
}'

对话接口

bash
curl http://localhost:11434/api/chat -d '{
  "model": "llama3.2",
  "messages": [
    {"role": "system", "content": "你是一个编程助手"},
    {"role": "user", "content": "解释什么是 REST API"}
  ],
  "stream": false
}'

将 stream 设为 true 可以启用流式输出，适合前端逐字展示的场景。

GPU 加速配置

Ollama 默认会自动检测并使用可用的 GPU，无需额外配置。

NVIDIA GPU：需要安装 NVIDIA 驱动，Ollama 自动调用 CUDA 加速，推荐 RTX 4060 及以上显卡
AMD GPU：Linux 下自动支持 ROCm，macOS 使用 Metal 加速
Apple Silicon：M 系列芯片通过 Metal 框架获得原生加速

查看 GPU 使用情况：

bash
# Linux 下查看 NVIDIA GPU 状态
nvidia-smi

如果 GPU 未被识别，确认驱动已正确安装，并检查 OLLAMA_LLM_LIBRARY 环境变量是否被误设。

常见问题排查

端口被占用：默认端口 11434 冲突时，通过环境变量修改：

bash
export OLLAMA_HOST=0.0.0.0:11435
ollama serve

模型下载慢：配置代理加速：

bash
export OLLAMA_PROXY=http://your-proxy:port

内存不足：优先选择量化后的小模型，如 phi3:mini 或 llama3.2，避免直接运行 70B 参数量的大模型。

服务启动失败：Linux 下检查 systemd 服务状态：

bash
systemctl status ollama
systemctl restart ollama

掌握以上安装方法和常用命令，就能在本地快速搭建大语言模型运行环境。建议从 ollama run llama3.2 开始体验，熟悉后再尝试 Modelfile 自定义和 API 集成。

标签：Ollama