5月28日 07:00

Ollama 支持哪些大语言模型,如何选择合适的模型?

Ollama 支持的主要模型系列

截至 2026 年,Ollama 模型库已支持超过 100 个大语言模型,覆盖主流开源模型家族。以下是按厂商分类的核心模型:

Meta Llama 系列

  • llama3.1 — 8B / 70B / 405B,通用对话基线模型
  • llama3.2 — 1B / 3B,轻量级端侧模型
  • llama3.3 — 70B,Meta 当前最强开源模型,推理能力接近 Llama 3.1 405B

阿里通义千问系列

  • qwen2.5 — 7B / 14B / 32B / 72B,中文理解能力突出,128K 上下文
  • qwen2.5-coder — 7B / 32B,代码生成与调试首选
  • qwen3 — 8B / 14B 等,强推理 + 工具调用能力,2026 年热门模型

深度求索系列

  • deepseek-r1 — 7B / 8B / 32B,链式思维推理模型,数学和逻辑推理表现优异
  • deepseek-v3 — 大参数通用模型

Google Gemma 系列

  • gemma2 — 9B / 27B,轻量高效
  • gemma3 — 4B / 12B / 27B,支持多模态(文本+图片输入)

Mistral AI 系列

  • mistral — 7B,经典轻量模型
  • mixtral — 8x7B / 8x22B,MoE 架构,兼顾速度与质量

代码与专用模型

  • codellama — 7B / 13B / 34B,多语言代码生成
  • devstral-small — 软件工程专用,适合中等硬件
  • phi4-mini — 微软轻量模型,低资源环境可用

嵌入模型

  • mxbai-embed-large — 文本嵌入,适合 RAG 系统
  • nomic-embed-text — 长文本嵌入

如何选择合适的模型

选择模型的核心逻辑是:先看硬件,再看场景,最后实测。

按硬件配置选择

硬件是硬约束。模型参数量越大,所需内存越多。一个反复在显存和系统内存间交换的模型,生成速度会慢到难以使用——宁可跑一个小模型跑得流畅,也不要勉强跑大模型。

可用内存推荐参数量代表模型
8GB1B-7Bqwen3:4bllama3.2:3bphi4-mini
16GB7B-14Bqwen2.5:7bllama3.1:8bgemma3:12b
32GB14B-32Bqwen2.5-coder:32bdeepseek-r1:32b
64GB+70Bllama3.3:70bqwen2.5:72b

Mac 用户注意:Mac 使用统一内存,16GB 机型建议预留 4-6GB 给系统,实际可跑模型控制在 9B 以下。

按使用场景选择

通用对话与日常问答

  • 首选 qwen2.5:7b(中文场景)或 llama3.1:8b(英文场景)
  • 中文理解、成语运用和文化常识方面,Qwen 系列在同参数量下明显优于 Llama

代码生成与调试

  • 首选 qwen2.5-coder:7b(16GB 内存)或 qwen2.5-coder:32b(32GB 内存)
  • DeepSeek Coder 和 CodeLlama 是备选

推理与数学

  • 首选 deepseek-r1:7b(轻量)或 deepseek-r1:32b(高质量)
  • DeepSeek R1 的链式思维推理在数学和逻辑题上表现突出

多模态(图片理解)

  • 首选 gemma3:4b(低硬件)或 gemma3:27b(高硬件)
  • qwen2.5-vl:7b 适合结构化图片分析

RAG 检索增强

  • 文本生成用 qwen2.5:7b,嵌入用 mxbai-embed-large

量化版本选择

Ollama 默认使用 Q4_K_M 量化。如果内存紧张,可以用更激进的量化:

bash
# 默认 Q4_K_M 量化 ollama run qwen2.5:7b # 更小的 Q4 量化,速度快、精度微降 ollama run qwen2.5:7b-q4_0 # Q8 量化,接近原始精度但内存翻倍 ollama run qwen2.5:7b-q8_0

量化等级越低,模型体积越小、推理越快,但精度下降。实际体验中 Q4_K_M 到 Q4_0 的精度差异不大,但内存占用可减少 15%-20%。

实操:快速验证模型是否适合你

bash
# 拉取模型 ollama pull qwen2.5:7b # 运行并测试 ollama run qwen2.5:7b # 在对话中输入测试提示 >>> 请写一篇关于春天的短文,200字左右

观察生成速度:流畅如打字(>15字/秒)说明硬件匹配;明显卡顿则换更小参数的模型或更激进的量化。

建议同时拉取 2-3 个候选模型,用相同的提示词对比效果,实测比看评测更靠谱。

查看所有可用模型

访问 Ollama 官方模型库 https://ollama.com/library 可浏览全部模型及变体。新模型持续更新,建议定期查看。

标签:Ollama