5月28日 07:00

Ollama 支持哪些大语言模型，如何选择合适的模型？

Ollama 支持的主要模型系列

截至 2026 年，Ollama 模型库已支持超过 100 个大语言模型，覆盖主流开源模型家族。以下是按厂商分类的核心模型：

Meta Llama 系列

阿里通义千问系列

深度求索系列

Google Gemma 系列

Mistral AI 系列

代码与专用模型

嵌入模型

选择模型的核心逻辑是：先看硬件，再看场景，最后实测。

硬件是硬约束。模型参数量越大，所需内存越多。一个反复在显存和系统内存间交换的模型，生成速度会慢到难以使用——宁可跑一个小模型跑得流畅，也不要勉强跑大模型。

Mac 用户注意：Mac 使用统一内存，16GB 机型建议预留 4-6GB 给系统，实际可跑模型控制在 9B 以下。

通用对话与日常问答

代码生成与调试

推理与数学

多模态（图片理解）

RAG 检索增强

Ollama 默认使用 Q4_K_M 量化。如果内存紧张，可以用更激进的量化：

bash
# 默认 Q4_K_M 量化
ollama run qwen2.5:7b

# 更小的 Q4 量化，速度快、精度微降
ollama run qwen2.5:7b-q4_0

# Q8 量化，接近原始精度但内存翻倍
ollama run qwen2.5:7b-q8_0

量化等级越低，模型体积越小、推理越快，但精度下降。实际体验中 Q4_K_M 到 Q4_0 的精度差异不大，但内存占用可减少 15%-20%。

bash
# 拉取模型
ollama pull qwen2.5:7b

# 运行并测试
ollama run qwen2.5:7b

# 在对话中输入测试提示
>>> 请写一篇关于春天的短文，200字左右

观察生成速度：流畅如打字（>15字/秒）说明硬件匹配；明显卡顿则换更小参数的模型或更激进的量化。

建议同时拉取 2-3 个候选模型，用相同的提示词对比效果，实测比看评测更靠谱。

访问 Ollama 官方模型库 https://ollama.com/library 可浏览全部模型及变体。新模型持续更新，建议定期查看。

标签：Ollama