5月28日 07:02

什么是 Ollama 的 Modelfile，如何创建自定义模型？

Modelfile 是什么

Modelfile 是 Ollama 用来定义和构建自定义模型的配置文件，语法设计参考了 Dockerfile——从基础模型出发，逐层叠加参数、系统提示词和模板指令，最终打包成一个可复用的模型镜像。

一个最简的 Modelfile 只需要一行：

bash
FROM llama3.1

这就等于直接复制了一份 llama3.1。真正的自定义发生在你往里面添加指令之后。

核心指令逐一拆解

FROM — 指定基础模型

FROM 是唯一必填指令，支持三种来源：

bash
# 从 Ollama 仓库拉取
FROM llama3.1:8b

# 从本地 GGUF 文件构建
FROM ./my-model-q4_k_m.gguf

# 从 Safetensors 目录构建
FROM ./my-safetensors-dir

从本地 GGUF 导入是 Ollama 的一个重要能力，意味着你可以把 HuggingFace 上下载的任何 GGUF 量化模型直接跑起来，不需要额外转换。

PARAMETER — 调整推理参数

PARAMETER 控制模型运行时的行为，每行设置一个参数：

bash
PARAMETER temperature 0.7
PARAMETER top_p 0.9
PARAMETER num_ctx 4096
PARAMETER repeat_penalty 1.1
PARAMETER stop "<|end|>"

几个关键参数的含义：

temperature：控制输出随机性，0 附近更确定，1 以上更有创意。代码生成建议 0.1-0.3，创意写作建议 0.7-1.0
num_ctx：上下文窗口大小，默认 2048，增大后会占用更多显存
repeat_penalty：重复惩罚，大于 1 时抑制重复输出，1.1 是常用值
stop：指定停止生成的标记

SYSTEM — 设定系统提示词

SYSTEM 定义模型的"人格"和行为边界，是自定义模型最常用的指令：

bash
SYSTEM You are an expert Python developer. Answer concisely with code examples.

多行内容用三引号包裹：

bash
SYSTEM """
You are a senior code reviewer. Follow these rules:
1. Identify bugs and security issues first
2. Suggest specific fixes with code
3. Comment on performance if relevant
"""

系统提示词写得好，模型表现可以提升一个档次。核心技巧：明确角色、给出具体规则、限定输出格式。

TEMPLATE — 自定义对话模板

TEMPLATE 用 Go 模板语法定义对话格式，控制模型如何接收和生成文本：

bash
TEMPLATE """
{{- range .Messages }}
{{- if eq .Role "user" }}
<|user|>
{{ .Content }}<|end|>
{{- else if eq .Role "assistant" }}
<|assistant|}>
{{ .Content }}<|end|>
{{- end }}
{{- end }}
<|assistant|}>
"""

可用的模板变量：

.Messages — 完整对话历史
.Message.Role — 消息角色（user/assistant/system）
.Message.Content — 消息内容
.Prompt — 仅当前用户输入
.Response — 模型已生成的回复

多数情况下基础模型自带的默认模板就够用，只有在你导入 GGUF 文件且模板不兼容时才需要手动指定。

MESSAGE — 注入示例对话

MESSAGE 用来给模型提供 few-shot 示例，引导输出风格和格式：

bash
MESSAGE user 请用一句话解释什么是递归
MESSAGE assistant 递归是函数在自身定义中调用自身的编程技巧。

和 SYSTEM 配合使用效果更好：SYSTEM 定规则，MESSAGE 给示范。

其他指令

bash
# 添加许可证
LICENSE MIT

# 应用 LoRA 微调适配器
ADAPTER ./my-lora-adapter.bin

ADAPTER 指令可以将 LoRA 微调结果叠加到基础模型上，前提是适配器和基础模型必须匹配。

实战：创建自定义模型

场景一：基于已有模型定制

最常见的需求——拿一个通用模型，改系统提示词和参数，变成专用助手：

bash
# 创建 Modelfile
cat > Modelfile << 'EOF'
FROM llama3.1
SYSTEM You are a coding assistant specialized in Python. Provide concise answers with working code examples.
PARAMETER temperature 0.3
PARAMETER num_ctx 8192
EOF

# 构建模型
ollama create my-coder -f Modelfile

# 运行
ollama run my-coder

构建完成后，my-coder 就是一个独立的模型，可以像其他模型一样直接运行。

场景二：导入 HuggingFace 上的 GGUF 模型

从 HuggingFace 下载 GGUF 文件后，两步就能跑起来：

bash
# Modelfile 只需一行
cat > Modelfile << 'EOF'
FROM ./Qwen2.5-7B-Instruct-Q4_K_M.gguf
EOF

ollama create my-qwen -f Modelfile
ollama run my-qwen

如果对话格式不对，需要加 TEMPLATE 指令手动指定。

场景三：量化创建模型

Ollama 支持在创建时对 FP16 模型进行量化，节省磁盘空间：

bash
cat > Modelfile << 'EOF'
FROM ./my-model-f16.gguf
EOF

# 指定量化等级
ollama create my-model-q4 --quantize q4_K_M -f Modelfile

常用量化等级：q4_K_M（平衡质量和大小）、q5_K_M（更高质量）、q8_0（接近原质量但体积大）。注意量化过程需要额外磁盘空间，7B 模型的 FP16 文件约 14GB，量化时需要同等大小的临时空间。

常用运维命令

bash
# 查看模型的 Modelfile 配置
ollama show --modelfile my-coder

# 列出所有本地模型
ollama list

# 删除模型
ollama rm my-coder

# 更新模型（修改 Modelfile 后重新 create 同名即可覆盖）
ollama create my-coder -f Modelfile

ollama show --modelfile 非常实用，可以反查任何已有模型的完整配置，包括默认模板和参数，是学习和调试的好帮手。

常见问题

构建报错 "must specify a FROM line"：Modelfile 缺少 FROM 指令，确保第一行是 FROM。

导入 GGUF 后对话格式混乱：基础模型自带模板和 GGUF 文件的模板冲突，需要手动添加 TEMPLATE 指令指定正确的对话格式。

自定义模型回答风格没变化：检查 SYSTEM 指令是否生效——用 ollama show --modelfile model-name 确认配置是否正确写入。部分小模型对系统提示词的遵从度有限，换用更大参数的模型可能效果更好。

量化后模型质量下降明显：尝试更高的量化等级，如从 q4_K_M 换成 q5_K_M 或 q8_0。

标签：Ollama