Ollama + Gemma 4 完全指南

本指南基于官方文档整理,涵盖从介绍到最佳实践的完整内容

一、Gemma 4 是什么

Gemma 是由 Google DeepMind 打造的开放模型系列,Gemma 4 是最新一代产品,定位为多模态开源模型

核心特性

特性说明
多模态支持文本、图像输入,文本输出
长上下文小模型 128K tokens,中大型号 256K tokens
推理能力内置思考模式(Thinking Mode),可配置
本地优化专为笔记本电脑和移动设备设计
编码能力在代码基准测试中表现优异,支持原生函数调用
系统提示原生支持 system role,对话更可控

模型系列

Ollama 提供 5 个版本:

Edge 设备(轻量)
├── gemma4:e2b - 2B 有效参数(约 5.1B 含嵌入)
└── gemma4:e4b - 4B 有效参数(约 8B 含嵌入)
工作站(高性能)
├── gemma4:26b - MoE 架构,4B 活跃参数,256K 上下文
└── gemma4:31b - Dense 架构,30.7B 参数,256K 上下文
└── gemma4:31b-cloud - 云端版本

参数对比

属性E2BE4B26B MoE31B Dense
总参数2.3B4.5B25.2B30.7B
活跃参数2.3B4.5B3.8B30.7B
层数35423060
上下文128K128K256K256K
滑动窗口51251210241024
模态文本/图像/音频文本/图像/音频文本/图像文本/图像

二、性能基准测试

Gemma 4 在各项基准测试中表现出色:

基准测试31B26B A4BE4BE2B
MMLU Pro85.2%82.6%69.4%60.0%
AIME 202689.2%88.3%42.5%37.5%
LiveCodeBench80.0%77.1%52.0%44.0%
Codeforces ELO21501718940633
GPQA Diamond84.3%82.3%58.6%43.4%
BigBench Extra Hard74.4%64.8%33.1%21.9%
MMMU Pro(视觉)76.9%73.8%52.6%44.2%

关键发现

  • 31B 模型在编码任务上大幅领先(Codeforces ELO 2150 vs 940)
  • AIME 2026 数学推理:31B 达到 89.2%,远超其他型号
  • 26B MoE 以更少活跃参数(3.8B)实现了接近 31B 的性能

三、安装 Ollama

macOS / Linux

Terminal window
# 一键安装
curl -fsSL https://ollama.com/install.sh | sh

Windows

下载安装包:https://ollama.com/download/OllamaSetup.exe

或使用 PowerShell:

Terminal window
irm https://ollama.com/install.ps1 | iex

Docker

Terminal window
docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

验证安装

Terminal window
ollama --version

四、下载 Gemma 4 模型

下载命令

Terminal window
# 下载所有版本
ollama pull gemma4 # 默认 31B
ollama pull gemma4:31b # Dense 版本
ollama pull gemma4:26b # MoE 版本
ollama pull gemma4:e2b # Edge 2B
ollama pull gemma4:e4b # Edge 4B
ollama pull gemma4:31b-cloud # 云端版本

磁盘空间需求

模型大小
E2B~5GB
E4B~8GB
26B~16GB
31B~19GB

推荐:至少 20GB 可用磁盘空间


五、配置要求

硬件建议

模型最低 RAM推荐 RAMGPU
E2B8GB16GB4GB VRAM
E4B12GB24GB8GB VRAM
26B24GB32GB16GB VRAM
31B32GB64GB24GB VRAM

操作系统

  • macOS: Apple Silicon(M系列芯片)原生支持
  • Linux: Ubuntu 20.04+, 主流发行版
  • Windows: Windows 10/11

GPU 驱动

确保安装了最新的 GPU 驱动(NVIDIA driver 535+)


六、性能最大化配置

1. 采样参数(推荐配置)

response = ollama.chat(
model='gemma4:31b',
messages=[{'role': 'user', 'content': '你的问题'}],
options={
'temperature': 1.0,
'top_p': 0.95,
'top_k': 64
}
)

2. 思考模式配置

Gemma 4 支持两种模式:

启用思考模式(默认):

在 system prompt 中包含触发token,模型会输出:
thought
[内部推理过程]
[最终答案]

禁用思考模式

移除触发token,模型直接输出答案
thought
[直接回答]

3. 多轮对话

⚠️ 重要:历史消息中只保留最终答案,不要包含思考过程

# 错误示例 ❌
messages = [
{'role': 'user', 'content': '问题1'},
{'role': 'assistant', 'content': 'thought\n[推理过程]\n答案1'}, # ❌ 包含思考
{'role': 'user', 'content': '问题2'}
]
# 正确示例 ✅
messages = [
{'role': 'user', 'content': '问题1'},
{'role': 'assistant', 'content': '答案1'}, # ✅ 只保留答案
{'role': 'user', 'content': '问题2'}
]

4. 图像输入优化

最佳顺序:图像 → 文本

response = ollama.chat(
model='gemma4:31b',
messages=[
{
'role': 'user',
'content': [
{'type': 'image', 'image': 'image.jpg'},
{'type': 'text', 'text': '描述这张图片'}
]
}
]
)

5. 图像分辨率配置

Gemma 4 支持可变分辨率,通过 token 预算控制:

Token 预算适用场景
70快速分类、粗略理解
140常规图像理解
280文档理解
560精细图像分析
1120OCR、小文本读取
# 配置视觉 token 预算(需要在 modelfile 中设置)
/set parameter vision_token_budget 560

七、本地应用场景

1. 开发Coding助手

  • 代码审查与优化建议
  • 自动补全与重构
  • Bug 分析与修复
  • 技术文档生成

推荐模型:gemma4:31b(Codeforces ELO 2150,编码能力最强)

2. 本地知识库问答

  • 企业内部文档问答
  • 个人笔记助手
  • PDF/论文解析

推荐模型:gemma4:26b(性价比高,256K 上下文)

3. 图像理解与分析

  • 文档扫描与 OCR
  • 图表分析
  • 产品照片理解

推荐模型:gemma4:e4b 或 26b(带图像编码器)

4. 移动端/边缘部署

  • 离线 AI 助手
  • 本地语音转文本理解

推荐模型:gemma4:e2b / e4b(轻量级,Apple Silicon 优化)

5. 数学推理与解题

  • 作业辅导
  • 数学问题求解
  • 逻辑推理

推荐模型:gemma4:31b(AIME 2026 得分 89.2%)


八、与其他本地模型对比(2026年4月最新)

基于 Ollama 官方模型库当前热门模型进行对比:

1. Gemma 4 31B vs Qwen3.5 32B(30B 级别Dense对比)

方面Gemma 4 31BQwen3.5 32B
参数量30.7B32B
上下文256K128K(可扩展)
多模态原生支持图像+音频原生支持图像
思考模式✅ 原生✅ 原生
函数调用✅ 原生✅ 原生
编码能力Codeforces ELO 2150优秀
特色滑动窗口 1024 tokens社区生态完善

结论:Gemma 4 在长上下文和编码能力上占优,Qwen3.5 生态更成熟

2. Gemma 4 26B MoE vs Nemotron Cascade 2(MoE架构对比)

方面Gemma 4 26B MoENemotron Cascade 2
架构8专家/128总计,4B活跃MoE,3B活跃
上下文256K128K
多模态图像+文本文本为主
思考模式
特色Google DeepMind 技术NVIDIA 官方优化

结论:Gemma 4 MoE 上下文更长,Nemotron 在 NVIDIA 硬件上优化更好

3. Gemma 4 E4B vs Qwen3.5 4B(轻量级对比)

方面Gemma 4 E4BQwen3.5 4B
有效参数4.5B(含嵌入8B)4B
上下文128K128K
多模态图像+音频图像
最低 RAM12GB8GB
适用场景移动设备/边缘轻量级部署

结论:Qwen3.5 4B 更轻量,E4B 功能更完整(多模态+音频)

4. Gemma 4 vs GLM-4.7-Flash(30B级别对比)

方面Gemma 4 31BGLM-4.7-Flash
参数量30.7B~30B
上下文256K128K
多模态原生原生
思考模式
特色Google 技术智谱 AI

5. 总体建议

需求推荐模型
编码为主Gemma 4 31B > Qwen3.5 32B
长文档处理Gemma 4 31B / 26B
轻量部署Qwen3.5 4B / Gemma 4 E2B
NVIDIA 显卡Nemotron Cascade 2
多模态+音频Gemma 4 系列

九、进阶使用

REST API

Terminal window
curl http://localhost:11434/api/chat -d '{
"model": "gemma4:31b",
"messages": [
{"role": "user", "content": "用 Python 写一个快速排序"}
],
"stream": false
}'

Python SDK

pip install ollama
from ollama import chat
response = chat(
model='gemma4:31b',
messages=[
{'role': 'user', 'content': '解释一下什么是递归'}
]
)
print(response.message.content)

Node.js SDK

npm i ollama
const ollama = require('ollama');
const response = await ollama.chat({
model: 'gemma4:31b',
messages: [{role: 'user', content: '你好'}]
});
console.log(response.message.content);

常用命令

Terminal window
# 列出已下载模型
ollama list
# 运行模型
ollama run gemma4:31b
# 查看模型信息
ollama show gemma4:31b
# 复制模型
ollama cp gemma4:31b gemma4:31b-custom
# 删除模型
ollama rm gemma4:31b

十、常见问题

Q: 模型下载太慢怎么办? A: 使用后台下载:ollama pull gemma4 &,或使用镜像源

Q: 内存不足怎么办? A: 选择更小的版本(e2b/e4b),或使用 26b MoE 版本

Q: 思考模式如何关闭? A: 在 system prompt 中移除触发 token,或创建 Modelfile 设置 thinking off

Q: 如何提升图像识别速度? A: 降低 vision_token_budget,使用更小的图像分辨率


总结

Gemma 4 是目前最强大的本地开源模型之一,特别是:

  • 编码能力:Codeforces ELO 2150
  • 数学推理:AIME 2026 得分 89.2%
  • 长上下文:256K tokens
  • 多模态:原生支持图像理解

对于本地部署,推荐从 gemma4:e2b 开始测试硬件兼容性,逐步升级到 gemma4:31b 获得最佳性能。


← Back to blog