Ollama + Gemma 4 完全指南

本指南基于官方文档整理，涵盖从介绍到最佳实践的完整内容

一、Gemma 4 是什么

Gemma 是由 Google DeepMind 打造的开放模型系列，Gemma 4 是最新一代产品，定位为多模态开源模型。

核心特性

特性	说明
多模态	支持文本、图像输入，文本输出
长上下文	小模型 128K tokens，中大型号 256K tokens
推理能力	内置思考模式（Thinking Mode），可配置
本地优化	专为笔记本电脑和移动设备设计
编码能力	在代码基准测试中表现优异，支持原生函数调用
系统提示	原生支持 system role，对话更可控

模型系列

Ollama 提供 5 个版本：

Edge 设备（轻量）
├── gemma4:e2b   - 2B 有效参数（约 5.1B 含嵌入）
└── gemma4:e4b   - 4B 有效参数（约 8B 含嵌入）

工作站（高性能）
├── gemma4:26b   - MoE 架构，4B 活跃参数，256K 上下文
└── gemma4:31b   - Dense 架构，30.7B 参数，256K 上下文
└── gemma4:31b-cloud - 云端版本

参数对比

属性	E2B	E4B	26B MoE	31B Dense
总参数	2.3B	4.5B	25.2B	30.7B
活跃参数	2.3B	4.5B	3.8B	30.7B
层数	35	42	30	60
上下文	128K	128K	256K	256K
滑动窗口	512	512	1024	1024
模态	文本/图像/音频	文本/图像/音频	文本/图像	文本/图像

二、性能基准测试

Gemma 4 在各项基准测试中表现出色：

基准测试	31B	26B A4B	E4B	E2B
MMLU Pro	85.2%	82.6%	69.4%	60.0%
AIME 2026	89.2%	88.3%	42.5%	37.5%
LiveCodeBench	80.0%	77.1%	52.0%	44.0%
Codeforces ELO	2150	1718	940	633
GPQA Diamond	84.3%	82.3%	58.6%	43.4%
BigBench Extra Hard	74.4%	64.8%	33.1%	21.9%
MMMU Pro（视觉）	76.9%	73.8%	52.6%	44.2%

关键发现：

31B 模型在编码任务上大幅领先（Codeforces ELO 2150 vs 940）
AIME 2026 数学推理：31B 达到 89.2%，远超其他型号
26B MoE 以更少活跃参数（3.8B）实现了接近 31B 的性能

三、安装 Ollama

macOS / Linux

# 一键安装
curl -fsSL https://ollama.com/install.sh | sh

Windows

下载安装包：https://ollama.com/download/OllamaSetup.exe

或使用 PowerShell：

irm https://ollama.com/install.ps1 | iex

Docker

docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

验证安装

ollama --version

四、下载 Gemma 4 模型

下载命令

# 下载所有版本
ollama pull gemma4            # 默认 31B
ollama pull gemma4:31b        # Dense 版本
ollama pull gemma4:26b        # MoE 版本
ollama pull gemma4:e2b        # Edge 2B
ollama pull gemma4:e4b        # Edge 4B
ollama pull gemma4:31b-cloud  # 云端版本

磁盘空间需求

模型	大小
E2B	~5GB
E4B	~8GB
26B	~16GB
31B	~19GB

五、配置要求

硬件建议

模型	最低 RAM	推荐 RAM	GPU
E2B	8GB	16GB	4GB VRAM
E4B	12GB	24GB	8GB VRAM
26B	24GB	32GB	16GB VRAM
31B	32GB	64GB	24GB VRAM

操作系统

macOS: Apple Silicon（M系列芯片）原生支持
Linux: Ubuntu 20.04+, 主流发行版
Windows: Windows 10/11

GPU 驱动

确保安装了最新的 GPU 驱动（NVIDIA driver 535+）

六、性能最大化配置

1. 采样参数（推荐配置）

response = ollama.chat(
    model='gemma4:31b',
    messages=[{'role': 'user', 'content': '你的问题'}],
    options={
        'temperature': 1.0,
        'top_p': 0.95,
        'top_k': 64
    }
)

2. 思考模式配置

Gemma 4 支持两种模式：

启用思考模式（默认）：

在 system prompt 中包含触发token，模型会输出：
thought
[内部推理过程]
[最终答案]

禁用思考模式：

移除触发token，模型直接输出答案
thought
[直接回答]

3. 多轮对话

⚠️ 重要：历史消息中只保留最终答案，不要包含思考过程

# 错误示例 ❌
messages = [
    {'role': 'user', 'content': '问题1'},
    {'role': 'assistant', 'content': 'thought\n[推理过程]\n答案1'},  # ❌ 包含思考
    {'role': 'user', 'content': '问题2'}
]

# 正确示例 ✅
messages = [
    {'role': 'user', 'content': '问题1'},
    {'role': 'assistant', 'content': '答案1'},  # ✅ 只保留答案
    {'role': 'user', 'content': '问题2'}
]

4. 图像输入优化

最佳顺序：图像 → 文本

response = ollama.chat(
    model='gemma4:31b',
    messages=[
        {
            'role': 'user',
            'content': [
                {'type': 'image', 'image': 'image.jpg'},
                {'type': 'text', 'text': '描述这张图片'}
            ]
        }
    ]
)

5. 图像分辨率配置

Gemma 4 支持可变分辨率，通过 token 预算控制：

Token 预算	适用场景
70	快速分类、粗略理解
140	常规图像理解
280	文档理解
560	精细图像分析
1120	OCR、小文本读取

# 配置视觉 token 预算（需要在 modelfile 中设置）
/set parameter vision_token_budget 560

七、本地应用场景

1. 开发Coding助手

代码审查与优化建议
自动补全与重构
Bug 分析与修复
技术文档生成

推荐模型：gemma4:31b（Codeforces ELO 2150，编码能力最强）

2. 本地知识库问答

企业内部文档问答
个人笔记助手
PDF/论文解析

推荐模型：gemma4:26b（性价比高，256K 上下文）

3. 图像理解与分析

文档扫描与 OCR
图表分析
产品照片理解

推荐模型：gemma4:e4b 或 26b（带图像编码器）

4. 移动端/边缘部署

离线 AI 助手
本地语音转文本理解

推荐模型：gemma4:e2b / e4b（轻量级，Apple Silicon 优化）

5. 数学推理与解题

作业辅导
数学问题求解
逻辑推理

推荐模型：gemma4:31b（AIME 2026 得分 89.2%）

八、与其他本地模型对比（2026年4月最新）

基于 Ollama 官方模型库当前热门模型进行对比：

1. Gemma 4 31B vs Qwen3.5 32B（30B 级别Dense对比）

方面	Gemma 4 31B	Qwen3.5 32B
参数量	30.7B	32B
上下文	256K	128K（可扩展）
多模态	原生支持图像+音频	原生支持图像
思考模式	✅ 原生	✅ 原生
函数调用	✅ 原生	✅ 原生
编码能力	Codeforces ELO 2150	优秀
特色	滑动窗口 1024 tokens	社区生态完善

结论：Gemma 4 在长上下文和编码能力上占优，Qwen3.5 生态更成熟

2. Gemma 4 26B MoE vs Nemotron Cascade 2（MoE架构对比）

方面	Gemma 4 26B MoE	Nemotron Cascade 2
架构	8专家/128总计，4B活跃	MoE，3B活跃
上下文	256K	128K
多模态	图像+文本	文本为主
思考模式	✅	✅
特色	Google DeepMind 技术	NVIDIA 官方优化

结论：Gemma 4 MoE 上下文更长，Nemotron 在 NVIDIA 硬件上优化更好

3. Gemma 4 E4B vs Qwen3.5 4B（轻量级对比）

方面	Gemma 4 E4B	Qwen3.5 4B
有效参数	4.5B（含嵌入8B）	4B
上下文	128K	128K
多模态	图像+音频	图像
最低 RAM	12GB	8GB
适用场景	移动设备/边缘	轻量级部署

结论：Qwen3.5 4B 更轻量，E4B 功能更完整（多模态+音频）

4. Gemma 4 vs GLM-4.7-Flash（30B级别对比）

方面	Gemma 4 31B	GLM-4.7-Flash
参数量	30.7B	~30B
上下文	256K	128K
多模态	原生	原生
思考模式	✅	✅
特色	Google 技术	智谱 AI

5. 总体建议

需求	推荐模型
编码为主	Gemma 4 31B > Qwen3.5 32B
长文档处理	Gemma 4 31B / 26B
轻量部署	Qwen3.5 4B / Gemma 4 E2B
NVIDIA 显卡	Nemotron Cascade 2
多模态+音频	Gemma 4 系列

九、进阶使用

REST API

curl http://localhost:11434/api/chat -d '{
  "model": "gemma4:31b",
  "messages": [
    {"role": "user", "content": "用 Python 写一个快速排序"}
  ],
  "stream": false
}'

Python SDK

pip install ollama

from ollama import chat

response = chat(
    model='gemma4:31b',
    messages=[
        {'role': 'user', 'content': '解释一下什么是递归'}
    ]
)
print(response.message.content)

Node.js SDK

npm i ollama

const ollama = require('ollama');
const response = await ollama.chat({
    model: 'gemma4:31b',
    messages: [{role: 'user', content: '你好'}]
});
console.log(response.message.content);

常用命令

# 列出已下载模型
ollama list

# 运行模型
ollama run gemma4:31b

# 查看模型信息
ollama show gemma4:31b

# 复制模型
ollama cp gemma4:31b gemma4:31b-custom

# 删除模型
ollama rm gemma4:31b

十、常见问题

Q: 模型下载太慢怎么办？ A: 使用后台下载：ollama pull gemma4 &，或使用镜像源

Q: 内存不足怎么办？ A: 选择更小的版本（e2b/e4b），或使用 26b MoE 版本

Q: 思考模式如何关闭？ A: 在 system prompt 中移除触发 token，或创建 Modelfile 设置 thinking off

Q: 如何提升图像识别速度？ A: 降低 vision_token_budget，使用更小的图像分辨率

总结

Gemma 4 是目前最强大的本地开源模型之一，特别是：

编码能力：Codeforces ELO 2150
数学推理：AIME 2026 得分 89.2%
长上下文：256K tokens
多模态：原生支持图像理解

对于本地部署，推荐从 gemma4:e2b 开始测试硬件兼容性，逐步升级到 gemma4:31b 获得最佳性能。

← Back to blog

Table of contents