Ollama + Gemma 4 完全指南
本指南基于官方文档整理,涵盖从介绍到最佳实践的完整内容
一、Gemma 4 是什么
Gemma 是由 Google DeepMind 打造的开放模型系列,Gemma 4 是最新一代产品,定位为多模态开源模型。
核心特性
| 特性 | 说明 |
|---|---|
| 多模态 | 支持文本、图像输入,文本输出 |
| 长上下文 | 小模型 128K tokens,中大型号 256K tokens |
| 推理能力 | 内置思考模式(Thinking Mode),可配置 |
| 本地优化 | 专为笔记本电脑和移动设备设计 |
| 编码能力 | 在代码基准测试中表现优异,支持原生函数调用 |
| 系统提示 | 原生支持 system role,对话更可控 |
模型系列
Ollama 提供 5 个版本:
Edge 设备(轻量)├── gemma4:e2b - 2B 有效参数(约 5.1B 含嵌入)└── gemma4:e4b - 4B 有效参数(约 8B 含嵌入)
工作站(高性能)├── gemma4:26b - MoE 架构,4B 活跃参数,256K 上下文└── gemma4:31b - Dense 架构,30.7B 参数,256K 上下文└── gemma4:31b-cloud - 云端版本参数对比
| 属性 | E2B | E4B | 26B MoE | 31B Dense |
|---|---|---|---|---|
| 总参数 | 2.3B | 4.5B | 25.2B | 30.7B |
| 活跃参数 | 2.3B | 4.5B | 3.8B | 30.7B |
| 层数 | 35 | 42 | 30 | 60 |
| 上下文 | 128K | 128K | 256K | 256K |
| 滑动窗口 | 512 | 512 | 1024 | 1024 |
| 模态 | 文本/图像/音频 | 文本/图像/音频 | 文本/图像 | 文本/图像 |
二、性能基准测试
Gemma 4 在各项基准测试中表现出色:
| 基准测试 | 31B | 26B A4B | E4B | E2B |
|---|---|---|---|---|
| MMLU Pro | 85.2% | 82.6% | 69.4% | 60.0% |
| AIME 2026 | 89.2% | 88.3% | 42.5% | 37.5% |
| LiveCodeBench | 80.0% | 77.1% | 52.0% | 44.0% |
| Codeforces ELO | 2150 | 1718 | 940 | 633 |
| GPQA Diamond | 84.3% | 82.3% | 58.6% | 43.4% |
| BigBench Extra Hard | 74.4% | 64.8% | 33.1% | 21.9% |
| MMMU Pro(视觉) | 76.9% | 73.8% | 52.6% | 44.2% |
关键发现:
- 31B 模型在编码任务上大幅领先(Codeforces ELO 2150 vs 940)
- AIME 2026 数学推理:31B 达到 89.2%,远超其他型号
- 26B MoE 以更少活跃参数(3.8B)实现了接近 31B 的性能
三、安装 Ollama
macOS / Linux
# 一键安装curl -fsSL https://ollama.com/install.sh | shWindows
下载安装包:https://ollama.com/download/OllamaSetup.exe
或使用 PowerShell:
irm https://ollama.com/install.ps1 | iexDocker
docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama验证安装
ollama --version四、下载 Gemma 4 模型
下载命令
# 下载所有版本ollama pull gemma4 # 默认 31Bollama pull gemma4:31b # Dense 版本ollama pull gemma4:26b # MoE 版本ollama pull gemma4:e2b # Edge 2Bollama pull gemma4:e4b # Edge 4Bollama pull gemma4:31b-cloud # 云端版本磁盘空间需求
| 模型 | 大小 |
|---|---|
| E2B | ~5GB |
| E4B | ~8GB |
| 26B | ~16GB |
| 31B | ~19GB |
推荐:至少 20GB 可用磁盘空间
五、配置要求
硬件建议
| 模型 | 最低 RAM | 推荐 RAM | GPU |
|---|---|---|---|
| E2B | 8GB | 16GB | 4GB VRAM |
| E4B | 12GB | 24GB | 8GB VRAM |
| 26B | 24GB | 32GB | 16GB VRAM |
| 31B | 32GB | 64GB | 24GB VRAM |
操作系统
- macOS: Apple Silicon(M系列芯片)原生支持
- Linux: Ubuntu 20.04+, 主流发行版
- Windows: Windows 10/11
GPU 驱动
确保安装了最新的 GPU 驱动(NVIDIA driver 535+)
六、性能最大化配置
1. 采样参数(推荐配置)
response = ollama.chat( model='gemma4:31b', messages=[{'role': 'user', 'content': '你的问题'}], options={ 'temperature': 1.0, 'top_p': 0.95, 'top_k': 64 })2. 思考模式配置
Gemma 4 支持两种模式:
启用思考模式(默认):
在 system prompt 中包含触发token,模型会输出:thought[内部推理过程][最终答案]禁用思考模式:
移除触发token,模型直接输出答案thought[直接回答]3. 多轮对话
⚠️ 重要:历史消息中只保留最终答案,不要包含思考过程
# 错误示例 ❌messages = [ {'role': 'user', 'content': '问题1'}, {'role': 'assistant', 'content': 'thought\n[推理过程]\n答案1'}, # ❌ 包含思考 {'role': 'user', 'content': '问题2'}]
# 正确示例 ✅messages = [ {'role': 'user', 'content': '问题1'}, {'role': 'assistant', 'content': '答案1'}, # ✅ 只保留答案 {'role': 'user', 'content': '问题2'}]4. 图像输入优化
最佳顺序:图像 → 文本
response = ollama.chat( model='gemma4:31b', messages=[ { 'role': 'user', 'content': [ {'type': 'image', 'image': 'image.jpg'}, {'type': 'text', 'text': '描述这张图片'} ] } ])5. 图像分辨率配置
Gemma 4 支持可变分辨率,通过 token 预算控制:
| Token 预算 | 适用场景 |
|---|---|
| 70 | 快速分类、粗略理解 |
| 140 | 常规图像理解 |
| 280 | 文档理解 |
| 560 | 精细图像分析 |
| 1120 | OCR、小文本读取 |
# 配置视觉 token 预算(需要在 modelfile 中设置)/set parameter vision_token_budget 560七、本地应用场景
1. 开发Coding助手
- 代码审查与优化建议
- 自动补全与重构
- Bug 分析与修复
- 技术文档生成
推荐模型:gemma4:31b(Codeforces ELO 2150,编码能力最强)
2. 本地知识库问答
- 企业内部文档问答
- 个人笔记助手
- PDF/论文解析
推荐模型:gemma4:26b(性价比高,256K 上下文)
3. 图像理解与分析
- 文档扫描与 OCR
- 图表分析
- 产品照片理解
推荐模型:gemma4:e4b 或 26b(带图像编码器)
4. 移动端/边缘部署
- 离线 AI 助手
- 本地语音转文本理解
推荐模型:gemma4:e2b / e4b(轻量级,Apple Silicon 优化)
5. 数学推理与解题
- 作业辅导
- 数学问题求解
- 逻辑推理
推荐模型:gemma4:31b(AIME 2026 得分 89.2%)
八、与其他本地模型对比(2026年4月最新)
基于 Ollama 官方模型库当前热门模型进行对比:
1. Gemma 4 31B vs Qwen3.5 32B(30B 级别Dense对比)
| 方面 | Gemma 4 31B | Qwen3.5 32B |
|---|---|---|
| 参数量 | 30.7B | 32B |
| 上下文 | 256K | 128K(可扩展) |
| 多模态 | 原生支持图像+音频 | 原生支持图像 |
| 思考模式 | ✅ 原生 | ✅ 原生 |
| 函数调用 | ✅ 原生 | ✅ 原生 |
| 编码能力 | Codeforces ELO 2150 | 优秀 |
| 特色 | 滑动窗口 1024 tokens | 社区生态完善 |
结论:Gemma 4 在长上下文和编码能力上占优,Qwen3.5 生态更成熟
2. Gemma 4 26B MoE vs Nemotron Cascade 2(MoE架构对比)
| 方面 | Gemma 4 26B MoE | Nemotron Cascade 2 |
|---|---|---|
| 架构 | 8专家/128总计,4B活跃 | MoE,3B活跃 |
| 上下文 | 256K | 128K |
| 多模态 | 图像+文本 | 文本为主 |
| 思考模式 | ✅ | ✅ |
| 特色 | Google DeepMind 技术 | NVIDIA 官方优化 |
结论:Gemma 4 MoE 上下文更长,Nemotron 在 NVIDIA 硬件上优化更好
3. Gemma 4 E4B vs Qwen3.5 4B(轻量级对比)
| 方面 | Gemma 4 E4B | Qwen3.5 4B |
|---|---|---|
| 有效参数 | 4.5B(含嵌入8B) | 4B |
| 上下文 | 128K | 128K |
| 多模态 | 图像+音频 | 图像 |
| 最低 RAM | 12GB | 8GB |
| 适用场景 | 移动设备/边缘 | 轻量级部署 |
结论:Qwen3.5 4B 更轻量,E4B 功能更完整(多模态+音频)
4. Gemma 4 vs GLM-4.7-Flash(30B级别对比)
| 方面 | Gemma 4 31B | GLM-4.7-Flash |
|---|---|---|
| 参数量 | 30.7B | ~30B |
| 上下文 | 256K | 128K |
| 多模态 | 原生 | 原生 |
| 思考模式 | ✅ | ✅ |
| 特色 | Google 技术 | 智谱 AI |
5. 总体建议
| 需求 | 推荐模型 |
|---|---|
| 编码为主 | Gemma 4 31B > Qwen3.5 32B |
| 长文档处理 | Gemma 4 31B / 26B |
| 轻量部署 | Qwen3.5 4B / Gemma 4 E2B |
| NVIDIA 显卡 | Nemotron Cascade 2 |
| 多模态+音频 | Gemma 4 系列 |
九、进阶使用
REST API
curl http://localhost:11434/api/chat -d '{ "model": "gemma4:31b", "messages": [ {"role": "user", "content": "用 Python 写一个快速排序"} ], "stream": false}'Python SDK
pip install ollama
from ollama import chat
response = chat( model='gemma4:31b', messages=[ {'role': 'user', 'content': '解释一下什么是递归'} ])print(response.message.content)Node.js SDK
npm i ollama
const ollama = require('ollama');const response = await ollama.chat({ model: 'gemma4:31b', messages: [{role: 'user', content: '你好'}]});console.log(response.message.content);常用命令
# 列出已下载模型ollama list
# 运行模型ollama run gemma4:31b
# 查看模型信息ollama show gemma4:31b
# 复制模型ollama cp gemma4:31b gemma4:31b-custom
# 删除模型ollama rm gemma4:31b十、常见问题
Q: 模型下载太慢怎么办?
A: 使用后台下载:ollama pull gemma4 &,或使用镜像源
Q: 内存不足怎么办? A: 选择更小的版本(e2b/e4b),或使用 26b MoE 版本
Q: 思考模式如何关闭?
A: 在 system prompt 中移除触发 token,或创建 Modelfile 设置 thinking off
Q: 如何提升图像识别速度? A: 降低 vision_token_budget,使用更小的图像分辨率
总结
Gemma 4 是目前最强大的本地开源模型之一,特别是:
- 编码能力:Codeforces ELO 2150
- 数学推理:AIME 2026 得分 89.2%
- 长上下文:256K tokens
- 多模态:原生支持图像理解
对于本地部署,推荐从 gemma4:e2b 开始测试硬件兼容性,逐步升级到 gemma4:31b 获得最佳性能。
← Back to blog