Google 给 Gemma 4 加了投机解码，推理速度直接翻 3 倍

Google 刚给 Gemma 4 全系列模型发布了 Multi-Token Prediction（MTP）drafters。用投机解码架构，推理速度最高提升 3 倍，输出质量零损失。

为什么推理慢

标准 LLM 推理是内存带宽瓶颈。处理器把大部分时间花在把数十亿参数从 VRAM 搬到计算单元上，只为生成一个 token。算力被严重浪费，延迟居高不下，尤其在消费级硬件上。

核心思路是「拆分生成和验证」。用一个轻量级的 drafter 模型预测多个未来 token，然后用主模型一次性并行验证。如果主模型同意 drafter 的预测，就一次性接受整个序列——还能额外多生成一个 token。

换句话说，原来生成一个 token 的时间，现在能输出一整串 token。

在不同硬件和推理框架上的测试结果：

Gemma 4 26B（MoE）在 NVIDIA RTX PRO 6000 上，标准推理和 MTP 对比，tokens/s 翻倍，等待时间减半。

在 Apple Silicon 上，batch size 1 时因为 MoE 路由有特殊挑战，但 batch size 4-8 时能获得约 2.2 倍加速。NVIDIA A100 上也有类似增益。

关键点：输出质量完全一致，因为最终验证还是主模型在做。

MTP drafter 有几个巧妙的设计：直接复用主模型的 activations 和 KV cache，不用重新计算上下文。对 E2B/E4B 边缘模型，在 embedder 层做了高效聚类优化，进一步加速生成。

这意味着你可以用消费级硬件跑更大的模型做本地开发。26B MoE 和 31B Dense 模型在个人电脑上能达到前所未有的速度，支持离线编码和 Agent 工作流。E2B/E4B 小模型在手机等边缘设备上也更快了，还能省电。

MTP drafters 已经开源（Apache 2.0），可以在 Hugging Face、Kaggle 下载，支持 vLLM、SGLang、Ollama、MLX 等主流框架。

来源：HackerNews