Google 给 Gemma 4 加了投机解码,推理速度直接翻 3 倍

AI 摘要

Google为Gemma 4发布Multi-Token Prediction drafters,通过投机解码技术让推理速度提升3倍且质量零损失。开源Apache 2.0协议,支持主流推理框架,对独立开发者用消费级硬件跑大模型是实质性利好。

2026-05-07·出海情报站·阅读需5分钟

Google 刚给 Gemma 4 全系列模型发布了 Multi-Token Prediction(MTP)drafters。用投机解码架构,推理速度最高提升 3 倍,输出质量零损失。

为什么推理慢

标准 LLM 推理是内存带宽瓶颈。处理器把大部分时间花在把数十亿参数从 VRAM 搬到计算单元上,只为生成一个 token。算力被严重浪费,延迟居高不下,尤其在消费级硬件上。

投影解码怎么解决

核心思路是「拆分生成和验证」。用一个轻量级的 drafter 模型预测多个未来 token,然后用主模型一次性并行验证。如果主模型同意 drafter 的预测,就一次性接受整个序列——还能额外多生成一个 token。

换句话说,原来生成一个 token 的时间,现在能输出一整串 token。

实际效果

在不同硬件和推理框架上的测试结果:

Gemma 4 26B(MoE)在 NVIDIA RTX PRO 6000 上,标准推理和 MTP 对比,tokens/s 翻倍,等待时间减半。

在 Apple Silicon 上,batch size 1 时因为 MoE 路由有特殊挑战,但 batch size 4-8 时能获得约 2.2 倍加速。NVIDIA A100 上也有类似增益。

关键点:输出质量完全一致,因为最终验证还是主模型在做。

架构细节

MTP drafter 有几个巧妙的设计:直接复用主模型的 activations 和 KV cache,不用重新计算上下文。对 E2B/E4B 边缘模型,在 embedder 层做了高效聚类优化,进一步加速生成。

对独立开发者的影响

这意味着你可以用消费级硬件跑更大的模型做本地开发。26B MoE 和 31B Dense 模型在个人电脑上能达到前所未有的速度,支持离线编码和 Agent 工作流。E2B/E4B 小模型在手机等边缘设备上也更快了,还能省电。

MTP drafters 已经开源(Apache 2.0),可以在 Hugging Face、Kaggle 下载,支持 vLLM、SGLang、Ollama、MLX 等主流框架。

来源:HackerNews