Aceleración 3× en Gemma 4: el truco de Google no es el modelo, es la predicción multi-token

Google ha liberado los MTP drafters para Gemma 4, una implementación que multiplica por 3 la velocidad de generación de texto sin perder calidad. No cambia el modelo base, solo cómo se genera: en vez de predecir un token cada vez, predice varios en paralelo. Y es open-source (Apache 2.0) desde el primer día.

¿Qué son los MTP Drafters?

Los MTP (Multi-Token Prediction) drafters son módulos adicionales que se conectan a Gemma 4 (disponible en variantes Dense de 2B/9B/27B y MoE de 2B/9B/27B). Su función es doble: durante el entrenamiento, el modelo aprende a predecir múltiples tokens futuros simultáneamente (no solo el siguiente). Durante la inferencia, un «drafter» entrenado con esta técnica genera varias predicciones de una sola pasada, y el modelo principal las verifica. Es speculative decoding pero entrenado de forma end-to-end.

Entrenar con MTP tiene otro efecto colateral relevante: el propio modelo base mejora su representación interna. Google reporta que Gemma 4 entrenado con MTP gana hasta +2 puntos en benchmarks de razonamiento y code frente a una versión entrenada solo con next-token prediction.

¿Qué problema resuelve?

La inferencia de LLMs es lenta porque solo predice un token a la vez (autoregresivo). Con modelos grandes, cada token requiere una pasada completa por la red. MTP permite generar 3 tokens por pasada en promedio, manteniendo la misma calidad que la generación secuencial. El speedup es especialmente notable en aplicaciones en tiempo real (chat, asistentes, código) donde la latencia importa.

¿Cómo funciona?

El truco está en la arquitectura de atención. El drafter MTP comparte el backbone del modelo principal pero añade cabezas de predicción auxiliares. Durante el entrenamiento, se optimizan simultáneamente la pérdida de next-token y las pérdidas de los siguientes N tokens. Durante la inferencia, el drafter genera un bloque de tokens candidatos que el modelo principal verifica en paralelo aprovechando el KV cache compartido.

Si el drafter acierta, se aceptan múltiples tokens en una sola iteración. Si falla, se retrocede al último token correcto. El speedup reportado es de 2.5× a 3× en GPUs estándar (A100/H100).

¿Para quién es (y no es)?

Para: equipos de ML que despliegan Gemma 4 en producción y necesitan reducir latencia sin cambiar el modelo. Devs que construyen chatbots, asistentes de código o herramientas de generación de texto con Gemma 4. Investigadores interesados en técnicas de inferencia eficiente.

No es para: quien busque un modelo nuevo (MTP es un añadido a Gemma 4, no un modelo independiente). Quien necesite speedup garantizado en prompts muy cortos (< 50 tokens), donde el overhead de verificación puede no compensar. Tampoco es plug-and-play mágico: requiere integrar el drafter en el pipeline de inferencia.

Limitaciones y riesgos

El speedup 3× es promedio, no garantizado. Depende del tipo de contenido y del tamaño del batch.
Para texto muy creativo o impredecible, la tasa de aceptación del drafter baja y el speedup se reduce.
Solo funciona con Gemma 4 (no con Gemma 3 ni otros modelos).
La implementación actual es para GPUs NVIDIA; no hay versiones optimizadas para NPUs, TPUs o hardware Apple.
Al ser speculative decoding, hay un overhead de memoria extra por el KV cache compartido.
La documentación oficial no especifica el coste computacional adicional del entrenamiento con MTP.

Casos de uso reales

Chat en tiempo real con Gemma 4-27B: reducción de latencia de 200ms a ~70ms por token generado.
Asistente de código: la generación de autocompletado multi-línea se acelera porque el drafter predice mejor secuencias predecibles (cierres de bloque, llamadas a API).
Gemma 4-2B en dispositivos edge: el speedup permite que modelos más pequeños compitan en velocidad con soluciones cloud.

Opinión crítica

Google ha hecho dos cosas bien aquí: liberar el código fuente (Apache 2.0) y documentar el método con transparencia. No es humo — speculative decoding con MTP es una técnica conocida (Meta la exploró en 2024), pero Google la ha llevado a producción y la ha abierto.

Lo que falta: benchmarks independientes del speedup real en diferentes cargas de trabajo, coste de entrenamiento, y una comparación honesta con otras técnicas de aceleración (vLLM, TensorRT-LLM, quantización). El 3× es impresionante, pero en el mundo real rara vez se alcanza el pico teórico.

También es curioso que Google lance esto justo cuando la competencia (SubQ con arquitectura subcuadrática, Mistral con quantización nativa) está atacando el mismo problema desde ángulos distintos. MTP no cambia la complejidad cuadrática de la atención — es un parche ingenioso, no un cambio arquitectónico.