DeepSeek-V4: 1M tokens de contexto y eficiencia 10x para razonamiento escalable

DeepSeek ha lanzado oficialmente DeepSeek-V4, su nueva serie de modelos de lenguaje basados en Mixture-of-Experts (MoE), disponibles en dos variantes: DeepSeek-V4-Pro (1.6T parámetros totales, 49B activados) y DeepSeek-V4-Flash (284B totales, 13B activados). Ambos soportan un contexto de un millón de tokens, marcando un hito en eficiencia computacional.

Arquitectura: CSA + HCA y Hyper-Connections

DeepSeek-V4 introduce varias innovaciones arquitectónicas clave:

Compressed Sparse Attention (CSA): comprime los KV caches a lo largo de la dimensión de secuencia, aplicando luego DeepSeek Sparse Attention (DSA).
Heavily Compressed Attention (HCA): compresión más agresiva de los KV caches manteniendo atención densa.
Manifold-Constrained Hyper-Connections (mHC): refuerza las conexiones residuales convencionales para mejorar la capacidad de modelado.
Muon Optimizer: nuevo optimizador que reemplaza a AdamW, proporcionando convergencia más rápida y mayor estabilidad de entrenamiento.

La combinación de CSA y HCA permite logros espectaculares en eficiencia: con un contexto de 1M tokens, DeepSeek-V4-Pro requiere solo el 27% de los FLOPs y el 10% del KV cache comparado con DeepSeek-V3.2.

Pre-training: 32T tokens y FP4

Ambos modelos se pre-entrenaron con más de 32T tokens diversos y de alta calidad. Se utilizó FP4 quantization-aware training para los pesos de los expertos MoE y el path QK del indexer, reduciendo significativamente memoria y compute.

Post-training: tres modos de razonamiento

DeepSeek-V4 introduce un sistema de tres modos de razonamiento:

Non-Think: respuestas rápidas e intuitivas para tareas rutinarias.
Think High: análisis lógico consciente, más lento pero más preciso.
Think Max: razonamiento al máximo exponent, con instrucciones especiales en el system prompt para forzar descomposición exhaustiva del problema.

Además, se introduce un Generative Reward Model (GRM) que unifica la capacidad de evaluación y generación del modelo, permitiendo optimización robusta sin necesidad de extensas anotaciones humanas.

Benchmarks: el primer modelo abierto que iguala a GPT-5.4 en Codeforces

DeepSeek-V4-Pro-Max establece un nuevo estado del arte entre modelos abiertos. Destacan:

SimpleQA-Verified: 57.9% (20 puntos por encima del mejor modelo abierto anterior).
Codeforces: Rating 3206, comparable a GPT-5.4. Primer modelo abierto en igualar un modelo cerrado en competiciones de código.
LiveCodeBench: 93.5% Pass@1.
IMOAnswerBench: 89.8% Pass@1.

API y disponibilidad

La API está disponible desde hoy en api.deepseek.com. Solo hay que cambiar el nombre del modelo a deepseek-v4-pro o deepseek-v4-flash. Soporta OpenAI ChatCompletions y Anthropic APIs, con compatibilidad para el modo thinking.

⚠️ Nota importante: los modelos antiguos deepseek-chat y deepseek-reasoner serán retireidos el 24 de julio de 2026 a las 15:59 UTC.

Pesos abiertos y código

Los pesos de ambos modelos están disponibles en Hugging Face:

https://huggingface.co/collections/deepseek-ai/deepseek-v4

El technical report completo está publicado en: DeepSeek_V4.pdf

Conclusión

DeepSeek-V4 representa un salto cualitativo en eficiencia de contexto largo (1M tokens con 10x menos KV cache) manteniendo rendimiento de frontier. La combinación de arquitectura MoE optimizada, nuevo optimizer Muon y el sistema de razonamiento escalable posiciona a DeepSeek como el referente open-source para agentes de investigación y tareas de contexto ultra-largo.