Coding Assistants: GPT-5.5 vs Opus 4.7, DeepSeek V4 y por qué los benchmarks no son fiables

Desde que SemiAnalysis publicó su análisis sobre el Claude Code inflection point el 5 de febrero, hemos visto una cascada de lanzamientos de modelos: Opus, Mythos, Codex, Gemini, DeepSeek, Kimi, Qwen, GLM, MiniMax, Composer, Muse Spark y más. Hoy desgranamos todos estos lanzamientos, explicamos cuándo puedes confiar en los benchmarks y damos nuestras predicciones para el futuro del mercado de coding agents.

El punto de partida: GPT-5.5 de OpenAI es ahora materially better en algunas tareas que todos los demás modelos. SemiAnalysis considera que GPT-5.5 ha llegado a la frontera. Un cambio enorme respecto a noviembre, cuando Opus 4.5 dominaba y el modelo de codificación de OpenAI no era de clase mundial. GPT-5.5 ya está integrado en el flujo de trabajo diario de SemiAnalysis.

Meet the Models

En los últimos 3 meses, al menos un laboratorio importante ha lanzado un nuevo checkpoint enfocado en codificación cada semana. GLM-5.1, Qwen3.6-Plus, Kimi K2.6, Composer 2 y Gemini 3.1 Pro todos enfatizan agentic coding o long-horizon tasks. Febrero fue especialmente ajetreado.

GPT-5.5

GPT-5.5 es la primera release pública basada en el pre-entrenamiento «Spud» — la primera escala nueva de OpenAI desde el fallido GPT-4.5. A pesar de las afirmaciones de NVIDIA y OpenAI sobre el entrenamiento en un cluster de 100k GB200 NVL72, el training real es solo post-training (RL).

Precios API: $5 por millón de tokens de entrada y $30 por millón de salida. Esto es 2x más caro que GPT-5.4 y ligeramente más caro que Opus 4.7. También ofrece un tier priority a 2.5x del precio estándar, con SLAs concretos (>50 tok/s el 99% del tiempo) vs. el fast mode vago (2.5x más rápido por 6x el precio).

También está GPT-5.3-Codex-Spark, un modelo distilled corriendo en Cerebras — fundamentalmente diferente de simplemente dar prioridad a tokens sin cambiar el modelo subyacente.

GPT-5.5 Pro, disponible en ChatGPT y API, está enfocado en investigación científica y tareas de razonamiento de largo alcance. Consiguió SOTA en BrowseComp y FrontierMath, al mismo precio ($30/180) que GPT-5.4 Pro.

Ambos modelos (standard y Pro) ofrecen niveles de razonamiento: xhigh, high, medium, low y non-reasoning. Como SemiAnalysis subraya: cost per task, not cost per token, is the true north star metric. Mythos puede ser 5x más caro por token que Opus, pero gran parte de ese precio se compensa porque Mythos necesita menos tokens por tarea.

Opus 4.7

Una semana antes del lanzamiento de GPT-5.5, Anthropic publicó Opus 4.7, un drop-in replacement para Opus 4.6. La mejora es incremental — mejores scores en muchos benchmarks y «buenas vibraciones», pero no un cambio radical.

Lo más notable del cambio 4.6 → 4.7:

  • Soporte de imagen de alta resolución y uso de screenshots para estilos frontend en vez de tests programáticos
  • Opción xhigh de reasoning effort entre «high» y «max»
  • Thinking content omitido por defecto (pero se sigue cobrando por ellos)
  • Task budgets (beta, solo API): sugerencias de eficiencia en lugar de max_tokens (restricción hard)
  • Nuevo tokenizer: hasta +35% en uso de tokens — ¡un aumento implícito de precio del 35%!

SemiAnalysis nota que 4.7 usa menos tool calls por defecto, confiando más en razonamiento interno. El equipo sugiere subir el reasoning effort si se necesita más contexto para tareas complejas. También publicaron un postmortem detallando tres bugs presentes durante semanas que afectaron a usuarios de Claude Code.

DeepSeek V4

El esperado DeepSeek V4 incluye dos modelos: V4-Pro (1.6T total / 49B activo) y V4-Flash (284B total / 13B activo). La mejora principal sobre V3 es el salto de context window de 128k a 1M tokens, con avances técnicos clave:

  • CSA (Compressed Sparse Attention)
  • HCA (Heavily Compressed Attention)
  • mHC (Manifold-Constrained Hyper-Connections)

Resultado: DeepSeek-V4-Pro requiere solo 27% de los FLOPs de inferencia de single-token y 10% del KV cache comparado con DeepSeek-V3.2 en contexto de 1M tokens. Una reducción del 90% en KV cache.

Importante: DeepSeek V4 es open source. El equipo de InferenceX, junto con ingenieros de vLLM/Inferact y NVIDIA, publicó soporte day-zero en cluster H200. El throughput en H200 a FP8 es ~150 tok/sec por GPU a 20 tok/sec de interactividad en 8k in / 1k out.

SemiAnalysis concluye: DeepSeek is an exceptional engineering release, and is right behind the SOTA frontier. It will be the lowest cost alternative to closed source models, but its capabilities are not at the leading edge.

VIBEZ: Impresiones de GPT-5.5 vs Opus 4.7

SemiAnalysis es conocido por su preferencia por Claude, pero con GPT-5.5 la dinámica ha cambiado. La mayoría de sus ingenieros ahora alternan entre Codex y Claude según la tarea.

Lo que los ingenieros valoran de Codex:

  • «Pulls in a lot of context before making changes to code — not just structural changes, but changes that actually require non-trivial thinking.»
  • Mejor para revisar PRs, bug hunting, y razonar sobre código existente
  • Menor tasa de alucinaciones en datos numéricos complejos

Lo que Criticaron de Codex:

  • Peor para inferir la verdadera intención del usuario en instrucciones vagas
  • Demasiado conservador para hacer cambios de código reales
  • No puede inferir intent implícito (ej: copiar el estilo de un dashboard existente)

Workflow actual de SemiAnalysis:

  1. Claude → plan inicial y scaffolding para nuevas features
  2. Codex → resolver el problema o fix bugs

Antes del GPT-5.5, casi todo el equipo usaba Claude Code para ambos pasos.

La advertencia final: las features en plugins/CLIs están frenando a Codex. Fast mode con 1M context, remote control/sandbox plugins para continuar sesiones entre dispositivos, y upload de imágenes durante conversación — todo esto existe en Claude Code CLI/VSCode Plugin/web/mobile, pero ninguna de estas features está disponible en Codex aún.

Los Benchmarks son Malos, Pero Seguimos Teniendo que Usarlos

Cada anuncio de modelo incluye tablas de benchmarks. Es tentador señalar un par de números para demostrar «objetivamente» la superioridad, pero la comunidad de IA lleva tiempo diciendo que los benchmarks ya no son un proxy útil de utilidad real. ¿Qué hay detrás de cada benchmark?

Anatomía de un Benchmark

Cada benchmark tiene 3 componentes:

  1. Tasks: qué se pide al modelo
  2. Evaluation method: cómo se puntúa
  3. Harness: qué herramientas tiene el modelo para resolver la tarea

MMLU y benchmarks de respuesta múltiple/simple

Lanzado en 2020, MMLU tiene 15.908 preguntas de respuesta múltiple cubriendo 57 materias. MMLU fue efectivamente saturado por GPT-4 en marzo 2023 (86.4%). Hoy el benchmark de respuesta simple más relevante es Humanity’s Last Exam (HLE), con 2.500 preguntas de expertos de todo el mundo.

El problema: los laboratorios siguen hillclimbing estos benchmarks durante el RL. Google tuvo un presupuesto de 9 cifras en 2025 específicamente para preguntas estilo HLE.

SWE-bench y benchmarks de codificación

SWE-bench (2023) fue el primer gran benchmark de coding. Las tareas se extrajeron automáticamente de 12 repos Python. El problema: muchas tareas estaban rotas (requisitos ambiguos, tests no comprensivos).

SWE-bench Verified (agosto 2024) intentó resolver esto con 93 devs Python revisando manualmente las tareas, reduciéndolas de 2.294 a 500 «verified». Pero OpenAI anunció en febrero 2026 que dejaba de reportar resultados en SWE-bench Verified por dos razones:

  1. Más de la mitad de los problemas fallidos consistentemente por o3 tenían evals injustas
  2. GPT-5.2, Opus 4.5 y Gemini 3 Flash mostraban evidencia de memorización

En su lugar, ahora se recomienda SWE-bench Pro, que usa repos con licencias menos permisivas y contratistas para escribir evals desde cero — sin resolver completamente el problema.

Por qué OpenAI no reporta ciertos benchmarks

En el anuncio de GPT-5.5, OpenAI usa el benchmark «Expert-SWE» en vez del esperado SWE-bench Pro. La razón: GPT-5.5 fue mogged por Opus 4.7 en ese benchmark — y Mythos consiguió un 77.8%. Esto confirma la impresión cualitativa: GPT-5.5 es mejor que Opus 4.7 en algunas tareas de coding pero no decisivamente mejor en todas.

Conclusión

La guerra de los coding agents está más cerca de resolverse de lo que parecía hace 6 meses. GPT-5.5 ha llevado a OpenAI de vuelta a la frontera, pero Anthropic continúa liderando en features de producto (CLI, VSCode Plugin, mobile). DeepSeek V4 democratiza el acceso open-source a modelos competitivos, aunque no al nivel frontier. Y los benchmarks — por imperfectos que sean — siguen siendo el único terreno común para comparaciones, aunque cada vez menos fiable.

Fuente: SemiAnalysis — «The Coding Assistant Breakdown: More Tokens Please» por Max Kan, Jordan Nanos y Samuel Kruse (25 abril 2026). 

Scroll al inicio