GPT-5.5: OpenAI redefine la frontera de la inteligencia artificial

OpenAI ha anunciado oficialmente GPT-5.5, su nuevo modelo insignia que promete combinar niveles de inteligencia sin precedentes con la velocidad y eficiencia que caracterizaron a GPT-5.4. Se trata del modelo mas avanzado hasta la fecha en la familia GPT, y su presentacion llega precedida de filtraciones internas que ya anticipaban su existencia bajo nombres como glacier-alpha y arcanie.

Principales benchmarks

GPT-5.5 establece nuevos records en múltiples evaluaciones independientes:

Evaluacion	GPT-5.5	GPT-5.4	Opus 4.7
Terminal-Bench 2.0	82.7%	75.1%	69.4%
SWE-Bench Pro	58.6%	–	64.3%
CyberGym	81.8%	79.0%	73.1%
BrowseComp	84.4%	82.7%	79.3%
FrontierMath Tier 4	35.4%	27.1%	22.9%

En Terminal-Bench, CyberGym y FrontierMath, GPT-5.5 supera claramente a sus competidores directos. Donde no alcanza a Opus 4.7 es en SWE-Bench Pro (58.6% vs 64.3%), una diferencia que la comunidad tecnica ha destacado como area de mejora.

La revolucion silenciosa: eficiencia de tokens

Uno de los datos mas significativos del anuncio es que GPT-5.5 usa hasta 5 veces menos tokens que GPT-5.4 para realizar las mismas tareas. Esto tiene implicaciones directas tanto en coste como en velocidad de respuesta. OpenAI ha conseguido mantener la latencia de GPT-5.4 con un nivel de inteligencia sustancialmente superior, algo que la comunidad ha descrito como el avance mas practico del modelo.

Precios API

GPT-5.5 se posiciona en el segmento premium del mercado:

Input: $5 por cada millon de tokens
Output: $30 por cada millon de tokens

Esto lo situe aproximadamente un 20% mas caro en output que Opus 4.7 de Anthropic.

Disponibilidad

El rollout se esta realizando de forma gradual:

ChatGPT: Usuarios Plus, Pro, Business y Enterprise (expansion gradual)
Codex: Disponible inmediatamente como modelo default
API: Confirmado como proximo lanzamiento

Lo que nadie dice: las criticas

La comunidad tecnica en Hacker News (623 puntos, 271 comentarios) ha sealado varias preocupaciones:

Tasa de alucinaciones: 86%, frente al 36% de Opus 4.7. Un dato preocupante para uso en produccion.
Mejora marginal en algunos benchmarks: Algunos evaluadores reportan apenas un 1% de mejora sobre GPT-5.4 en determinadas tareas.
Rollout gradual: Genero frustracion entre desarrolladores que necesitaban acceso inmediato a la API.

Contexto: GPT-5.4 ya superaba a medicos humanos

Antes de GPT-5.5, OpenAI habia publicado HealthBench Professional y GPT-5.4, donde este ultimo ya superaba a medicos humanos en el benchmark de salud. El roadmap sugeria que GPT-5.5 completaria esa supremacia en medicina y otros dominios especializados.

Conclusion

GPT-5.5 representa un salto significativo en inteligencia bruta, especialmente en codigo, matematicas avanzadas y navegacion web. Sin embargo, su alta tasa de alucinaciones y el coste elevado invitan a evaluar cuidadosamente si la eficiencia de tokens compensa frente a alternativas mas baratas. Para tareas criticas, la supervision humana sigue siendo imprescindible.

Fuentes:
OpenAI – Introducing GPT-5.5
GPT-5.5 System Card (PDF)
Hacker News Discussion