OpenAI ha anunciado oficialmente GPT-5.5, su nuevo modelo insignia que promete combinar niveles de inteligencia sin precedentes con la velocidad y eficiencia que caracterizaron a GPT-5.4. Se trata del modelo mas avanzado hasta la fecha en la familia GPT, y su presentacion llega precedida de filtraciones internas que ya anticipaban su existencia bajo nombres como glacier-alpha y arcanie.
Principales benchmarks
GPT-5.5 establece nuevos records en múltiples evaluaciones independientes:
| Evaluacion | GPT-5.5 | GPT-5.4 | Opus 4.7 |
|---|---|---|---|
| Terminal-Bench 2.0 | 82.7% | 75.1% | 69.4% |
| SWE-Bench Pro | 58.6% | – | 64.3% |
| CyberGym | 81.8% | 79.0% | 73.1% |
| BrowseComp | 84.4% | 82.7% | 79.3% |
| FrontierMath Tier 4 | 35.4% | 27.1% | 22.9% |
En Terminal-Bench, CyberGym y FrontierMath, GPT-5.5 supera claramente a sus competidores directos. Donde no alcanza a Opus 4.7 es en SWE-Bench Pro (58.6% vs 64.3%), una diferencia que la comunidad tecnica ha destacado como area de mejora.
La revolucion silenciosa: eficiencia de tokens
Uno de los datos mas significativos del anuncio es que GPT-5.5 usa hasta 5 veces menos tokens que GPT-5.4 para realizar las mismas tareas. Esto tiene implicaciones directas tanto en coste como en velocidad de respuesta. OpenAI ha conseguido mantener la latencia de GPT-5.4 con un nivel de inteligencia sustancialmente superior, algo que la comunidad ha descrito como el avance mas practico del modelo.
Precios API
GPT-5.5 se posiciona en el segmento premium del mercado:
- Input: $5 por cada millon de tokens
- Output: $30 por cada millon de tokens
Esto lo situe aproximadamente un 20% mas caro en output que Opus 4.7 de Anthropic.
Disponibilidad
El rollout se esta realizando de forma gradual:
- ChatGPT: Usuarios Plus, Pro, Business y Enterprise (expansion gradual)
- Codex: Disponible inmediatamente como modelo default
- API: Confirmado como proximo lanzamiento
Lo que nadie dice: las criticas
La comunidad tecnica en Hacker News (623 puntos, 271 comentarios) ha sealado varias preocupaciones:
- Tasa de alucinaciones: 86%, frente al 36% de Opus 4.7. Un dato preocupante para uso en produccion.
- Mejora marginal en algunos benchmarks: Algunos evaluadores reportan apenas un 1% de mejora sobre GPT-5.4 en determinadas tareas.
- Rollout gradual: Genero frustracion entre desarrolladores que necesitaban acceso inmediato a la API.
Contexto: GPT-5.4 ya superaba a medicos humanos
Antes de GPT-5.5, OpenAI habia publicado HealthBench Professional y GPT-5.4, donde este ultimo ya superaba a medicos humanos en el benchmark de salud. El roadmap sugeria que GPT-5.5 completaria esa supremacia en medicina y otros dominios especializados.
Conclusion
GPT-5.5 representa un salto significativo en inteligencia bruta, especialmente en codigo, matematicas avanzadas y navegacion web. Sin embargo, su alta tasa de alucinaciones y el coste elevado invitan a evaluar cuidadosamente si la eficiencia de tokens compensa frente a alternativas mas baratas. Para tareas criticas, la supervision humana sigue siendo imprescindible.
Fuentes:
OpenAI – Introducing GPT-5.5
GPT-5.5 System Card (PDF)
Hacker News Discussion
