Dreaming (research preview) es un proceso programado que revisa sesiones pasadas y stores de memoria para extraer patrones — errores recurrentes, workflows de convergencia, preferencias de equipo. Reestructura la memoria para mantener señal alta. Un agente individual no puede ver estos patrones; solo el análisis retrospectivo los surfacea.
Outcomes (public beta) permite definir un rubric de éxito. Un grader separado evalúa el output contra esos criterios en su propia context window, sin influencia del reasoning del agente. Si falla, el grader señala qué cambiar y el agente hace otra pasada. Resultados: hasta +10 puntos de task success vs prompting loop estándar, +8.4% en docx y +10.1% en pptx en benchmarks internos.
Multiagent Orchestration (public beta) permite a un lead agent dividir trabajo y delegar a specialists con su propio modelo, prompt y tools. Especialistas corren en paralelo sobre filesystem compartido. Eventos persistentes permiten al lead agent consultar a otros en medio del workflow. Trazabilidad completa en Claude Console.
Qué problema resuelve
El problema fundamental de los agentes de IA es que olvidan. Cada sesión empieza de cero. Outcomes resuelve que sin criterio claro de éxito, el agente genera output y se detiene. Multiagent Orchestration aborda la límite de un solo agente cuando el trabajo es demasiado para una sola context window.
Casos de uso reales
- Harvey (legal): ~6x completion rates con Dreaming
- Netflix: análisis de logs en paralelo con multiagent
- Spiral by Every: Haiku como lead, Opus en subagents para drafts paralelos
- Wisedocs: reviews 50% más rápidos con outcomes
Limitaciones
Dreaming requiere request de acceso (research preview). Outcomes solo funciona si el usuario invierte tiempo en definir rubrics útiles — un rubric mal escrito produce evaluaciones incorrectas. Los benchmarks son internos de Anthropic, no hay validación externa.
Opinión crítica
Memory + Dreaming es el movimiento más interesante: agentes que aprenden de su propio historial operativo. Outcomes es conceptualmente elegante pero su efectividad depende de la calidad del rubric. La verdadera prueba será Dreaming en producción — si los resultados de Harvey se replican en otros dominios, es un cambio significativo.
Fuente: Anthropic (6 mayo 2026)
