IA diseña genomas de bacteriófagos viables desde cero — el primer diseño generativo de genomas completos

La inteligencia artificial lleva años Diseñando proteínas individuales con notable éxito. Pero diseñar un genoma completo — miles de nucleótidos organizados en genes funcionales, elementos regulatorios y machinery de replicación — eso era otro nivel. Hasta ahora.

Un equipo liderado por Brian L. Hie (MIT) acaba de publicar en bioRxiv el primer caso documentado de diseño generativo de genomas de bacteriófagos viables mediante Language Models genómicos. El paper se titula «Generative design of novel bacteriophages with genome language models» y representa un punto de inflexión en lo que llamamos diseño de sistemas biológicos a escala genómica.

El problema: por qué diseñar genomas es tan difícil

Un genoma no es una colección de genes independientes. Es un sistema integrado donde cada nucleótido puede afectar a todo el conjunto. Una sola mutación puede hacer que un genoma entero deje de ser viable. Las interacciones entre genes, secuencias reguladoras, señales de reconocimiento y machinery de replicación están finamente orquestadas — y la mayoría de esos patrones no se entienden lo suficiente como para diseñarlos manualmente.

Mientras tanto, los Language Models de proteínas han demostrado capacidad para diseñar secuencias funcionales que no existen en la naturaleza. Pero proteínas individuales no son genomas. Un genoma de bacteriófago como ΦX174 tiene 5.384 nucleótidos y 11 genes. El desafío era saber si un modelo entrenado sobre genomas podía componer secuencias de ese tamaño que fueran funcionalmente viables.

La aproximación: Evo 1 y Evo 2 al ataque

El equipo usó dos Genome Language Models del estado del arte:

  • Evo 1 (Instadeep/NVIDIA) — 7 mil millones de parámetros, contexto de 1 millón de tokens
  • Evo 2 (Arc Institute) — hasta 40 mil millones de parámetros, entrenado sobre genomas completos

Ambos modelos fueron entrenados sobre secuencias de ADN a escala genómica, aprendiendo los «patrones del lenguaje» estadístico de genomas naturales — algo que trasciende la simple predicción de proteínas individuales.

El template elegido fue el bacteriófago lítico ΦX174, un sistema bien caracterizado que sirve como modelo experimental estándar en biología sintética. Los investigadores usaron zero-shot prompting — essentially, le dieron al modelo una descripción del genoma objetivo y le pidieron que generara una secuencia completa realista, sin ejemplos específicos de entrenamiento.

Los resultados: 16 fagos viables desde cero

Después de generar secuencias, filtrarlas bioinformáticamente (verificando con geNomad que clasifican como virales y tienen arquitectura genética realista) y sintetizar el ADN para probarlo experimentalmente en E. coli:

  • 16 bacteriófagos generados por IA resultaron viables
  • Los genomas mostraban novedad evolutiva sustancial respecto a ΦX174 natural
  • Un fago generó una estructura de capside con una proteína de empaquetamiento de ADN evolutivamente distante — algo que la cryo-EM confirmó y que no tenía equivalente directo en la naturaleza
  • Múltiples fagos mostraron mayor fitness que ΦX174 en competencias de crecimiento y en cinética de lisis
  • Un cóctel de fagos generados superó rápidamente la resistencia a ΦX174 en tres cepas distintas de E. coli

Por qué importa esto — implicaciones

El resultado más impactante es probablemente la demostración de que un Language Model puede aprender principios de auto-ensamblaje viral más allá de simples patrones de secuencia. La proteína de capside distante — una proteína que el modelo nunca vio funcionar dentro de ese contexto — sugiere que los GLMs capturan propiedades emergentes de los sistemas biológicos.

En términos prácticos:

  • Terapia fágica: Los bacteriófagos pueden usarse contra infecciones resistentes a antibióticos. Diseñar fagos a medida con propiedades específicas (tropismo hospedador, evasion de defensas bacterianas) es ahora un problema de generación de secuencias, no solo de selección natural.
  • Biología sintética: El marco conceptual — generar, filtrar, sintetizar, probar — es un blueprint para diseñar otros genomas virales o incluso sistemas más complejos.
  • Diseño generativo de sistemas vivos: Este paper establece que el diseño de genomas funcionales desde cero es posible. La pregunta ya no es si sino cómo escalarlo.

Limitaciones y preguntas abiertas

  • Solo se usó ΦX174 como template — ¿funciona para genomas más grandes o fagos diferentes?
  • El ratio de éxito (viables de intentos totales) no está totalmente claro en el preprint
  • No se probó la evolución de resistencia bacteriana a largo plazo ante los fagos diseñados
  • La cuestión de bioseguridad — cómo evitar la generación inadvertida de patógenos — merece discusión más profunda

Referencias

King S.H. et al. (2025). Generative design of novel bacteriophages with genome language models. bioRxiv. doi: 10.1101/2025.09.12.675911

Autores: Samuel H. King, Claudia L. Driscoll, David B. Li, Daniel Guo, Aditi T. Merchant, Garyk Brixi, Max E. Wilkinson, Brian L. Hie

Scroll al inicio