Hace una década, la Inteligencia Artificial (IA) aún parecía un tema de ciencia ficción. En 2015, un grupo de investigadores de DeepMind, liderados por Demis Hassabis publicó un artículo en Nature que presentaba un sistema de aprendizaje profundo (Deep Q-Network, DQN) capaz de jugar videojuegos de Atari con un desempeño a nivel humano [1]. A simple vista, era un logro impresionante en entretenimiento, pero era un poco más que eso. Irónicamente, este trabajo sentó las bases de una revolución en la IA que culminó con un Premio Nobel de Química en 2024.
El sistema DQN utiliza redes neuronales profundas para aprender directamente de las imágenes del juego, sin necesidad de programación explícita de reglas. Esto marcó un punto de inflexión y podía aprender de la experiencia de manera similar a un humano, refinando su estrategia a partir de ensayo y error. Esto llevó a DeepMind a pensar en problemas más complejos. Apenas un año después, en 2016, AlphaGo —una evolución de estas técnicas de RL— venció al campeón mundial de Go, Lee Sedol. Este fue un momento histórico. Mientras que en los videojuegos la IA podía reaccionar a estímulos inmediatos, en Go tuvo que desarrollar planificación estratégica a largo plazo, algo que se creía exclusivo de la inteligencia humana.
Curiosamente, la idea de usar computación distribuida para resolver problemas científicos ya había mostrado su poder con FoldIt, un experimento que permitía a cualquier persona contribuir a la resolución del problema del plegamiento de proteínas. A través de este los usuarios permitían que los tiempos ociosos de sus computadoras manipular estructuras tridimensionales de proteínas en busca de la conformaciónes más estables, y sus mejores soluciones eran analizadas por científicos para validar su aplicabilidad en el mundo real. Más allá de ser un juego, FoldIt demostró que el poder computacional distribuido podía aprovecharse para la ciencia. Cuando las computadoras no estaban en uso, podían transformarse en procesadoras de datos biológicos, contribuyendo con una capacidad de cómputo masiva sin necesidad de supercomputadoras. Fue un primer indicio de que la IA podían cambiar la forma en que entendemos la biología molecular.
El éxito de DeepMind no pasó desapercibido. En 2014, Google adquirió la empresa por 500 millones de dólares, asegurando su posición en la vanguardia de la IA. Esta adquisición marcó un cambio de paradigma: la IA ya no era solo un experimento académico, sino una tecnología con el potencial de transformar industrias enteras, desde el entretenimiento hasta la medicina.
El siguiente gran paso fue AlphaFold, un modelo basado en aprendizaje profundo y técnicas inspiradas en el RL, pero enfocado en el plegamiento de proteínas. Durante décadas, los científicos habían intentado predecir cómo una cadena de aminoácidos se doblaría en una estructura tridimensional, un desafío fundamental en la biología y la medicina. En 2020, AlphaFold2 superó a todas las técnicas existentes, logrando predicciones con una precisión cercana a los métodos experimentales más avanzados. El impacto de AlphaFold fue inmediato. En cuestión de meses, el modelo predijo estructuras de prácticamente todas las proteínas conocidas por la ciencia, abriendo nuevas fronteras en el desarrollo de medicamentos y la biotecnología. Su contribución fue tan profunda que en 2024, el trabajo de Hassabis y su equipo fue reconocido con el Premio Nobel de Química.
Lo irónico de esta historia es que todo comenzó con una IA jugando videojuegos. Lo que en su momento parecía una mera curiosidad computacional se convirtió en una de las herramientas más poderosas para la ciencia moderna. Y todo gracias a una idea sencilla: aprender de la experiencia.
Mientras DeepMind lograba avances disruptivos en IA, los fundamentos teóricos que hicieron posible esta revolución seguían cobrando relevancia. Este año, Richard S. Sutton y Andrew G. Barto fueron galardonados con el Premio Turing 2024, el máximo reconocimiento en las ciencias computacionales, por sus contribuciones pioneras en RL. Su libro Reinforcement Learning: An Introduction [2] ha sido una guía esencial para investigadores y profesionales del área, consolidando conceptos que hoy sustentan los algoritmos que están transformando el mundo. Sin su trabajo y las obras [3, 4, 5] (todas disponibles por los autores en libre acceso) es difícil imaginar el desarrollo de DQN, AlphaGo o AlphaFold.
El vertiginoso avance de la IA ha traído consigo un nuevo debate: ¿cómo regular una tecnología tan poderosa? Demis Hassabis, junto con otros líderes del sector, ha propuesto la creación de un organismo internacional similar a la Agencia Internacional de Energía Atómica (IAEA, por sus siglas en inglés), pero enfocado en la supervisión y regulación de la IA.
Este esfuerzo busca evitar un escenario donde el desarrollo de la IA quede en manos de unas pocas empresas o gobiernos sin supervisión, previniendo tanto riesgos de seguridad como el uso descontrolado de esta tecnología. La propuesta aún está en discusión, pero deja claro que la IA ha alcanzado un punto en el que su impacto ya no es solo tecnológico, sino incluso político.
Así que la próxima vez que alguien subestime el impacto de un avance en IA porque “solo juega videojuegos”, recuerda que ese mismo camino llevó a resolver uno de los problemas más complejos de la biología molecular, a reconocer a los pioneros del RL y a plantear el futuro de la regulación global de la IA. Nada más.
[1] Mnih, V., Kavukcuoglu, K., Silver, D. et al. Human-level control through deep reinforcement learning. Nature 518, 529–533 (2015). Disponible en este enlace. Código y paper disponibles en el siguiente enlace.
[2] Sutton, R. S., & Barto, A. G. (2018). Reinforcement Learning: An Introduction (2nd ed.). MIT Press. Disponible en el siguiente enlace.
[3] Szepesvári, C. (2010). Algorithms for Reinforcement Learning. Morgan & Claypool Publishers. Disponible en el siguiente enlace.
[4] Kochenderfer, M. J., Wheeler, T. A., & Wray, K. H. (2022). Algorithms for Decision Making. MIT Press. Disponible en el siguiente enlace.
[5] Bertsekas, D. P. (2019). Reinforcement Learning and Optimal Control. Athena Scientific. Disponible en el siguiente enlace.