#LaVozDeLosExpertos

Esta semana un sistema de inteligencia artificial (IA) le ganó a los campeones mundiales del póker denominado “no-limit Texas Hold Em”. Esto se suma a la repisa de trofeos para los padres de la IA junto al de Deep Blue (que le ganó a Garry Kasparov en ajedrez) y Alpha Go (para el juego Go). Pero lo más importante sobre este sistema es que nos recuerda que la Inteligencia Artificial no está siendo dirigida por una sola tecnología, sino por varias.

Trabajar 200 horas en 20 días (10 horas por día) es muy diferente a jugarte tu dinero contra una computadora. El nombre de la computadora es Libratus, del latín balance, y algo que me pareció interesante es que en el caso de este sistema, no vimos redes neurales, sino que utiliza el sistema (bueno, en realidad son tres sistemas que forman un sistema mayor) llamado de educación reforzada (“reinforcement learning” en inglés). Estamos hablando de que esta computadora que no debería de sentir frustración, porque no tiene emociones, se puede enfocar en jugar una y otra vez contra sí misma (sin hacer trampa) como su proceso de aprendizaje.

Por ejemplo, Alpha Go en su momento logró resolver un juego de Go, 10 años antes de lo previsto. Para ello también utilizó la educación reforzada pero eso fue después de haber agregado 30 millones de movimientos de Go a su red neural (la de Google Deepmind) antes de empezar a jugar contra sí misma. En comparación con Libratus que aprendió desde cero.

Empezó aprendiendo con un algoritmo llamado “minimización del arrepentimiento contrafactual” y tras millones de manos (y varios meses de entrenamiento con mucho #ruidoblanco) logró hacer más que los mejores humanos dedicados a este juego, una estrategia de apuesta más compleja. Consiguió definir por sí misma una gama mucho más amplia de opciones y asignó al azar estas apuestas, lo que le ayudaba haciendo que los rivales tuvieran más problemas al adivinar qué cartas tenía.

Me encantó lo que le dijo Noam Brown, alumno de la Universidad Carnegie Mellon que trabajó con el profesor Tuomas Sandhom para hacer esta computadora: “Desarrolla una estrategia totalmente independiente a la de cualquier humano, y puede ser muy diferente a la forma en la que los humanos jugamos”. Pero su aprendizaje no terminó ahí.

A la hora de estar en el juego de póker el primer sistema se apoya de un segundo llamado “end-game solver” o destinado a finalizar el juego. Este sistema le permite al primero enfocarse en el juego sin perder demasiado tiempo analizando todos los millones de jugadas que ha realizado antes, sino simplemente enfocándose en las posibles con el juego frente a sí. A estos dos sistemas se suma el tercero, el que realiza la introspección.

Después de los juegos de cada día la computadora analiza los posibles patrones identificables por otros o fallas que tuvo y que no se dieron cuenta pero podrían haber identificado. Al hacer esto aprende de ello y lo resuelve para que los que la confronten al día siguiente no crean que ya la habían adivinado a la hora hacer su propia introspección. Esto hace del sistema un verdadero hito, ya que muestra un tipo de IA que puede tener un papel relevante en el futuro en temas de manejo de acciones de bolsa, ciberseguridad, en subastas e incluso negociaciones políticas.

Cada día hay más soluciones con variantes de IA alrededor nuestro, resolviendo problemas cotidianos.

Google News

TEMAS RELACIONADOS

Noticias según tus intereses