El desarrollo de la Inteligencia Artificial se ha acelerado en los últimos años. Actualmente existen sistemas que pueden, desde pilotar un avión de combate , hasta reconocer enfermedades mejor que los seres humanos. Y ahora Microsoft afirma contar con un sistema que puedes describir imágenes con un nivel de precisión cercano al de una persona.
Este tipo de habilidad en una máquina lleva tiempo siendo probado. En 2016, Google dio a conocer su su sistema de inteligencia artificial (IA) podía subtitular imágenes casi tan bien como los humanos alcanzando un 94% de precisión. Pero todavía podía mejorar y Microsoft se dio a la tarea de ir aún más lejos. Sus investigadores afirman que han construido un sistema de IA que es incluso más preciso que los humanos , tanto que ahora se encuentra en la parte superior de la tabla de clasificación para el punto de referencia de subtítulos de imágenes siendo dos veces mejor que el modelo de subtítulos de imágenes que ha estado usando desde el 2015.
Microsoft no solo está anunciando el poder de su tecnología para aprovecharla de manera interna, ha señalado que el nuevo modelo de subtítulos formará parte de los servicios cognitivos de Azure , por lo que cualquier desarrollador puede incorporarlo a sus aplicaciones. Asimismo, dijo que también está disponible desde esta semana en Seeing AI , la aplicación de Microsoft para usuarios ciegos y con discapacidad visual que puede narrar el mundo que los rodea. Y, a finales de este año, planean que el modelo de subtítulos también mejorará sus presentaciones en PowerPoint para la web, Windows y Mac para después llegar a Word y Outlook en plataformas de escritorio.
Al respecto de este desarrollo Eric Boyd, CVP de Azure AI, en una entrevista con el medio estadounidense Engadget, señaló: "los subtítulos de imagen son uno de los problemas más difíciles en la IA. Representa no solo la comprensión de los objetos en una escena, sino cómo interactúan para poder describirlos".
El equipo entrenó el modelo con imágenes etiquetadas con palabras clave específicas, lo que ayudó a darle un lenguaje visual que la mayoría de los marcos de IA no tienen. Por lo general, este tipo de modelos se entrenan con imágenes y subtítulos completos, lo que dificulta que aprendan cómo interactúan los objetos con el entorno. “Este pre-entrenamiento de vocabulario visual es esencialmente la educación necesaria para entrenar el sistema; estamos tratando de educar esta memoria motora lo que le da a este nuevo modelo una ventaja en el punto de referencia que se centra en determinar qué tan bien puede la IA subtitular imágenes que nunca antes habían visto”, dijo Xuedong Huang, director de tecnología de los servicios cognitivos de IA de Azure, en una publicación en el blog de Microsoft.
Puede que la descripción de una imagen no suene tan impresionante como la posibilidad de, por ejemplo, reconocer quién tiene Covid-19 de una manera rápida y efectiva. Sin embargo, puede ser aplicada en varios escenarios y mejorar la vida de millones de personas.
El adelanto que presentó Microsoft puede, por ejemplo, facilitar el encontrar imágenes específicas en los motores de búsqueda y, para los usuarios con discapacidad visual, puede hacer que la navegación por internet sea mucho más sencilla.
Lo mejor es que esta tecnología no se está quedando en un laboratorio o en una sola herramienta propiedad de la empresa sino que se está implementando rápidamente en productos finales pues, de acuerdo con Microsoft, están buscando que se traduzca en beneficios para los usuarios de inmediato. En ese sentido, la empresa señala que la prueba real para el nuevo modelo será cómo funciona en el mundo real.