El poder de la Inteligencia Artificial (IA) ha quedado demostrado en los últimos años. Esta tecnología ya se emplea para predecir el clima, entender el comportamiento de algunas enfermedad y hasta resolver videojuegos. Pero su aplicación todavía tiene mucho que ofrecer y, como ejemplo de ello, un grupo de investigadores crearon un sistema capaz de crear su propio código de programación.
GitHub
y OpenAI dieron a conocer una vista previa técnica de una nueva herramienta de inteligencia artificial llamada Copilot , que se encuentra dentro del editor de código de Visual Studio y autocompleta fragmentos de código.
La idea de que una IA genere código no es nueva. Sin embargo, lo que hace diferente a Copilot, dijeron los desarrolladores, es que hace más que solo codificar como "perico" lo que ha visto antes. Es decir que, en lugar de solo replicar lo que ya está escrito, analiza lo que existe para generar un nuevo código coincidente, que incluye funciones específicas que se llamaron anteriormente.
En el sitio web del proyecto los creadores ya compartieron algunos ejemplo de lo que esta Inteligencia Artificial es capaz de hacer e incluyen escribir automáticamente el código para importar tweets , dibujar un diagrama de dispersión u obtener una calificación de Goodreads.
Dado que los desarrolladores apoyan el código abierto , su intención es que más persona tengan acceso a la herramienta. En ese sentido, compartieron que Copilot funciona mejor con Python, JavaScript, TypeScript, Ruby y Go, según una publicación de blog del CEO de GitHub, Nat Friedman.
Descendiente de GPT-3
GitHub ve esto como una evolución de la programación de pares, donde dos codificadores trabajarán en el mismo proyecto para detectar los errores de los demás y acelerar el proceso de desarrollo. Con Copilot, uno de esos codificadores es virtual.
Este proyecto es el primer resultado importante de la inversión de mil millones de dólares de Microsoft en OpenAI, la firma de investigación ahora dirigida por el presidente de Y Combinator, Sam Altman. Desde que Altman tomó las riendas, OpenAI ha pasado de ser una organización sin fines de lucro a un modelo de “ganancias limitadas” , asumió la inversión de Microsoft y comenzó a licenciar su algoritmo de generación de texto GPT-3.
Copilot se basa en un nuevo algoritmo llamado OpenAI Codex, que el CTO de OpenAI Greg Brockman describe como un descendiente de GPT-3.
GPT-3 es el algoritmo de generación de lenguaje insignia de OpenAI, que puede generar texto a veces indistinguible de la escritura humana. Es capaz de escribir de manera tan convincente debido a su tamaño de 175 mil millones de parámetros con funciones ajustables que permiten que el algoritmo conecte relaciones entre letras, palabras, frases y oraciones.
Mientras que GPT-3 genera inglés, OpenAI Codex genera código.
OpenAI planea lanzar una versión de Codex a través de su API a finales de este verano para que los desarrolladores puedan crear sus propias aplicaciones con la tecnología , dijo un representante de OpenAI a The Verge en un correo electrónico.
Codex se entrenó en terabytes de código disponible abiertamente extraído de GitHub, así como en ejemplos en inglés.
Si bien los testimonios en el sitio elogian las ganancias de productividad que proporciona Copilot, GitHub implica que no todo el código utilizado fue examinado en busca de errores, prácticas inseguras o datos personales. La compañía escribe que ha implementado algunos filtros para evitar que Copilot genere lenguaje ofensivo, pero puede que no sea perfecto.
"Debido a la naturaleza previa al lanzamiento de la tecnología subyacente, GitHub Copilot a veces puede producir resultados no deseados, incluidos resultados sesgados, discriminatorios, abusivos u ofensivos", dice el sitio web de Copilot.
Dadas las críticas al sesgo de GPT-3 y los patrones de lenguaje abusivos, parece que OpenAI no ha encontrado una manera de evitar que los algoritmos hereden los peores elementos de sus datos de entrenamiento.
La compañía también advierte que el modelo podría sugerir direcciones de correo electrónico, claves de API o números de teléfono, pero que esto es raro y se ha descubierto que los datos son sintéticos o generados de forma pseudoaleatoria por el algoritmo. Sin embargo, el código generado por Copilot es en gran parte original. Una prueba realizada por GitHub encontró que solo el 0.1 por ciento del código generado se podía encontrar literalmente en el conjunto de entrenamiento.