Octavio Islas

Gemini: nueva apuesta de Google para revitalizar Bard

Articulista Octavio Islas. Foto: EL UNIVERSAL
11/12/2023 |19:29
Octavio Islas
Autor de OpiniónVer perfil

El miércoles de la semana pasada ―6 de diciembre― Google presentó Gemini, una nueva versión de su modelo de lenguaje multimodal, el cual fue desarrollado por Google DeepMind. Gemini fue incorporado al chatbot Bard.

En cuanto al nombre adoptado, en la NASA el programa Gemini antecedió al programa Apolo, el cual finalmente consiguió llevar al hombre a la luna.

Con la introducción de Gemini, Google pretende recuperar su capacidad para competir frente a OpenAI y Microsoft.

Newsletter
Recibe en tu correo las noticias más destacadas para viajar, trabajar y vivir en EU

Debemos tener presente que, días antes de la presentación de Gemini, OpenAI anunció GPT-4 Turbo en el evento DevDay.

Además, la actualización que en el mes de septiembre liberó OpenAI en ChatGPT, aseguró al chatbot la capacidad para tomar imágenes y audio como entrada, además de texto.

La semana pasada, también Microsoft anunció algunas mejoras en Copilot.

Gracias a ChatGPT, OpenAI, una peculiar startup que cuenta con menos de 800 empleados fue capaz de despojar a Google de su supuesto liderazgo en materia de inteligencia artificial (IA).

OpenAI asumió el liderazgo en innovación y desarrollo en IA. Cuando añadió su nuevo LLM GPT-4 a ChatGPT, algunos expertos incluso pidieron a OpenAI que redujera el ritmo de desarrollo de la IA. OpenAI tomaba enorme ventaja frente a sus posibles competidores.

Microsoft, uno de los inversores en OpenAI, decidió introducir la desarrollada por OpenAI en el motor de búsqueda Bing. Ello representó una amenaza directa a Chrome y, por supuesto, también para Google como para Alphabet.

Google, que durante años había permanecido inmerso en un acentuado conformismo, finalmente comprendió la necesidad de mejorar y no quedarse atrás en la carrera que ha precipitado el abrupto desarrollo de la IA.

Google se apresuró a lanzar Bard como competidor de ChatGPT. Además renovó su anquilosado motor de búsqueda (Chrome) y lanzó un nuevo modelo, PaLM 2, para competir con el que estaba detrás de ChatGPT.

Demis Hassabis pasó de liderar el laboratorio de inteligencia artificial de Google en la sede en Londres, a dirigir una nueva división de inteligencia artificial que unió a su equipo con los integrantes de Google Brain, el principal grupo de investigación de IA en Google.

En mayo, en la conferencia de desarrolladores de Google, I/O, Pichai anticipó la introducción de Gemini, sin proporcionar el nombre.

La semana pasada, en la presentación de Gemini, Hassabis afirmó que este representa el inicio de una nueva generación de IA.

"Como neurocientífico e informático, durante años he querido intentar crear una especie de nueva generación de modelos de IA inspirados en la forma en que interactuamos y entendemos el mundo, a través de todos nuestros sentidos".

Se supone que Gemini irá más allá de los LLM anclados en textos, preparando el escenario para una nueva ronda de productos de inteligencia artificial significativamente diferentes de los habilitados por ChatGPT.

Gemini es un modelo de inteligencia artificial o IA basado en redes neuronales profundas, con atributos multimodales que le permiten reconocer video, imágenes, texto y voz al mismo tiempo. Sin embargo, por ahora solo devolverá resultados en texto o código.

Gemini utiliza una arquitectura llamada , la cual ―señalaron― le permite aprender de forma simultánea varias tareas y habilidades, como comprensión del lenguaje natural, generación de texto, reconocimiento de imágenes, traducciones inmediatas y síntesis de voz.

Gemini ―se afirmó― no solo es un chatbot inteligente y creativo, además dispone capacidades de programación avanzadas, incluyendo la generación de código de alta calidad. Esta IA también puede resolver problemas de programación complejos y colaborar con desarrolladores.

Sin embargo, Google no podrá imponerse sobre OpenIA a través de declaraciones. Los usuarios exigen resultados.

Algunos de los usuarios que han probado Gemini señalan que lo expuesto en el video de presentación dista mucho de la realidad.

Los videos publicados por Google exhiben a Gemini resolviendo operaciones que involucran un razonamiento complejo; además, fueron incluidos algunos ejemplos que combinan información de texto, imágenes, audio y video.

Google reconoció que, efectivamente en el video de demostración del funcionamiento de su nuevo modelo de IA, las operaciones mostradas se habían exagerado.

Gemini tiene tres versiones: la versión Ultra para las tareas más exigentes; la versión Pro, adecuada para una amplia gama de tareas y una versión Nano que puede ejecutarse en dispositivos móviles.

Google decidió incorporar Gemini por etapas. En la etapa inicial, Bard utilizará una versión mejorada de Gemini Pro. A partir del miércoles 13 de diciembre, los clientes empresariales de Google obtendrán acceso a Gemini Pro a través de la API Gemini en Google AI Studio o Google Cloud Vertex AI.

Gemini Nano incrementará las funciones y posibilidades de la IA generativa de Google Pixel 8 Pro, incorporando una función de "resumen" en la aplicación de grabación de voz y una opción de "respuesta inteligente" en Gboard.

Gemini Ultra será liberado cuando la compañía concluya las pruebas que ha considerado pertinente realizar en materia de seguridad.

Google también considera incorporar una versión de gama alta de Bard, Bard Advanced, que ofrecerá acceso a los "mejores modelos y capacidades de Google, comenzando con Gemini Ultra". Google se negó a informar si pretende cobrar por Bard Advanced.

Hassabis informó que Google DeepMind está investigando cómo se podría combinar Gemini con la robótica para interactuar físicamente con el mundo.

En mayo, Google anunció el desarrollo de un modelo de inteligencia artificial llamado Gato, el cual es capaz de aprender a realizar una amplia gama de tareas, como jugar juegos de Atari, subtitular imágenes y usar un brazo robótico para apilar bloques. En julio, Google presentó RT-2 que implicaba el uso de modelos de lenguaje para ayudar a los robots a comprender y realizar acciones.

OpenIA no se ha quedado cruzada de brazos. Se encuentra inmersa en la exploración de Q*, que no necesariamente supone seguir el rumbo de sistemas como GPT-4.