Luego del sorprendente lanzamiento de GPT-4o por parte de OpenAI, llegó el turno de Gemini, el modelo de Google, el cual recibió una serie de actualizaciones a lo largo de sus distintas versiones. La firma californiana también mencionó algunos casos prácticos de su tecnología.
Uno de los números que más llamó la atención es que la inteligencia artificial está integrada en los 2 mil millones de productos de usuario de la empresa.
En contraste, 100 millones de personas utilizan ChatGPT cada semana, de acuerdo con la información compartida recientemente por OpenAI.
Lee también: 8 interesantes usos que tendrá GPT-4o, el reciente modelo de OpenAI
En un uso práctico, la nueva función Ask Photos permitirá buscar contenido muy preciso almacenado en Google Fotos gracias a los modelos de Gemini. “Va más allá de una simple búsqueda para comprender el contexto y responder preguntas complejas”, acota la californiana.
Con relación a Workspace, las personas podrán obtener información resumida sobre ciertos asuntos en su correo electrónico (Gemini 1.5 Pro), con el fin de que tengan más tiempo para ser productivas.
Además de mejoras en Gemini 1.5 Pro ―“nuestro mejor modelo para el rendimiento general en una amplia gama de tareas”―, lo que incluye una ventana de contexto a 2 millones de tokens, Google anunció Gemini 1.5 Flash.
“Es un modelo más liviano, optimizado para tareas en las que la baja latencia y el costo son lo más importante. A partir de hoy, los desarrolladores lo pueden usar con hasta 1 millón de tokens en Google AI Studio y Vertex AI”.
De parte de Google DeepMind se presentó Imagen 3, el mejor modelo de generación de imágenes de la división hasta el momento. Se enfatizó que crea gráficos más fotorrealistas.
En video, la firma de Mountain View desveló Veo, la plataforma que crea clips de alta resolución de más de 60 segundos a partir de prompts de texto, imagen o video. Los resultados audiovisuales se ofrecen en diversos estilos, según los requerimientos de las personas.
Lee también: ¿Qué es Sora? El modelo de OpenAI que puede crear videos que se confunden con la realidad
La Búsqueda de Google no se puede quedar atrás en IA, por lo que incluirá capacidades de razonamiento de varios pasos. Ello quiere decir que, por ejemplo, “se divide una pregunta importante en partes y se determina qué problemas resolver y en qué orden, por lo que una investigación de minutos u horas se podría realizar en segundos”.
Asimismo, en Google será posible realizar preguntas en video, al utilizar la cámara del celular. Es una función que estará disponible más adelante.
Como lo hizo OpenAI con GPT-4o, Google también permitirá interactuar con Gemini, incluso se tendrá la alternativa de interrumpirlo para tener una una conversación más natural.
Esta experiencia se llama Gemini Live. "Este verano, expandiremos las capacidades multimodales de Gemini, incluida la posibilidad de tener una conversación bidireccional profunda con la voz".
Sí, Gemini en Android también permitirá resolver complejas operaciones matemáticas gracias a Circle to Search. La IA dará el paso a paso en la resolución del problema.
"Gemini en Android se está volviendo más útil y consciente del contexto. Más adelante, podrás arrastrar y soltar imágenes generadas en Google Messages y Gmail, y hacer preguntas sobre videos de YouTube y archivos PDF directamente en el dispositivo".
Recibe todos los viernes Hello Weekend, nuestro newsletter con lo último en gastronomía, viajes, tecnología, autos, moda y belleza. Suscríbete aquí: https://www.eluniversal.com.mx/newsletters