Google impulsa Gemini AI: Innovaciones y avances frente a OpenAI

PUNTOS IMPORTANTES:

Google Enhance Gemini AI: Mejoras significativas en la búsqueda y capacidades multimodales para competir con OpenAI.
Lanzamiento de Gemini 1.5 Pro: Capacidad extendida a 1 millón de tokens multimodales, superando ampliamente a GPT-4.
Nuevas Funciones en Google Photos y Meet: «Ask Photos» para consultas de imagen en lenguaje natural y mejoras en Google Meet para resumen automático de reuniones.

Tras el anuncio de OpenAI sobre su modelo de lenguaje omnimodal GPT-4o, Google no tardó en mostrar una serie de mejoras significativas en su suite Gemini AI, destacando su dominio en la búsqueda en la web y su capacidad tecnológica con una serie de actualizaciones que apuntan a transformar la experiencia de búsqueda y la interacción AI en varios frentes.

Mejoras en la Búsqueda y Capacidades AI Multimodales

En su reciente presentación, Google dio a conocer importantes innovaciones que permiten una interacción más natural con su motor de búsqueda. Por ejemplo, una demostración en vivo mostró cómo la búsqueda de soluciones para eliminar una mancha de café ya no se limita a mostrar enlaces: ahora el motor proporciona respuestas directas y comprensivas generadas por AI, posicionando estas respuestas por encima de los resultados tradicionales de búsqueda.

Google también presentó «Ask Photos», una funcionalidad que permite a los usuarios realizar consultas en lenguaje natural para buscar información en su galería de imágenes, superando las capacidades de búsqueda anteriores que se limitaban a personas, objetos o palabras específicas. En cuanto a Google Meet, se han incorporado funciones que resumen reuniones y generan listas de tareas automáticamente, reflejando el enfoque de Google en mejorar sus herramientas de productividad con AI.

Avances Tecnológicos Significativos

Un avance destacado es el lanzamiento de Gemini 1.5 Pro, que amplía enormemente la capacidad de manejo de tokens del modelo a 1 millón de tokens multimodales, superando ampliamente el límite de 128,000 tokens de GPT-4. Esta mejora promete no solo un aumento en el rendimiento, sino también una solución a los problemas de degradación de desempeño en modelos de lenguaje cuando manejan grandes volúmenes de datos.

Articulosde interes

Vista aérea del Pentágono con gráficos de IA que reflejan el contrato de OpenAI en defensa nacional.

OpenAI logra contrato clave con el Departamento de Defensa por 200 millones

16 de junio de 2025

575

Equipo ejecutivo en sala de reuniones con pantallas de datos y gráficos vinculados a OpenAI e inteligencia artificial.

¿Por qué OpenAI enfrenta presión récord para sumar talento?

16 de junio de 2025

598

Google también ha lanzado el Proyecto Astra, un agente AI universal que se puede personalizar según las necesidades de cada usuario, destacando su compromiso con la creación de herramientas AI altamente funcionales y adaptables. Los agentes AI personalizables («Gems») prometen integraciones fluidas dentro del ecosistema de Google, proporcionando interacciones personalizadas y conscientes del contexto.

Expansión en AI Generativa para Medios

Además, Google está avanzando en la AI generativa en diversos medios. Imagen 3, el nuevo generador de imágenes de Google, ofrece imágenes de alta realismo y detalle, y junto con la actualización de MusicLM para la producción de música generativa y el anuncio de Veo, un modelo generativo de video que se lanzará pronto, Google está estableciendo nuevos estándares en la AI para medios.

En un gesto hacia la comunidad de código abierto, Google ha presentado Pali Gemma, un modelo de visión de código abierto, y anunció el lanzamiento de Gemma 2, que promete ser más potente y preciso.

Finalmente, Google ha optado por implementar primero estas características impulsadas por Gemini en su sistema operativo Android, mostrando una competencia directa con la preferencia de OpenAI por las plataformas de Apple, y subrayando la intensa rivalidad en el desarrollo y despliegue de AI entre estos gigantes tecnológicos.