El pais
SUSCRÍBETE
La integración de múltiples modalidades de entrada y salida es el punto fuerte de Gemini, mientras que la velocidad y la profundidad emocional de las respuestas de ChatGPT lo mantienen a la vanguardia de la conversación.
Con ChatGPT 4.0, OpenAI ha dado un salto adelante al integrar capacidades visuales y auditivas, mientras que Gemini 1.5 Pro de Google destaca por su capacidad para manejar grandes cantidades de datos y comprender imágenes. | Foto: NurPhoto via Getty Images

Tecnología

ChatGPT vs. Gemini: ¿Quién está ganando la carrera de la inteligencia artificial?

En la carrera de la inteligencia artificial, los ojos del mundo están puestos en dos titanes: ChatGPT y Gemini, ambos buscando liderar el camino hacia una IA más avanzada.

17 de mayo de 2024 Por: Redacción El País

En el vertiginoso mundo de la inteligencia artificial (IA), dos nombres resuenan con fuerza: ChatGPT y Gemini. Estas plataformas representan dos enfoques distintos para la creación y aplicación de modelos de IA. Mientras ChatGPT, desarrollado por OpenAI, se ha destacado por su capacidad para generar texto coherente y mantener conversaciones casi humanas, Gemini, un proyecto liderado por una coalición de empresas tecnológicas, busca empujar los límites de la IA mediante la integración de múltiples capacidades cognitivas. ¿Cuál de estas dos entidades está liderando la carrera hacia la inteligencia artificial generalizada (AGI, por sus siglas en inglés)? Analicemos tres aspectos clave para determinar quién está ganando la carrera.

ChatGPT 4.0: La revolución multimodal

En un sorpresivo anuncio de OpenAI, se ha revelado el lanzamiento del tan esperado ChatGPT-4o, marcando un hito significativo en la evolución de la inteligencia artificial. Sin precedentes, esta nueva versión no solo está disponible para suscriptores de pago, sino que también se ofrece de forma gratuita para todos los usuarios, democratizando el acceso a la IA de vanguardia. Aunque los suscriptores aún disfrutarán de ventajas adicionales, como un mayor límite de consultas, la disponibilidad generalizada de ChatGPT-4o promete cambiar el panorama de la interacción humano-máquina.

Las tácticas innovadoras para cultivar hábitos de éxito en el entorno laboral son analizadas por Chat GPT en una entrevista perspicaz.
A medida que Gemini avanza en la comprensión de imágenes y en la generación de contenido multimedia, ChatGPT sigue siendo el líder indiscutible en la capacidad conversacional y la generación de texto coherente. | Foto: SOPA Images/LightRocket via Gett

Un nuevo paradigma: Multimodalidad y velocidad en acción

Lo que distingue a ChatGPT-4o de sus predecesores es su capacidad para procesar una amplia gama de formatos de información. Más allá del texto, esta IA ahora puede interactuar con imágenes, videos y audio, expandiendo drásticamente sus capacidades y su utilidad en diversas situaciones. “ChatGPT ahora puede ver, oír y hablar”, proclama entusiasmado el equipo de desarrollo en su blog oficial.

Live demo of GPT-4o realtime translation

La velocidad de respuesta es uno de los puntos fuertes de ChatGPT-4o, con la capacidad de procesar solicitudes de audio en un tiempo asombrosamente rápido. Pero no es solo la velocidad lo que sorprende, sino la profundidad emocional que la IA puede transmitir. Con la capacidad de modular su voz para reflejar diferentes tonos emotivos, desde el sarcasmo hasta la risa, ChatGPT-4o crea interacciones más ricas y naturales, allanando el camino hacia una comunicación verdaderamente fluida entre humanos y máquinas.

De la imagen al idioma: Innovaciones en tiempo real

Una de las características más impresionantes de ChatGPT-4o es su capacidad para analizar y comprender imágenes en tiempo real, mientras también puede interpretar las emociones reflejadas en las expresiones faciales. Esta habilidad no solo abre nuevas oportunidades en la interacción con la IA, sino que también plantea cuestiones importantes sobre la privacidad y la ética en el uso de la tecnología de reconocimiento facial.

Se ha suscitado un gran interés entre los aspirantes a profesionales debido a las valiosas sugerencias proporcionadas por Chat GPT sobre cómo generar hábitos para una vida profesional exitosa.
Las mejoras en la comprensión de imágenes y la generación de contenido multimedia de Gemini podrían ser cruciales para su éxito futuro en áreas como la búsqueda visual y la creación de contenido. | Foto: Getty Images

Además, las traducciones en tiempo real agregan otro nivel de versatilidad, permitiendo que ChatGPT-4o actúe como un traductor instantáneo durante conversaciones entre personas que hablan diferentes idiomas, eliminando las barreras lingüísticas de manera casi imperceptible.

Gemini 1.5 Pro: La nueva era de la inteligencia artificial

Google ha presentado su última creación: Gemini 1.5 Pro, antes conocido como Bard. Esta versión renovada promete revolucionar el procesamiento de información con una ventana de contexto de un millón de tokens, una mejora significativa que promete cambios en la forma en que se interactúa con la inteligencia artificial.

Google Gemini IA ofrece a los usuarios la posibilidad de acceder a una amplia gama de funciones de inteligencia artificial directamente desde sus teléfonos Android.
Por otro lado, la capacidad de ChatGPT para interpretar y responder preguntas con diferentes tonos emocionales sigue siendo su punto de venta más fuerte en la competencia. | Foto: SOPA Images/LightRocket via Gett

Expandiendo los horizontes de la comprensión

Una de las características más destacadas de Gemini 1.5 Pro es su capacidad para manejar grandes cantidades de datos. Según la compañía, con un millón de tokens contaría con la capacidad de comprender múltiples documentos extensos, hasta 1500 páginas en total, o resumir rápidamente 100 correos electrónicos, esta versión promete eficiencia y velocidad en la gestión de la información. Además, la opción de cargar archivos directamente desde Google Drive agiliza aún más el proceso, proporcionando una experiencia de usuario más fluida y conveniente.

Visión renovada: Mejoras en la comprensión de imágenes y creación multimedia

Ahora, la IA puede procesar solicitudes diversas a partir de una sola imagen, como identificar recetas a partir de fotos de platos o proporcionar instrucciones paso a paso para resolver problemas matemáticos. Esta mejora amplía las posibilidades de interacción y uso de la inteligencia artificial en una variedad de situaciones cotidianas.

Se destacan las precauciones que se deben tener en cuenta antes de instalar y utilizar Google Gemini IA, especialmente en lo que respecta a la privacidad y seguridad de los datos.
Aunque Gemini ofrece una suscripción avanzada con herramientas adicionales, la disponibilidad generalizada de ChatGPT para todos los usuarios podría inclinar la balanza a su favor en términos de adopción y uso generalizado. | Foto: NurPhoto via Getty Images

Google no se detiene en su búsqueda de la excelencia tecnológica. Además de Gemini 1.5 Pro, la compañía ha presentado nuevas herramientas innovadoras. La tecnología para la generación de imágenes, ‘Imagen 3′, tiene como enfoque mejorar el texto y los efectos de las imágenes, ofreciendo una experiencia visual más enriquecedora. Además, Google ha introducido Veo, un sistema que permite la creación de vídeos con funciones de edición avanzadas, proporcionando nuevas oportunidades creativas para los usuarios.

AI Overviews: La revolución en los resultados de búsqueda

Google también ha anunciado novedades en los resultados de su motor de búsqueda con la introducción de ‘AI Overviews’. Esta función ofrece respuestas generadas por inteligencia artificial junto con enlaces a sitios web relevantes, presentados en la parte superior de los resultados de búsqueda. Esta innovación busca agilizar el acceso a la información útil y relevante, mejorando la experiencia del usuario en línea.

Google Gemini IA proporciona una visión detallada sobre las ventajas y desventajas de su utilización en comparación con otros asistentes virtuales disponibles.
Sin embargo, Gemini no se queda atrás con su enfoque en la comprensión multimodal y la generación de contenido multimedia, lo que lo posiciona como una fuerza a tener en cuenta en el panorama de la IA. | Foto: SOPA Images/LightRocket via Gett

ChatGPT 4.0 ha demostrado una impresionante capacidad para comprender y generar texto en una variedad de contextos, así como también ha expandido sus capacidades para procesar información multimodal, incluyendo imágenes, video y audio. Además, su capacidad para modular emociones en su respuesta lo hace aún más convincente en la interacción humano-máquina.

Por otro lado, Gemini, aunque presenta innovaciones en el procesamiento de texto e imágenes, parece estar más enfocado en la generación y comprensión de contenido específico, como resúmenes de documentos o solicitudes basadas en imágenes.

*Este artículo fue creado con ayuda de una inteligencia artificial que utiliza machine learning para producir texto similar al humano, y curado por un periodista especializado de El País.

AHORA EN Tecnología