Temas del día

Grok, el chatbot de Elon Musk, se vuelve multimodal: ahora puede procesar imágenes

El modelo puede procesar información visual, como documentos, cuadros, capturas de pantalla, gráficos y fotografías

Las seis nuevas funciones de ChatGPT que lo hacen capaz de coquetear y detectar emociones
¿Muy parecido a “Her”? OpenAI pausa la voz de Sky en ChatGPT por parecerse a la de Scarlett Johansson

Grok, el chatbot de Elon Musk, se vuelve multimodal: ahora puede procesar imágenes.
/ xAI

Por Agencia Europa Press22/05/2024, 03:20 p.m.

X (antigua Twitter) ha compartido sus avances con las capacidades multimodales de su modelo de Inteligencia Artificial (IA) generativa Grok, que puede procesar imágenes y contenido visual, para responder preguntas relacionadas con dicho contenido.

La plataforma liderada por Elon Musk presentó su chatbot en noviembre del pasado año, que fue lanzado en versión de prueba para los suscriptores de Premium+, con capacidades para ofrecer respuestas a los usuarios en tiempo real. Esta herramienta está impulsado por el modelo de lenguaje del mismo nombre, del que a finales de marzo anunció la versión Grok-1.5, que incluye mejoras en su capacidad de rendimiento y en tareas relacionadas con la codificación y las matemáticas.

MIRA: El hombre que convirtió a su padre fallecido en un chatbot para “conservar su esencia”

Recientemente, X presentó una nueva actualización de su modelo con Grok-1.5V, que añadió capacidades multimodales. Es decir, que puede procesar información visual, como documentos, cuadros, diagramas, capturas de pantalla, gráficos y fotografías.

Ahora, la compañía de IA de Elon Musk, xAI, ha compartido los avances de Grok para procesar información visual y ha confirmado que el chatbot es capaz de analizar y tratar imágenes, así como responder preguntas relacionadas, con la implementación de Grok-1.5V.

Así se recoge en la actualización de los documentos de un kit de desarrollo de software (SDK), en el que se muestra una prueba de la IA multimodal, que ya está disponible para los desarrolladores.

En concerto, las líneas de código Python especifican cómo se puede utilizar la biblioteca del SDK de xAI para que el chatbot genere una respuesta basada tanto en texto como en imágenes. Así, en el ejemplo compartido, el código detalla que la IA recibe la imagen y la lee para analizarla. Tras ello, el chatbot recibe la pregunta “¿Qué es esto?” y utiliza el SDK de xAI para resolvers.

MIRA: Expertos alertan: los sistemas de IA actuales ya son capaces de engañar a los humanos

Tal y como mostró recientemente X en una publicación del blog de xAI, gracias a las capacidades multimodales, Grok puede escribir código a partir de una imagen de un diagrama, recibir una un meme y ofrecer una explicación, analizar una imagen de una etiqueta con valores nutricionales y calcular las calorías del alimento al que pertenece o, incluso, crear un cuento a partir de un dibujo.

Con todo ello, X continúa avanzando en las capacidades de IA de su chatbot, por lo que las capacidades multimodales del chatbot Grok llegarán a los usuarios de forma general en un futuro.

TE PUEDE INTERESAR

Seguir temas

Lo último en Inteligencia Artificial

Más sobre Grok

Los expertos en psicología coinciden: quienes tienen su habitación desordenada afrontan una dificultad para sostener rutinas y evaden responsabilidades

El Comercio

Grok, el chatbot de Elon Musk, se vuelve multimodal: ahora puede procesar imágenes

El modelo puede procesar información visual, como documentos, cuadros, capturas de pantalla, gráficos y fotografías

Grok

chatbot

Elon Musk

Lo último en Inteligencia Artificial

Desarrollan un nuevo enfoque de IA que permite a los robots aprender cuándo actuar

Cinco lecciones de IA que nos deja el Mundial 2026 y que puedes aplicar

Qwen-Image-3.0 profundiza en el realismo útil de las imágenes generadas con IA

Chile busca multar la difusión de ‘deepfakes’ creados con IA por hasta 760.000 dólares

Más sobre Grok

Elon Musk prometió crear una versión más precisa de “La Odisea” con la inteligencia artificial de Grok

Grok 4.5: nuevo modelo de IA tiene mejoras en programación, más velocidad y menor costo

Incendios, robos y amor: qué hacen los agentes de IA cuando los humanos no los vigilan

Grok, la IA de Elon Musk, fue utilizada en ataques contra Irán, según documento de EE.UU.

Contenido sugerido

Los expertos en psicología coinciden: quienes tienen su habitación desordenada afrontan una dificultad para sostener rutinas y evaden responsabilidades

La verdadera historia detrás de “Elize: Sombras de una mujer” de Netflix: qué pasó con Elize Matsunaga en la vida real

Gavin Newsom ya la firmó: de qué trata la ley AB 1653 de California que busca aumentar la protección a los estudiantes ante las olas de calor

Los expertos en psicología coinciden: las personas que levantan la voz no son dominantes o más seguras, sino que necesitan sentirse escuchadas

Los expertos en psicología coinciden: las personas que están seguras de sí mismas gestionan mejor la presión y establecen relaciones saludables

Incendios en España: así funciona la alerta de Google Maps para esquivar carreteras con riesgo