La red social X (antes Twitter) ha actualizado su modelo de Inteligencia Artificial (IA) generativa Grok, que ahora tiene la capacidad de procesar información visual, como documentos, capturas de pantalla, diagramas y fotografías.
MIRA: Las inteligencias artificiales ganan más debates en línea que los humanos, según estudio suizo
La firma tecnológica presentó su ‘chatbot’ en noviembre del año pasado, estando primero en pruebas para los suscriptores de Premium+. Entonces, comentó que Grok era capaz de de ofrecer respuestas a los usuarios en tiempo real con un sentido del humor no apto para todos.
Meses más tarde, a finales de marzo, anunció la actualización del modelo de IA que potencia su ‘chatbot’, Grok-1.5, que llegaba con mejoras en su capacidad de rendimiento y en tareas relacionadas con la codificación y las matemáticas.
X ha presentado ahora la nueva iteración de su modelo, Grok-1.5V, que ahora es multimodal, ya que, además de tener “sólidas capacidades de texto”, puede procesar información visual, como documentos, cuadros, diagramas, capturas de pantalla, gráficos y fotografías.
Con ello, ha matizado que Grok-1.5v “supera a sus pares” en su nuevo punto de referencia RealWorldQA, una evaluación del procesamiento de imágenes que mide la comprensión espacial del mundo real y cuya versión inicial consta de más de 700 imágenes, con una pregunta y una respuesta “fácilmente verificables” para cada una.
Este conjunto de datos, además, consta de imágenes anónimas de vehículos y otras objetos del mundo real. Está disponible para su descarga y se espera que se expanda a medida que mejoren los modelos multimodales de la firma.
X ha indicado que Grok-1.5V estará disponible “pronto” para los probadores y usuarios de su ‘chatbot’. Además, ha comentado que en los próximos meses irá avanzando mejoras “significativas” de procesamiento en diferentes modalidades, como imágenes, audio y vídeo.
VIDEO RECOMENDADO
TE PUEDE INTERESAR
- Google afirma que su IA Gemini solo entrena con archivos de Docs si están públicos
- Robot todoterreno mantiene el equilibrio a pesar de duros golpes y obstáculos | VIDEO
- Google Cloud Next 2024: avanzando en IA y nube con el potencial de Gemini 1.5 Pro
- Microsoft invertirá 2.900 millones de dólares en inteligencia artificial en Japón
- GPT-4, la versión más potente de OpenAI, ya cuenta con capacidad para analizar imágenes
Contenido sugerido
Contenido GEC