Elon Musk ya tiene su primera IA multimodal con Grok-1.5V y su capacidad de procesar imágenes y textos

Elon Musk ha estado involucrado en el sector de la inteligencia artificial desde hace un tiempo si tenemos en cuenta las tecnologías de conducción autónoma de Tesla o los robots humanoides con IA que presentó hace meses. A pesar de esto, no fue hasta hace poco cuando su compañía xAI mostró el primer chatbot de la compañía destinado a Twitter/X. Aunque sus primeras versiones no mostraron grandes resultados, la IA de Elon Musk se actualiza y con Grok-1.5V tienen su primera generación de IA multimodal, la cual es capaz de procesar y reconocer imágenes de todo tipo, incluyendo capturas de pantalla.

La presencia de la IA en cada vez más aspectos de nuestra vida y día a día es algo que no se puede parar. En el momento en que apareció la IA generativa, las compañías y la sociedad en sí vieron el gran potencial que esta tenía. OpenAI y ChatGPT se convirtieron en aquello que otras empresas querían alcanzar y superar y desde entonces, la carrera por la IA empezó. Hemos visto multitud de modelos de IA y chatbots que intentaron derrocar el liderazgo de ChatGPT y Musk no se quiso quedar atrás.

Grok-1.5V ya es capaz de identificar y procesar imágenes, dibujos, fotografías o diagramas

Dibujo explicar Grok

Elon Musk anunció hace unos meses su chatbot Grok, promocionado como un asistente virtual que estaría integrado en X. Aunque en un principio fue un chatbot que solo podían utilizar los usuarios con Premium+ (16 euros al mes), al final decidió que con el Premium (8 euros al mes) ya se podía acceder a este. Grok es el primer chatbot de Elon Musk y también, el primer modelo de su recientemente fundada compañía xAI.

La intención de Musk era hacer de Grok un modelo open source y tal y como prometió, nos encontramos con Grok-1 en GitHub disponible de forma gratuita. Esta es su primera versión y está desactualizada, pues lo último que han presentado ha sido la IA Grok-1.5V. Esta ha sido catalogada como la primera IA multimodal por permitir a Grok ser capaz de procesar información visual. Esto significa que no solo puede procesar texto, sino que puede identificar y procesar capturas de pantalla, fotografías, dibujos, gráficos o diagramas.

Grok-1.5V es superior al resto de modelos de IA en matemáticas, lectura de textos y compresión del mundo real

Grok 1.5V comparativa

Como ejemplos de lo que es capaz de hacer Grok-1.5V tenemos la capacidad de enseñarle una fotografía de un diagrama de flujo y pedirle que lo convierta a código Python. Otro de los ejemplos es usar un dibujo y que describa su historia o hasta explicarnos un meme. Así pues, esta actualización de Grok permitirá a la IA ser útil para muchas más cosas y sin duda atraerá a más clientes. No hay que confundir Grok-1.5V con la versión 1.5, pues esta última se lanzó hace unas semanas y no trae dichas mejoras.

Ahora toca ver la comparativa entre Grok-1.5V y otros modelos de IA como GPT-4V de OpenAI, Claude 3 de Anthropic y Gemini Pro 1.5 de Google. Aquí podemos ver que la IA de Elon Musk gana en tres sectores siendo este el de las matemáticas con un 52,8% de éxito, el de lectura de textos con un 78,1% de éxito y el de la comprensión del mundo real con un 68,7%.