Apple anuncia MGIE, su IA para modificar imágenes usando solo nuestra voz
Apple empezó lanzando ordenadores personales y poco a poco ha ido progresando a otros sectores. Ahí por donde aparecía, lograba captar la atención de las personas, por ofrecer dispositivos que se son y se sienten distintos a los de la competencia. La compañía de la manzana mordida ofrece tanto hardware como software propio de esta y es lo que al final le permite diferenciarse. Llevamos más de un año con la IA como tema principal y Apple aún no había dado detalles hasta ahora, donde revela MGIE, su nuevo modelo de IA que permitirá modificar imágenes usando la voz.
La inteligencia artificial ha dado un "boom" de interés que ha pillado a muchos desprevenidos. En cuestión de muy poco tiempo, hemos pasado de tenerlo como un tema del que no se hablaba casi a ser uno de los sectores más importantes donde invertir miles de millones para continuar su desarrollo. Podríamos decir que gran parte de la culpa de este gran interés se la lleva OpenAI tras haber lanzado ChatGPT en noviembre de 2022. Este chatbot de IA generativa que emplea el modelo GPT-4, nos ha demostrado que la inteligencia artificial es capaz de hacer muchas más cosas de las que creíamos.
Apple presenta su modelo de IA MGIE, que nos permite editar imágenes usando órdenes por voz
Ya no estamos limitados a tener una IA que solo tenga un propósito y objetivo como era habitual hace años. Con la llegada de la IA generativa es posible crear contenido en formato de texto o imágenes, pudiendo usar ChatGPT o Midjourney, respectivamente. Estas IA se han entrenado utilizando LLM con millones de parámetros, permitiendo así crear modelos que pueden usarse en muchas situaciones. Podemos crear todo tipo de imágenes o generar código en formato de texto, como ejemplos de cosas que hace unos años no eran posibles.
En mitad de toda esto y con empresas como OpenAI, Microsoft o Google desarrollando sus propias IA, ahora aparece un nuevo rival que llevábamos tiempo esperándolo. Se ha hecho de rogar, pero Apple por fin ha anunciado su nuevo modelo de IA, llamado MGIE, que significa "MLLM-Guided Image Editing". A grandes rasgos, este modelo de IA de Apple se encarga de modificar imágenes, interpretando y siguiendo las órdenes que le damos por voz.
Es de código abierto en GitHub y se puede probar de forma gratuita
Apple MGIE es un lenguaje multimodal de gran tamaño que nos permitirá modificar imágenes como si fuese un Photoshop por voz. No hay demostraciones por vídeo, algo que nos habría gustado ver, pero si hay pruebas con imágenes. Podemos ver varios ejemplos de lo que puede hacer el nuevo modelo de IA de la compañía de la manzana mordida. Tenemos un ejemplo de una pizza con pepperoni que al pedirle que la haga "más saludable", la ha convertido a una pizza con tomates y verduras.
Otro de los ejemplos que ya hemos visto al usar IA para editar es el de eliminar personas del fondo y esta herramienta de Apple también lo hace. Otras de sus funciones son las de cambiar el contraste, brillo, nitidez y añadir efectos. Sobre esto último, se muestra como pasamos de un cielo nuboso a una tormenta eléctrica. El último de los ejemplos que se muestra es como cambia el glaseado de un donut y lo compara con otros modelos de IA que intentan replicar lo mismo.
Lo mejor de esta IA de Apple, es que está disponible como un proyecto de código abierto en GitHub y si queréis probarlo por vuestra cuenta, es posible hacerlo en Hugging Face. Eso sí, la implementación final de Apple en sus dispositivos probablemente sea distinta y se espera que veamos nuevas funciones por IA en el evento WWDC 2024 y con la llegada de iOS 18.