Apple tiene una idea para llevar la IA a sus dispositivos menos potentes (iPhone y MacBook)
La inteligencia artificial terminará llegando a las tostadores, pero hasta que eso ocurra, Apple es otro de los gigantes que quiere allanar su uso en teléfonos inteligentes y portátiles. Para ello, se sabe que Apple ha comenzado con los experimentos. En concreto, ha experimentado con modelos de lenguaje colosal (LLM). Estos son los que impulsan la mayoría de las aplicaciones de inteligencia artificial en la actualidad.
Como ya hemos visto por parte de la competencia, para el máximo desempeño posible de los LLM se han implementado aceleradores de IA, como las NPU. En asuntos más serios, las GPU enfocadas a acelerar la IA combinadas con una gran cantidad de memoria VRAM. Esta es necesaria para almacenar las ponderaciones de los modelos. Sin embargo, para que el LLM sirva mejor a los usuarios de a pie, la compañía pretende llevar estos modelos de lenguaje a dispositivos con una capacidad de memoria limitada. Estos serán sus iPhone y MacBook. Ahora llega lo realmente interesante, y es que la solución será el almacenamiento.
Apple aprovechará el almacenamiento para llevar la Inteligencia Artificial IA a sistemas con pocos recursos
Apple quiere que estos LLM sirvan mejor a los usuarios y los ofrezcan de forma eficiente. Esto es una tarea complicada si partimos de la premisa que se requieren muchos recursos. Entre ellos los de computación y la ya mencionada memoria. Para saltarse estas limitaciones de aceleradores de IA y grandes cantidades de memoria, Apple reveló su plan en un documento. En este revela que su idea es almacenar los LLM en memoria NAND Flash. Es decir, en el propio almacenamiento del dispositivo. Este almacenamiento sí abunda. Un claro ejemplo es que sus iPhone 15 Pro son los primeros dispositivos de la gama en que ofrecen 256 GB de capacidad en su modelo más básico.
Para ello, la idea de Apple consiste en construir un modelo de costes de inferencia que armonice con el comportamiento de la memoria NAND Flash. Todo ello optimizados en dos áreas críticas: la reducción del volumen de datos transferidos desde la memoria flash y la lectura de datos en trozos más grandes y contiguos. En lugar de almacenar los pesos del modelo en la memoria DRAM, Apple quiere utilizar la memoria flash para almacenar los pesos y sólo extraerlos bajo demanda a la DRAM cuando sea necesario.
En este marco basado en la memoria flash se introducen dos técnicas principales: "windowing" y "row-column bundling". Nada mejor que usar el propio documento de Apple para explicarlo.
En primer lugar, el "windowing" reduce estratégicamente la transferencia de datos mediante la reutilización de neuronas previamente activadas y, en segundo lugar, el "row-column bundling", adaptado a las capacidades de acceso secuencial de datos de la memoria flash, aumenta el tamaño de los trozos de datos leídos de la memoria flash.
En conjunto, estos métodos permiten ejecutar modelos de hasta el doble del tamaño de la memoria DRAM disponible, con un aumento de la velocidad de inferencia de 4 a 5 veces y de 20 a 25 veces en comparación con los enfoques de carga ingenua en la CPU y la GPU, respectivamente. Nuestra integración del conocimiento de la dispersión, la carga adaptada al contexto y un diseño orientado al hardware allana el camino para la inferencia eficaz de LLM en dispositivos con memoria limitada.