Phison aiDaptiv+, así es como se usarán los SSD y la memoria RAM en vez de muchas GPU para entrenar una IA

El GTC 2024 ha mostrado impresionantes tecnologías, como el MWC, algunas de ellas poco llamativas a la vista, pero ya en profundidad, tremendamente útiles de cara a empresas más o menos grandes, pero sobre todo, PYMES. Una de ellas es aiDaptiv+ creada por Phison, la cual pretende usar los SSD y la memoria RAM de cualquier PC o servidor para entrenar modelos de IA sin necesidad de añadir tantas GPU.

El objetivo es reducir costes y sumarse, lógicamente, al tren de la IA, al menos, para aquellas empresas que no pueden gastar 30.000 dólares en una GPU de gama alta o 20.000 en una de gama media para Inteligencia Artificial. A cambio, se ofrece un método y modelo más asequible en precio, con algo menos de rendimiento, pero igualmente funcional.

Phison aiDaptiv+, SSD y RAM para ayudar a entrenar la IA sin gastar mucho dinero

Phison-aiDaptiv+-1

Normalmente, la capacidad de entrenamiento de un LLM va bastante limitada por la cantidad de VRAM que hay en el servidor, así como por el ancho de banda. Curiosamente, la capacidad de la GPU para trabajar con el algoritmo va limitada por estos dos factores, así que en un momento dado Phison pensó que era más barato ampliar la capacidad total de almacenamiento con unidades de estado sólido y memoria RAM, que comprar caras GPU.

El rendimiento iba a verse afectado obviamente, porque el ancho de banda total ni se acerca a memorias como HBM3e, por ejemplo, pero ¿merecería la pena en términos económicos a costa de mayor tiempo funcionando?

Phison-aiDaptiv+-2

Pues Phison ha puesto un ejemplo para hacernos a la idea del potencial de aiDaptiv+. Mostró una WorkStation con cuatro RTX 6000 A100 con un modelo para 70 mil millones de parámetros, lo que supondría según la compañía 1,4 TB de VRAM en total.

Esa capacidad es relativamente fácil de conseguir entre DRAM y SSD en estos momentos, lo que permite que el algoritmo pueda estar "en memoria" y no esperando a que la GPU los procese.

¿Cómo funciona esta tecnología y qué resultados ofrece?

Phison-aiDaptiv+-3

Pues es relativamente sencillo, y gran parte del peso lo lleva el software, para ser concretos, Middleware con una biblioteca particular dedicada a Phison y aiDaptiv+. Por lo que comentó la compañía, se segmenta los parámetros que no están siendo calculados por la GPU e importados desde la VRAM y se envían a la memoria principal del sistema, liberando la VRAM para que pueda optimizar el rendimiento del algoritmo.

Si la RAM se ocupa, se pasa la información al SSD. Conforme la GPU trabaja y la VRAM se va liberando, la información se transfiere primero desde la RAM a la VRAM, y si fuese necesario, se añadiría la del SSD. Si no es así y el traspaso de información es el esperado, conforme se vacía la DRAM se mueve la siguiente capa de información desde el SSD hasta esta, y así va fluctuando todo.

Phison-aiDaptiv+-4

En cuanto al rendimiento, Phison asegura que en el peor de los casos los LLM tardarán cuatro veces más en entrenarse, pero también ofrece la opción de instalar cuatro nodos por la mitad del coste que tendría un sistema tradicional de GPU con 30 unidades. Costando la mitad, con el ejemplo del LLM de 70 mil millones de parámetros, Phison tardaría 1,2 horas en entrenarlo por las 0,8 horas de las GPU, como decíamos, costando la mitad.

Phison está vendiendo aiDaptiv+ dentro de lo que presentó como sus nuevas estaciones de trabajo Por AI Maingear, compuestas por un Xeon W7-3435X, 512 GB de DDR5-5600 y dos SSD bajo su marca con 2 TB. Por supuesto, el hardware es personalizable por el comprador con distintos componentes a seleccionar, y por ello, los precios van desde los 28.000 dólares a los 60.000 dólares incluyendo desde 1 GPU hasta 4.