Los chips de aprendizaje automático que utilizan circuitos analógicos en lugar de digitales han prometido durante mucho tiempo enormes ahorros de energía. Pero en la práctica, generalmente han logrado ahorros modestos y solo para redes neuronales de tamaño modesto. La startup del Valle del Silicio Sagence dice tener la tecnología para llevar esos ahorros prometidos a tareas diseñadas para modelos masivos de IA generativa. La startup afirma que sus sistemas podrán ejecutar el modelo de lenguaje grande Llama 2-70B con una décima parte del consumo energético de un sistema basado en GPU Nvidia H100, a un costo y en un espacio veinte veces menor.
“Mi visión fue crear una tecnología muy diferenciada de lo que se estaba haciendo en IA”, dice el CEO y fundador de Sagence, Vishal Sarin. Incluso cuando la compañía fue fundada en 2018, se “dio cuenta de que el consumo energético sería un obstáculo clave para la adopción masiva de la IA… El problema se ha vuelto muchos, muchos órdenes de magnitud peor a medida que la IA generativa ha causado que los modelos se disparen en tamaño.”
La capacidad principal de ahorro energético de la IA analógica proviene de dos ventajas fundamentales: no tiene que mover datos y utiliza principios básicos de la física para resolver las operaciones matemáticas más importantes del aprendizaje automático.
Ese problema matemático consiste en multiplicar vectores y luego sumar los resultados, denominado operación de multiplicar y acumular. Desde el principio, los ingenieros se dieron cuenta de que dos reglas fundamentales de la ingeniería eléctrica resolvían ese problema más o menos instantáneamente. La Ley de Ohm—el voltaje multiplicado por la conductancia es igual a la corriente—realiza la multiplicación si se utilizan los parámetros de “peso” de la red neuronal como las conductancias. La Ley de Corrientes de Kirchhoff—la suma de las corrientes que entran y salen de un punto es cero—permite sumar fácilmente todas esas multiplicaciones simplemente conectándolas al mismo cable. Y, por último, en la IA analógica, los parámetros de la red neuronal no necesitan ser trasladados de la memoria a los circuitos de computación—esto usualmente implica un costo energético mayor que el propio cálculo—porque ya están incrustados dentro de los circuitos de computación.
Sagence usa celdas de memoria flash como valores de conductancia. El tipo de celda flash que normalmente se usa para almacenamiento de datos es un transistor único que puede albergar 3 o 4 bits, pero Sagence ha desarrollado algoritmos que permiten a las celdas, integradas en sus chips, almacenar 8 bits, que es el nivel clave de precisión para los LLM y otros modelos denominados transformadores. Almacenar un número de 8 bits en un solo transistor en lugar de los 48 transistores que se necesitarían en una celda típica de memoria digital representa un ahorro importante en costo, área y energía, dice Sarin, quien ha trabajado durante 30 años en el almacenamiento de múltiples bits en memoria flash.
Contribuyendo a los ahorros de energía está el hecho de que las celdas flash operan en un estado llamado “subumbral profundo”. Es decir, están trabajando en un estado donde apenas están encendidas, produciendo muy poca corriente. Eso no funcionaría en un circuito digital, porque ralentizaría los cálculos significativamente. Pero como los cálculos analógicos se realizan todos a la vez, esto no afecta la velocidad.
Cuestiones de la IA analógica
Si todo esto suena familiar, debería serlo. En 2018, un trío de startups apostaron por una versión de IA analógica basada en flash. Syntiant eventualmente abandonó el enfoque analógico por un esquema digital que ya ha producido seis chips de fabricación masiva. Mythic se encontró con dificultades pero se mantuvo en este enfoque, al igual que Anaflash. Otros, particularmente IBM Research, han desarrollado chips que se apoyan en memorias no volátiles diferentes al flash, como la memoria de cambio de fase o la RAM resistiva.
Generalmente, la IA analógica ha luchado por alcanzar su potencial, particularmente cuando se escala a un tamaño útil para centros de datos. Entre sus principales dificultades están la variación natural en la conductancia de las celdas; eso podría significar que un mismo número almacenado en dos celdas diferentes resultará en dos conductancias distintas. Peor aún, estas conductancias pueden variar con el tiempo y cambiar con la temperatura. Este ruido interfiere con la señal que representa el resultado, y puede acumularse etapa tras etapa a lo largo de las muchas capas de una red neuronal profunda.
La solución de Sagence, explica Sarin, es un conjunto de celdas de referencia en el chip y un algoritmo propietario que las utiliza para calibrar las demás celdas y rastrear cambios relacionados con la temperatura.
Otra fuente de frustración para aquellos trabajando en IA analógica ha sido la necesidad de digitalizar el resultado del proceso de multiplicar y acumular para entregarlo a la siguiente capa de la red neuronal, donde debe convertirse nuevamente en una señal de voltaje analógico. Cada uno de estos pasos requiere convertidores de analógico a digital y de digital a analógico, que ocupan espacio en el chip y consumen energía.
Según Sarin, Sagence ha desarrollado versiones de bajo consumo de ambos circuitos. Las demandas energéticas del convertidor de digital a analógico se ven reducidas por el hecho de que el circuito solo necesita entregar un rango muy estrecho de voltajes para operar la memoria flash en modo subumbral profundo.
Sistemas y futuro
El primer producto de Sagence, destinado a lanzarse en 2025, estará enfocado en sistemas de visión, que requieren considerablemente menos capacidad que los modelos LLM basados en servidores. “Ese es un producto de salto para nosotros, que será seguido rápidamente por [IA generativa]”, dice Sarin.
El producto de IA generativa se escalaría a partir del chip de visión principalmente apilando verticalmente chiplets analógicos de IA encima de un dado de comunicaciones. Estas pilas estarían conectadas a un dado CPU y a una memoria DRAM de alto ancho de banda en un único paquete llamado Delphi.
En simulaciones, un sistema compuesto por Delphis ejecutaría Llama2-70B a 666,000 tokens por segundo consumiendo 59 kilovatios, frente a los 624 kW necesarios para un sistema basado en Nvidia H100, según afirma Sagence.