La próxima generación de redes neuronales podría vivir en el hardware

Las redes programadas directamente en el hardware de los chips de computadora pueden identificar imágenes más rápidamente y usar mucha menos energía que las redes neuronales tradicionales que sustentan la mayoría de los sistemas de IA modernos. Eso es según un trabajo presentado la semana pasada en una conferencia líder de aprendizaje automático en Vancouver.

Las redes neuronales, desde GPT-4 hasta Stable Diffusion, se construyen conectando perceptrones, que son simulaciones altamente simplificadas de las neuronas en nuestros cerebros. En cantidades muy grandes, los perceptrones son poderosos, pero también consumen enormes volúmenes de energía, tanto que Microsoft ha firmado un acuerdo que reabrirá Three Mile Island para impulsar sus avances en IA.

Parte del problema es que los perceptrones son solo abstracciones de software: ejecutar una red de perceptrones en una GPU requiere traducir esa red al lenguaje del hardware, lo que lleva tiempo y energía. Construir una red directamente a partir de componentes de hardware elimina muchos de esos costos. Algún día, incluso podrían integrarse directamente en los chips utilizados en teléfonos inteligentes y otros dispositivos, reduciendo drásticamente la necesidad de enviar datos hacia y desde los servidores.

Felix Petersen, quien realizó este trabajo como investigador postdoctoral en la Universidad de Stanford, tiene una estrategia para lograrlo. Diseñó redes compuestas de compuertas lógicas, que son algunos de los componentes básicos de los chips de computadora. Formadas por unos pocos transistores cada una, las compuertas lógicas aceptan dos bits—1s o 0s—como entradas y, según una regla determinada por su patrón específico de transistores, producen un solo bit como salida. Al igual que los perceptrones, las compuertas lógicas pueden encadenarse en redes. Y ejecutar redes de compuertas lógicas es barato, rápido y fácil: en su charla en la conferencia Neural Information Processing Systems (NeurIPS), Petersen dijo que consumen menos energía que las redes de perceptrones por un factor de cientos de miles.

Las redes de compuertas lógicas no tienen un rendimiento tan bueno como las redes neuronales tradicionales en tareas como el etiquetado de imágenes. Pero la velocidad y eficiencia del enfoque lo hacen prometedor, según Zhiru Zhang, profesor de ingeniería eléctrica y de computación en la Universidad de Cornell.

“Si podemos cerrar la brecha, esto podría potencialmente abrir muchas posibilidades en este lado del aprendizaje automático”, dice.

Petersen no estaba buscando específicamente formas de construir redes de IA energéticamente eficientes. Llegó a las compuertas lógicas a través de un interés en las “relajaciones diferenciables” o estrategias para manejar ciertas clases de problemas matemáticos en una forma que el cálculo pueda resolver.

“En realidad, comenzó como una curiosidad matemática y metodológica”, dice.

La retropropagación, el algoritmo de entrenamiento que hizo posible la revolución del aprendizaje profundo, fue un caso de uso obvio para este enfoque. Debido a que la retropropagación funciona con cálculo, no puede usarse directamente para entrenar redes de compuertas lógicas. Las compuertas lógicas solo funcionan con 0s y 1s, y el cálculo requiere respuestas sobre todas las fracciones intermedias. Petersen ideó una forma de “relajar” las redes de compuertas lógicas lo suficiente como para que la retropropagación funcione, creando funciones que trabajan como compuertas lógicas en 0s y 1s pero que también dan respuestas para valores intermedios. Corrió redes simuladas con esas compuertas a través del entrenamiento y luego convirtió la red relajada de compuertas lógicas en algo que podría implementar en el hardware de una computadora.

Un desafío con este enfoque es que entrenar las redes relajadas es difícil. Cada nodo en la red podría terminar siendo cualquiera de 16 diferentes compuertas lógicas, y las 16 probabilidades asociadas con cada una de esas compuertas deben ser rastreadas y ajustadas continuamente. Eso lleva una enorme cantidad de tiempo y energía—durante su charla en NeurIPS, Petersen dijo que entrenar sus redes toma cientos de veces más tiempo que entrenar redes neuronales convencionales en GPUs. En universidades, que no pueden permitirse reunir cientos de miles de GPUs, esa cantidad de tiempo de GPU puede ser difícil de conseguir—Petersen desarrolló estas redes, en colaboración con sus colegas, en la Universidad de Stanford y la Universidad de Konstanz.

“Definitivamente hace que la investigación sea tremendamente difícil”, dice.

Sin embargo, una vez que la red ha sido entrenada, todo se vuelve mucho, mucho más barato. Petersen comparó sus redes de compuertas lógicas con un grupo de otras redes ultra eficientes, como las redes neuronales binarias, que utilizan perceptrones simplificados que solo pueden procesar valores binarios. Las redes de compuertas lógicas funcionaron tan bien como estos otros métodos eficientes al clasificar imágenes en el conjunto de datos CIFAR-10, que incluye 10 categorías diferentes de imágenes de baja resolución, desde “rana” hasta “camión”. Lograron esto con menos de una décima parte de las compuertas lógicas requeridas por esos otros métodos, y en menos de una milésima parte del tiempo. Petersen probó sus redes usando chips de computadora programables llamados FPGAs, que pueden usarse para emular muchos patrones potenciales de compuertas lógicas; implementar las redes en chips no programables ASIC reduciría aún más los costos, ya que los chips programables necesitan usar más componentes para lograr su flexibilidad.

Farinaz Koushanfar, profesora de ingeniería eléctrica y de computación en la Universidad de California, San Diego, dice que no está convencida de que las redes de compuertas lógicas puedan rendir frente a problemas más realistas.

“Es una idea curiosa, pero no estoy segura de qué tan bien escala”, dice.

Señala que las redes de compuertas lógicas solo pueden entrenarse de manera aproximada, a través de la estrategia de relajación, y las aproximaciones pueden fallar. Eso no ha causado problemas hasta ahora, pero Koushanfar dice que podría resultar más problemático a medida que las redes crezcan.

No obstante, Petersen es ambicioso. Planea seguir empujando las capacidades de sus redes de compuertas lógicas, y espera, eventualmente, crear lo que él llama un “modelo fundacional de hardware”. Una poderosa red de compuertas lógicas de propósito general para visión podría producirse en masa directamente en chips de computadora, y esos chips podrían integrarse en dispositivos como teléfonos y computadoras personales. Eso podría traer enormes beneficios energéticos, dice Petersen. Si esas redes pudieran reconstruir de manera efectiva fotos y videos a partir de información de baja resolución, por ejemplo, entonces se necesitaría enviar mucho menos data entre servidores y dispositivos personales.

Petersen reconoce que las redes de compuertas lógicas nunca competirán con las redes neuronales tradicionales en términos de rendimiento, pero ese no es su objetivo. Hacer algo que funcione y que sea lo más eficiente posible debería ser suficiente.

No será el mejor modelo”, dice. “Pero debería ser el más barato”.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Scroll al inicio