Los chips más nuevos de Google y Nvidia aceleran el entrenamiento de IA

Nvidia, Oracle, Google, Dell y otras 13 compañías informaron cuánto tiempo tardan sus computadoras en entrenar las redes neuronales clave en uso hoy en día. Entre esos resultados se incluyó la primera mirada al próximo GPU de Nvidia de próxima generación, el B200, y el próximo acelerador de Google, llamado Trillium. El B200 logró duplicar el rendimiento en algunas pruebas en comparación con el chip actual más utilizado de Nvidia, el H100. Y Trillium ofreció un aumento de casi cuatro veces en comparación con el chip que Google probó en 2023.

Las pruebas de referencia, llamadas MLPerf v4.1, consisten en seis tareas: recomendaciones, el pre-entrenamiento de los grandes modelos de lenguaje (LLM) GPT-3 y BERT-large, el ajuste fino del Llama 2 70B, detección de objetos, clasificación de nodos de grafos y generación de imágenes.

Entrenar GPT-3 es una tarea tan enorme que sería poco práctico completarla solo para una prueba de referencia. En su lugar, la prueba consiste en entrenarlo hasta un punto que los expertos han determinado que probablemente alcance el objetivo si el entrenamiento continuase. Para Llama 2 70B, el objetivo no es entrenar el LLM desde cero, sino tomar un modelo ya entrenado y ajustarlo para que se especialice en un área particular—en este caso, documentos gubernamentales. La clasificación de nodos de grafos es un tipo de aprendizaje automático utilizado en la detección de fraudes y el descubrimiento de fármacos.

A medida que lo que es importante en inteligencia artificial ha evolucionado, principalmente hacia el uso de IA generativa, el conjunto de pruebas ha cambiado. Esta última versión de MLPerf marca un cambio completo en lo que se prueba desde que comenzó el esfuerzo de referencia. “En este punto, todas las pruebas originales han sido eliminadas”, dice David Kanter, quien lidera el esfuerzo de referencia en MLCommons. En la ronda anterior, algunas de las pruebas se completaban en apenas segundos.

gráfica
El rendimiento de los mejores sistemas de aprendizaje automático en varias pruebas ha superado lo que cabría esperar si las mejoras fueran únicamente resultado de la Ley de Moore [línea azul]. Las líneas continuas representan pruebas actuales. Las líneas punteadas representan pruebas que ahora han sido retiradas, porque ya no son industrialmente relevantes. MLCommons

De acuerdo con los cálculos de MLPerf, el entrenamiento de IA en la nueva suite de pruebas está mejorando aproximadamente al doble del ritmo esperado según la Ley de Moore. A medida que han pasado los años, los resultados se han estabilizado más rápidamente que al inicio del predominio de MLPerf. Kanter atribuye esto principalmente al hecho de que las empresas han descubierto cómo realizar las pruebas de referencia en sistemas muy grandes. Con el tiempo, Nvidia, Google y otras han desarrollado tecnología de software y redes que permite un escalado casi lineal—duplicar los procesadores reduce el tiempo de entrenamiento aproximadamente a la mitad.

Primeros resultados de entrenamiento de Nvidia Blackwell

Esta ronda marcó las primeras pruebas de entrenamiento para la próxima arquitectura de GPU de Nvidia, llamada Blackwell. Para el entrenamiento GPT-3 y el ajuste de LLM, Blackwell (B200) aproximadamente duplicó el rendimiento del H100 por GPU. Las ganancias fueron un poco menos pronunciadas pero aún sustanciales en sistemas de recomendación y generación de imágenes—64 % y 62 %, respectivamente.

La arquitectura Blackwell, representada en la GPU Nvidia B200, continúa con una tendencia hacia el uso de números cada vez menos precisos para acelerar la IA. En ciertas partes de las redes neuronales transformadoras como ChatGPT, Llama2 y Stable Diffusion, las Nvidia H100 y H200 usan números flotantes de 8 bits. El B200 reduce esto a solo 4 bits.

Google presenta hardware de 6ta generación

Google mostró los primeros resultados de su sexta generación de TPU, llamada Trillium, que reveló apenas el mes pasado, y una segunda ronda de resultados para su variante de quinta generación, la Cloud TPU v5p. En la edición de 2023, el gigante de las búsquedas presentó una variante diferente de la TPU de quinta generación, v5e, diseñada más para eficiencia que para rendimiento. En comparación con esta última, Trillium ofrece hasta un aumento de rendimiento de 3.8 veces en la tarea de entrenamiento de GPT-3.

Pero en comparación con el rival de todos, Nvidia, las cosas no fueron tan favorables. Un sistema compuesto por 6,144 TPU v5ps alcanzó el punto de referencia de entrenamiento de GPT-3 en 11.77 minutos, ubicándose muy lejos del sistema de 11,616 Nvidia H100, que logró la tarea en alrededor de 3.44 minutos. Ese sistema de TPU superior fue solo unos 25 segundos más rápido que una computadora H100 de la mitad de su tamaño.

Una computadora de Dell Technologies ajustó el modelo de lenguaje Llama 2 70B utilizando aproximadamente 75 centavos en electricidad.

En la comparación más directa entre v5p y Trillium, con cada sistema compuesto por 2048 TPUs, el futuro Trillium redujo solidamente 2 minutos del tiempo de entrenamiento de GPT-3, una mejora de casi un 8 % sobre los 29.6 minutos de v5p. Otra diferencia entre las entradas Trillium y v5p es que Trillium está emparejado con CPUs AMD Epyc en lugar de los Xeons de Intel utilizados por el v5p.

Google también entrenó el generador de imágenes, Stable Diffusion, con la Cloud TPU v5p. Con 2.6 mil millones de parámetros, Stable Diffusion es lo suficientemente ligero como para que los competidores de MLPerf deban entrenarlo hasta su convergencia en lugar de solo hasta un punto de referencia, como con GPT-3. Un sistema de 1024 TPUs ocupó el segundo lugar, completando la tarea en 2 minutos y 26 segundos, alrededor de un minuto detrás de un sistema del mismo tamaño compuesto por Nvidia H100s.


Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Scroll al inicio