De dónde provienen los datos para construir la IA

La IA gira en torno a los datos. Se necesitan enormes cantidades de datos para entrenar algoritmos que hagan lo que queremos, y lo que se introduce en los modelos de IA determina lo que se obtiene. Pero aquí está el problema: los desarrolladores e investigadores de IA no saben mucho sobre las fuentes de los datos que están utilizando. Las prácticas de recopilación de datos para la IA son inmaduras en comparación con el desarrollo sofisticado de los modelos de IA. Los conjuntos de datos masivos a menudo carecen de información clara sobre qué contienen y de dónde provienen.

La Iniciativa de Procedencia de Datos, un grupo de más de 50 investigadores tanto del ámbito académico como de la industria, quiso solucionar eso. Querían saber, de manera muy simple: ¿De dónde provienen los datos para construir la IA? Auditaron cerca de 4,000 conjuntos de datos públicos que abarcan más de 600 idiomas, 67 países y tres décadas. Los datos provinieron de 800 fuentes únicas y casi 700 organizaciones.

Sus hallazgos, compartidos exclusivamente con MIT Technology Review, muestran una tendencia preocupante: las prácticas de datos de la IA corren el riesgo de concentrar el poder desmesuradamente en las manos de unas pocas empresas tecnológicas dominantes.

En los primeros años de la década de 2010, los conjuntos de datos provenían de una variedad de fuentes, dice Shayne Longpre, un investigador en el MIT que forma parte del proyecto.

No solo provenían de enciclopedias y de la web, sino también de fuentes como transcripciones parlamentarias, llamadas de ganancias y reportes meteorológicos. En ese entonces, los conjuntos de datos de IA se seleccionaban y recopilaban específicamente de diferentes fuentes para adaptarse a tareas individuales, dice Longpre.

Luego, en 2017, se inventaron los transformadores, la arquitectura que sustenta los modelos de lenguaje, y el sector de la IA comenzó a notar que el desempeño mejoraba cuanto más grandes eran los modelos y los conjuntos de datos. Hoy en día, la mayoría de los conjuntos de datos de IA se construyen recopilando material de manera indiscriminada desde internet. Desde 2018, la web se ha convertido en la fuente dominante para los conjuntos de datos utilizados en todos los medios, como audio, imágenes y video, y ha emergido y ampliado una brecha entre los datos recopilados de la web y los datos más curados.

“En el desarrollo de modelos fundacionales, nada parece importar más para las capacidades de los modelos que la escala y la heterogeneidad de los datos y la web”, dice Longpre.

La necesidad de escala también ha impulsado enormemente el uso de datos sintéticos.

En los últimos años también ha habido un auge en los modelos de IA generativa multimodal, los cuales pueden generar videos e imágenes. Al igual que los grandes modelos de lenguaje, necesitan la mayor cantidad de datos posible, y la mejor fuente para eso se ha convertido en YouTube.

Para los modelos de video, como puedes ver en este gráfico, más del 70 % de los datos para los conjuntos de datos de habla e imagen provienen de una sola fuente.

Esto podría ser una ventaja significativa para Alphabet, la empresa matriz de Google, que es propietaria de YouTube. Mientras que los textos están distribuidos en la web y controlados por muchos sitios web y plataformas diferentes, los datos de video están extremadamente concentrados en una sola plataforma.

“Esto le da una enorme concentración de poder sobre muchos de los datos más importantes de la web a una sola empresa”, dice Longpre.

Y debido a que Google también está desarrollando sus propios modelos de IA, su enorme ventaja plantea además interrogantes sobre cómo la empresa pondrá estos datos a disposición de sus competidores, dice Sarah Myers West, la codirectora ejecutiva del Instituto AI Now.

“Es importante pensar en los datos no como si fueran un recurso naturalmente disponible, sino como algo que se crea mediante procesos particulares”, dice Myers West.

“Si los conjuntos de datos con los que se entrena la mayoría de las IA que usamos reflejan las intenciones y el diseño de grandes corporaciones con fines de lucro, eso está remodelando las infraestructuras de nuestro mundo de manera que refleja los intereses de esas grandes corporaciones”, añade.

Esta monocultura también plantea dudas sobre qué tan precisamente se retrata la experiencia humana en los conjuntos de datos y qué tipo de modelos estamos construyendo, dice Sara Hooker, vicepresidenta de investigación de la empresa tecnológica Cohere, quien también forma parte de la Iniciativa de Procedencia de Datos.

Las personas suben videos a YouTube con una audiencia específica en mente, y la forma en que actúan en esos videos a menudo está destinada a causar un efecto muy específico.

“¿[Los datos] capturan todas las sutilezas de la humanidad y todas las formas en que existimos?”, pregunta Hooker.

Restricciones ocultas

Las empresas de IA no suelen compartir qué datos usaron para entrenar sus modelos. Una razón es que quieren proteger su ventaja competitiva. Otra es que, debido a la forma compleja y opaca en que los conjuntos de datos son combinados, empaquetados y distribuidos, probablemente ni siquiera sepan de dónde provienen todos los datos.

También es probable que no tengan información completa sobre las restricciones que rigen cómo deben usarse o compartirse esos datos. Los investigadores de la Iniciativa de Procedencia de Datos encontraron que los conjuntos de datos a menudo tienen licencias restrictivas o términos asociados a ellos que deberían limitar su uso con fines comerciales, por ejemplo.

“Esta falta de consistencia a lo largo del linaje de los datos dificulta mucho que los desarrolladores tomen la decisión correcta sobre qué datos usar”, dice Hooker.

También hace casi imposible estar totalmente seguro de que no has entrenado tu modelo con datos con derechos de autor, añade Longpre.

Más recientemente, empresas como OpenAI y Google han establecido acuerdos exclusivos para compartir datos con editores, foros importantes como Reddit y plataformas de redes sociales en la web. Pero esto se convierte en otra forma de concentrar su poder.

“Estos contratos exclusivos pueden dividir internet en varias zonas de quién puede acceder a ella y quién no”, dice Longpre.

La tendencia beneficia a los grandes actores de la IA, que pueden permitirse tales acuerdos, a expensas de los investigadores, las organizaciones sin fines de lucro y las empresas más pequeñas, que tendrán dificultades para obtener acceso. Las empresas más grandes también tienen los mejores recursos para rastrear conjuntos de datos.

“Esta es una nueva ola de acceso asimétrico que no habíamos visto en esta magnitud en la web abierta”, dice Longpre.

El Occidente vs. el resto

Los datos que se utilizan para entrenar modelos de IA también están fuertemente sesgados hacia el mundo occidental. Más del 90 % de los conjuntos de datos que los investigadores analizaron provienen de Europa y América del Norte, y menos del 4 % provienen de África.

“Estos conjuntos de datos reflejan una parte de nuestro mundo y nuestra cultura, pero omiten por completo otras”, dice Hooker.

El predominio del idioma inglés en los datos de entrenamiento se explica en parte porque internet sigue siendo más del 90 % en inglés, y aún hay muchos lugares en el mundo donde la conexión a internet es muy pobre o inexistente, dice Giada Pistilli, principal ética en Hugging Face, quien no formaba parte del equipo de investigación. Pero otra razón es la conveniencia, añade: elaborar conjuntos de datos en otros idiomas y considerar otras culturas requiere intención consciente y mucho trabajo.

El enfoque occidental de estos conjuntos de datos se hace particularmente claro con los modelos multimodales. Cuando se solicita a un modelo de IA que represente las imágenes y sonidos de una boda, por ejemplo, podría ser capaz de representar solo bodas occidentales, porque es lo único con lo que ha sido entrenado, dice Hooker.

Esto refuerza los sesgos y podría llevar a modelos de IA que impulsen una visión del mundo centrada en EE. UU., borrando otros idiomas y culturas.

“Estamos usando estos modelos en todo el mundo, y hay una discrepancia masiva entre el mundo que vemos y lo que es invisible para estos modelos”, dice Hooker.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Scroll al inicio