Los chatbots impulsados por modelos de lenguaje grandes (LLMs, por sus siglas en inglés) parecen estar en todas partes, desde el servicio al cliente hasta la asistencia en programación. Pero, ¿cómo sabemos si son seguros de usar?
MLCommons, una organización sin fines de lucro centrada en benchmarks de inteligencia artificial, cree tener la respuesta. El 4 de diciembre, lanzó la primera iteración de AILuminate, un benchmark de confianza y seguridad diseñado para evaluar el desempeño de los LLMs más avanzados. Aunque los investigadores de aprendizaje automático han utilizado métricas variables para medir la seguridad de la IA durante años, AILuminate es el primer benchmark de LLM desarrollado por una organización independiente como una colaboración entre expertos de la industria e investigadores en IA.
El benchmark mide la seguridad en el contexto de posibles daños a los usuarios. Prueba los LLMs con solicitudes que un usuario podría enviar a un chatbot y evalúa la respuesta según si podría apoyar al usuario en lastimarse a sí mismo o a otros, un problema que se volvió muy real en 2024. (Y según un informe publicado la semana pasada, las principales empresas de IA obtuvieron calificaciones reprobatorias en lo referente a sus procedimientos de evaluación de riesgos y seguridad.)
“La IA está en un estado en que produce mucha investigación emocionante y algunos titulares aterradores”, dice Peter Mattson, presidente de MLCommons. “Las personas están intentando llegar a un nuevo estado donde la IA entregue mucho valor a través de productos y servicios, pero necesitan una confiabilidad muy alta y un riesgo muy bajo. Eso requiere que aprendamos a medir la seguridad”.
Un gran golpe a un problema difícil
En abril de 2024, IEEE Spectrum publicó una carta del Grupo de Trabajo de Seguridad en IA de MLCommons. Esta plantea los objetivos del grupo, que se formó en 2023, y fue publicada junto con una versión temprana del “AI Safety Benchmarc“, ahora llamado AILuminate. Los contribuyentes del Grupo de Trabajo de Seguridad en IA incluyen representantes de muchas de las empresas de IA más grandes, incluidas Nvidia, OpenAI y Anthropic.
En la práctica, es difícil determinar qué significa que un chatbot sea seguro, dado que las opiniones sobre lo que constituye una respuesta inapropiada o peligrosa pueden variar. Debido a eso, los benchmarks de seguridad actualmente publicados junto con los LLMs suelen citar pruebas desarrolladas internamente que emiten sus propios juicios sobre lo que califica como peligroso. La falta de un benchmark estándar de la industria, a su vez, dificulta saber qué modelo realmente funciona mejor.
“Los benchmarks impulsan la investigación y el estado del arte hacia adelante”, dice Henriette Cramer, cofundadora de la compañía de gestión de riesgos de IA Papermoon.ai. Aunque Cramer dice que los benchmarks son útiles, advirtió que los benchmarks de seguridad de IA son notoriamente difíciles de acertar. “Es necesario entender qué está siendo medido por cada benchmark, qué no lo está, y cuándo son apropiados para usarse”.
Cómo funciona AILuminate
El intento de AILuminate de crear un benchmark estándar de la industria comienza por dividir los riesgos en 12 tipos repartidos en tres categorías: físicos (como crímenes violentos y sexuales), no físicos (como fraudes o discursos de odio) y contextuales (como contenido para adultos).
El benchmark evalúa luego un LLM probándolo con 12,000 indicaciones personalizadas y no publicadas centradas en los riesgos definidos. (MLCommons mantiene las indicaciones privadas para que las empresas no puedan entrenar sus modelos para obtener mejores puntajes.) Las respuestas se envían a un “modelo evaluador de seguridad” que decide si la respuesta fue aceptable o inaceptable. Ejemplos de indicaciones y lo que determina una respuesta aceptable o inaceptable se detallan en la documentación del Estándar de Evaluación de AILuminate. Aunque el juicio realizado sobre cualquier indicación es binario—aceptable o inaceptable—la evaluación general del benchmark es relativa.
Cuatro de las cinco calificaciones del benchmark, que varían de “Pobre” a “Excelente”, se calculan comparando los resultados de un modelo de IA con un “modelo de referencia” derivado de los dos mejores modelos con pesos abiertos con menos de 15 mil millones de parámetros. (Actualmente son Gemma 2 9B y Llama 3.1-8B, pero Mattson dice que esto cambiará en futuras actualizaciones del benchmark a medida que aparezcan modelos abiertos que se desempeñen mejor en seguridad.)
Un modelo que obtenga una calificación de “Muy Bueno”, por ejemplo, tiene “menos de 0.5 [veces] tantas respuestas violatorias como el sistema de referencia”. Solo la calificación más alta, “Excelente“, establece un estándar fijo de menos del 0.1 por ciento de respuestas “violatorias”, un estándar que los modelos actuales están lejos de alcanzar. Si bien el benchmark proporciona un puntaje general, también ofrece puntajes específicos para cada riesgo medido.
Mattson dice que se utiliza un sistema de calificaciones relativo para garantizar que el benchmark siga siendo relevante y fomente la mejora con el tiempo. “Si fuera demasiado fácil, parecería un lavado de cara de la industria. Si fuera demasiado difícil, sería como establecer un estándar de choque automovilístico en el que tienes que chocar contra una pared a 200 millas por hora sin más que un rasguño. A todos nos encantaría ese auto, pero no podemos construirlo todavía”.
Las clasificaciones iniciales del benchmark calificaron a Claude 3.5 Haiku y Sonnet de Anthropic como “Muy Bueno”, mientras que GPT4-o recibió una calificación de “Bueno” y Mistral 8B obtuvo “Regular”.
¿Un Nuevo Estándar?
Mientras que la primera versión de AILuminate ya está disponible, MLCommons ve esto como el inicio de la empresa. AILuminate no solo se usará para probar nuevos modelos, sino que también evolucionará junto con ellos con el tiempo.
“No hemos establecido exactamente la frecuencia de las actualizaciones, pero creo que trimestralmente no es descabellado”, dice Mattson. “Inicialmente, vamos a actualizar incluso un poco más rápido para ofrecer funcionalidad. Por ejemplo, necesitamos soporte multilingüe, por lo que el próximo elemento en la hoja de ruta es agregar soporte para francés”. MLCommons también planea agregar soporte para chino e hindi en 2025.
Estas actualizaciones separan a AILuminate de la mayoría de los esfuerzos por crear benchmarks amplios de seguridad en IA. Otros benchmarks, como ALERT y AgentHarm, también fueron publicados en 2024. Pero aunque han recibido atención, aún no son ampliamente utilizados y carecen de una hoja de ruta clara para actualizaciones.
MLCommons espera una adopción más amplia de AILuminate, ya que cuenta con el beneficio de un apoyo más amplio de la industria a través de su Grupo de Trabajo de Seguridad en IA. Sin embargo, la verdadera prueba será si las empresas integran AILuminate en sus propias pruebas internas y, quizás aún más importante, en su mensajería y marketing públicos.
Actualmente, la documentación publicada con nuevos modelos a menudo se refiere a pruebas internas, las cuales no son directamente comparables. Si las empresas que crean LLMs comienzan a publicar calificaciones de AILuminate el día que lanzan el modelo, eso será una señal positiva para el benchmark.
En cualquier caso, Cramer dice que el lanzamiento de benchmarks como AILuminate es positivo para la industria, no solo por el benchmark en sí, sino también porque anima a quienes trabajan en confianza y seguridad en IA a aprender y mejorar.
“A través de la investigación y la industria, en muchas áreas todavía existe una brecha entre las preocupaciones urgentes y los métodos prácticos para evaluarlas y abordarlas”, dice Cramer. “Lo que es especialmente útil sobre estos tipos de esfuerzos de benchmark es que los profesionales e investigadores de diferentes comunidades profesionales se reúnen e intercambian sus lecciones aprendidas”.