Los humanos cometemos errores todo el tiempo. Todos lo hacemos, cada día, en tareas tanto nuevas como rutinarias. Algunos de nuestros errores son menores y otros son catastróficos. Los errores pueden romper la confianza con nuestros amigos, hacer que perdamos la confianza de nuestros jefes y, a veces, marcar la diferencia entre la vida y la muerte.
A lo largo de los milenios, hemos creado sistemas de seguridad para lidiar con los tipos de errores que los humanos comúnmente cometemos. Hoy en día, los casinos rotan a sus crupieres regularmente porque cometen errores si realizan la misma tarea por demasiado tiempo. El personal hospitalario escribe en las extremidades antes de una cirugía para que los médicos operen en la parte correcta del cuerpo, y contabilizan los instrumentos quirúrgicos para asegurarse de que ninguno quede dentro del cuerpo. Desde la corrección de textos hasta la contabilidad por partida doble y los tribunales de apelación, los humanos hemos perfeccionado enormemente los métodos para corregir errores humanos.
La humanidad ahora está integrando rápidamente un tipo completamente diferente de creador de errores en la sociedad: la inteligencia artificial (IA). Tecnologías como los modelos de lenguaje extenso (LLMs, por sus siglas en inglés) pueden llevar a cabo muchas tareas cognitivas que tradicionalmente realizaban los humanos, pero cometen bastantes errores. Parece ridículo cuando los chatbots te dicen que comas piedras o que pongas pegamento en una pizza. Pero no es la frecuencia ni la gravedad de los errores de los sistemas de IA lo que los diferencia de los errores humanos. Es su rareza. Los sistemas de IA no cometen errores de la misma manera que los humanos.
Gran parte de la fricción —y el riesgo— asociados con nuestro uso de la IA surge de esa diferencia. Necesitamos inventar nuevos sistemas de seguridad que se adapten a estas diferencias y eviten los daños derivados de los errores de la IA.
Errores humanos frente a errores de la IA
La experiencia de vida hace que sea relativamente fácil para cada uno de nosotros adivinar cuándo y dónde los humanos cometerán errores. Los errores humanos tienden a surgir en los límites del conocimiento de una persona: La mayoría de nosotros cometeríamos errores resolviendo problemas de cálculo. Esperamos que los errores humanos se agrupen: Un solo error en cálculo probablemente estará acompañado por otros. Esperamos que los errores aumenten o disminuyan de manera predecible dependiendo de factores como la fatiga y la distracción. Y los errores a menudo están acompañados de ignorancia: Alguien que comete errores de cálculo también es probable que responda”.no s”. a preguntas relacionadas con cálculo.
En la medida en que los sistemas de IA cometan estos errores similares a los humanos, podemos aplicar todos nuestros sistemas de corrección de errores a su producción. Pero la actual generación de modelos de IA —particularmente los LLM— cometen errores de manera diferente.
Los errores de IA ocurren en momentos aparentemente aleatorios, sin agruparse alrededor de temas particulares. Los errores de los LLM tienden a estar más distribuidos equitativamente a lo largo del espacio de conocimiento. Un modelo podría ser igualmente propenso a cometer un error en una pregunta de cálculo como a proponer que los repollos comen cabras.
Y los errores de la IA no están acompañados de ignorancia. Un LLM estará igual de seguro al decir algo completamente erróneo —y obviamente incorrecto para un humano— que al decir algo verdadero. La aparente inconsistencia de los LLM hace que sea difícil confiar en su razonamiento en problemas complejos de múltiples pasos. Si deseas usar un modelo de IA para ayudar con un problema empresarial, no basta con ver que entiende qué factores hacen que un producto sea rentable; necesitas estar seguro de que no olvidará qué es el dinero.
Cómo lidiar con los errores de la IA
Esta situación indica dos posibles áreas de investigación. La primera es diseñar LLMs que cometan errores más similares a los humanos. La segunda es construir nuevos sistemas de corrección de errores que aborden los tipos específicos de errores que tienden a cometer los LLM.
Ya contamos con algunas herramientas para conducir a los LLM a comportarse de maneras más parecidas a las humanas. Muchas de estas surgen del campo de investigación denominado “alineación”, que busca hacer que los modelos actúen en concordancia con los objetivos y motivaciones de sus desarrolladores humanos. Un ejemplo es la técnica que fue probablemente responsable del éxito revolucionario de ChatGPT: el aprendizaje por refuerzo con retroalimentación humana. En este método, un modelo de IA es (figurativamente) recompensado por generar respuestas que reciben un pulgar arriba de los evaluadores humanos. Enfoques similares podrían emplearse para inducir a los sistemas de IA a cometer errores más comprensibles, particularmente penalizándolos más por errores que son menos inteligibles.
Cuando se trata de atrapar errores de la IA, algunos de los sistemas que utilizamos para prevenir errores humanos serán útiles. En cierta medida, obligar a los LLM a revisar su propio trabajo puede ayudar a prevenir errores. Pero los LLM también pueden inventar explicaciones aparentemente plausibles, pero verdaderamente ridículas, acerca de sus lapsos de razonamiento.
Otros sistemas de mitigación de errores para la IA son diferentes de cualquier cosa que usamos para los humanos. Debido a que las máquinas no se cansan ni se frustran de la manera en que lo hacen los humanos, puede ayudar preguntar a un LLM la misma pregunta repetidamente de formas ligeramente distintas y luego sintetizar sus múltiples respuestas. Los humanos no tolerarían ese tipo de repetición molesta, pero las máquinas sí.
Comprendiendo las similitudes y diferencias
Los investigadores aún están luchando por entender dónde divergen los errores de los LLM de los de los humanos. Parte de lo extraño de la IA es, en realidad, más similar al comportamiento humano de lo que parece al principio. Cambios pequeños en una consulta a un LLM pueden resultar en respuestas completamente diferentes, un problema conocido como sensibilidad al prompt. Pero, como cualquier investigador de encuestas puede decirte, los humanos también se comportan de esta manera. La formulación de una pregunta en una encuesta de opinión puede tener impactos drásticos en las respuestas.
Los LLM también parecen tener un sesgo hacia repetir las palabras que fueron más comunes en sus datos de entrenamiento; por ejemplo, adivinar nombres de lugares familiares como “América” incluso cuando se les pregunta sobre ubicaciones más exóticas. Tal vez esto sea un ejemplo de la heurística de la “disponibilidad” humana manifestándose en los LLM, con las máquinas generando lo primero que les viene a la mente en lugar de razonar la pregunta. Y, como los humanos, tal vez, algunos LLM parecen distraerse a la mitad de documentos largos; son mejores recordando hechos del principio y el final. Ya hay avances para mejorar este modo de error, ya que los investigadores han descubierto que los LLM entrenados con más ejemplos de recuperación de información en textos largos parecen hacerlo mejor de manera uniforme.
En algunos casos, lo que es extraño acerca de los LLM es que actúan más como humanos de lo que creemos que deberían. Por ejemplo, algunos investigadores han probado la hipótesis de que los LLM funcionan mejor cuando se les ofrece una recompensa en efectivo o se les amenaza con “muerte”. También resulta que algunos de los mejores métodos para “liberar” o “desbloquear” LLMs (logrando que desobedezcan las instrucciones explícitas de sus creadores) se parecen mucho a los trucos de ingeniería social que los humanos usamos entre nosotros: por ejemplo, fingir ser otra persona o decir que la solicitud “es solo una broma.” Pero otras técnicas efectivas de desbloqueo son cosas en las que ningún humano jamás caerá. Un grupo descubrió que si usaban arte ASCII (construcciones de símbolos que parecen palabras o imágenes) para hacer preguntas peligrosas, como cómo construir una bomba, el LLM las respondía de buena gana.
Los humanos pueden ocasionalmente cometer errores aparentemente aleatorios, incomprensibles e inconsistentes, pero tales ocurrencias son raras y a menudo indicativas de problemas más serios. Tampoco solemos asignar a personas que presentan estos comportamientos posiciones de toma de decisiones. Del mismo modo, deberíamos limitar los sistemas de toma de decisiones de IA a aplicaciones que se ajusten a sus capacidades reales, mientras mantenemos en mente las posibles ramificaciones de sus errores.