Investigadores de NYU desarrollan un nuevo método para detectar deepfakes en tiempo real

Los deepfakes, videos y audios hiperrealistas creados con inteligencia artificial, representan una creciente amenaza en el mundo digital actual. Al manipular o fabricar contenido para que parezca auténtico, los deepfakes pueden ser utilizados para engañar a los espectadores, difundir desinformación y dañar reputaciones. Su mal uso abarca desde propaganda política y manipulación social hasta robo de identidad y ciberdelincuencia.

A medida que la tecnología de deepfakes se vuelve más avanzada y accesible, el riesgo de daño social se incrementa. Estudiar los deepfakes es crucial para desarrollar métodos de detección, generar conciencia y establecer marcos legales que mitiguen el daño que pueden causar en esferas personales, profesionales y globales. Comprender los riesgos asociados a los deepfakes y su impacto potencial será necesario para preservar la confianza en los medios y la comunicación digital.

Es aquí donde entra en juego Chinmay Hegde, Profesor Asociado de Ciencias e Ingeniería de la Computación e Ingeniería Eléctrica y de Computadoras en NYU Tandon.

foto de hombre riendo con gafasChinmay Hegde, Profesor Asociado de Ciencias e Ingeniería de la Computación e Ingeniería Eléctrica y de Computadoras en NYU Tandon, está desarrollando sistemas de desafío-respuesta para detectar deepfakes de audio y video.NYU Tandon

“En términos generales, estoy interesado en la seguridad de la IA en todas sus formas. Y cuando una tecnología como la IA se desarrolla tan rápidamente, y mejora tan rápido, se convierte en un área propicia para la explotación por parte de personas con malas intenciones”, comentó Hegde.

Nativo de India, Hegde ha vivido en diversos lugares del mundo, incluyendo Houston, Texas, donde pasó varios años como estudiante en la Universidad de Rice; Cambridge, Massachusetts, donde realizó trabajo postdoctoral en el grupo de Teoría de Computación (TOC) del MIT; y Ames, Iowa, donde ocupó un puesto de profesor en el Departamento de Ingeniería Eléctrica y de Computadoras de la Universidad Estatal de Iowa.

Hegde, cuyo campo de especialización es el procesamiento de datos y el aprendizaje automático, enfoca su investigación en desarrollar algoritmos rápidos, robustos y verificables para diversos problemas de procesamiento de datos en aplicaciones que abarcan desde imagen y visión por computadora hasta transporte y diseño de materiales. En Tandon, trabajó junto al Profesor de Ciencias e Ingeniería de la Computación Nasir Memon, quien despertó su interés en los deepfakes.

“Hace apenas seis años, la tecnología de IA generativa era muy rudimentaria. Una vez, uno de mis estudiantes mostró cómo el modelo podía generar un círculo blanco sobre un fondo oscuro, y todos quedamos impresionados en ese momento. Ahora tienes deepfakes de alta definición de Taylor Swift, Barack Obama, el Papa… es asombroso lo lejos que ha llegado esta tecnología. Mi opinión es que probablemente seguirá mejorando desde aquí”, dijo.

Hegde ayudó a liderar un equipo de investigación de la NYU Tandon School of Engineering que desarrolló un nuevo enfoque para combatir la creciente amenaza de los deepfakes en tiempo real (RTDF, por sus siglas en inglés): audios y videos falsos generados por inteligencia artificial capaces de imitar a personas reales convincentemente durante videollamadas y llamadas de voz en tiempo real.

Ya se han reportado incidentes de fraude con deepfakes, incluido un reciente caso de estafa de $25 millones utilizando videos falsos, lo cual subraya la clara necesidad de contramedidas efectivas.

En dos artículos separados, los equipos de investigación demuestran cómo las técnicas de “desafío-respuesta” pueden explotar las limitaciones inherentes de los actuales pipelines de generación de RTDF, causando degradaciones en la calidad de las imitaciones que revelan su falsedad.

En un artículo titulado “GOTCHA: Real-Time Video Deepfake Detection via Challenge-Response,” los investigadores desarrollaron un conjunto de ocho desafíos visuales diseñados para alertar a los usuarios cuando no están interactuando con una persona real.

“La mayoría de las personas están familiarizadas con CAPTCHA, el sistema en línea de desafío-respuesta que verifica si son humanos reales. Nuestro enfoque refleja esa tecnología, esencialmente haciendo preguntas o solicitudes que los RTDF no pueden responder de manera adecuada”, dijo Hegde, quien lideró la investigación en ambos artículos.

imagenes de caras de personas en filas y columnas
Cuadro de desafío de videos originales y deepfakes. Cada fila alinea las salidas frente a la misma instancia del desafío, mientras que cada columna alinea el mismo método de deepfake. Las barras verdes son una metáfora del puntaje de fidelidad. Las barras faltantes implican que el deepfake específico no logró superar ese desafío.NYU Tandon

El equipo de investigación de video creó un conjunto de datos de 56,247 videos de 47 participantes, evaluando desafíos como movimientos de cabeza y ocultar deliberadamente partes del rostro. Evaluadores humanos alcanzaron una puntuación AUC (Área Bajo la Curva) de aproximadamente 89 por ciento para detectar deepfakes (más del 80 por ciento se considera excelente), mientras que los modelos de aprendizaje automático lograron aproximadamente el 73 por ciento.

“Desafíos como mover rápidamente una mano frente al rostro, hacer expresiones faciales dramáticas o cambiar la iluminación son simples para los humanos reales, pero muy difíciles para los sistemas de deepfakes actuales de replicar de manera convincente en tiempo real”, dijo Hegde.

Desafíos de audio para la detección de deepfakes

En otro artículo llamado “AI-assisted Tagging of Deepfake Audio Calls using Challenge-Response,” los investigadores crearon una taxonomía de 22 desafíos de audio en varias categorías. Algunos de los más efectivos incluyeron susurrar, hablar con la mano “ahuecada” sobre la boca, usar un tono alto, pronunciar palabras extranjeras y hablar con música o discursos de fondo.

“Incluso los sistemas de clonación de voz más avanzados tienen dificultades para mantener la calidad cuando se les solicita realizar estas tareas vocales inusuales de forma espontánea”, dijo Hegde. “Por ejemplo, susurrar o hablar en un tono inusualmente alto puede degradar significativamente la calidad de los deepfakes de audio.”

El estudio de audio involucró a 100 participantes y más de 1.6 millones de muestras de audio falsas. Se utilizaron tres escenarios de detección: humanos solos, IA sola y un enfoque colaborativo humano-IA. Los evaluadores humanos lograron aproximadamente un 72 por ciento de precisión en la detección, mientras que la IA sola tuvo un mejor desempeño con un 85 por ciento de precisión.

El enfoque colaborativo, donde los humanos tomaron juicios iniciales y podían modificarlos después de ver las predicciones de la IA, alcanzó aproximadamente un 83 por ciento de precisión. Este sistema colaborativo también permitió que la IA tomara decisiones finales en casos donde los humanos estuvieron inseguros.

“La clave es que estas tareas son fáciles y rápidas para las personas reales, pero difíciles de falsificar en tiempo real para la IA” —Chinmay Hegde, NYU Tandon

Los investigadores enfatizan que sus técnicas están diseñadas para ser prácticas en el mundo real, con la mayoría de los desafíos tomando solo segundos en completarse. Un desafío típico de video podría implicar un gesto rápido con la mano o una expresión facial, mientras que un desafío de audio podría ser tan simple como susurrar una oración corta.

“La clave es que estas tareas son fáciles y rápidas para las personas reales, pero difíciles de falsificar en tiempo real para la IA”, dijo Hegde. “También podemos aleatorizar los desafíos y combinar múltiples tareas para mayor seguridad.”

A medida que la tecnología de deepfakes sigue avanzando, los investigadores planean perfeccionar sus conjuntos de desafíos y explorar formas de hacer la detección aún más robusta. Están particularmente interesados en desarrollar desafíos “compuestos” que combinen múltiples tareas simultáneamente.

“Nuestro objetivo es proporcionar a las personas herramientas confiables para verificar con quién están hablando en línea, sin interrumpir las conversaciones normales”, dijo Hegde. “A medida que la IA mejora en crear falsificaciones, necesitamos mejorar en detectarlas. Estos sistemas de desafío-respuesta son un paso prometedor en esa dirección.”

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Scroll al inicio