Audífonos con IA crean conos de silencio

Es una experiencia que todos hemos tenido: ya sea poniéndonos al día con un amigo durante una cena en un restaurante, conociendo a una persona interesante en una fiesta de cóctel o llevando a cabo una reunión en medio del bullicio de la oficina, nos encontramos teniendo que gritar por encima del ruido de fondo y la charla general. El oído humano y el cerebro no son especialmente buenos para identificar fuentes separadas de sonido en un entorno ruidoso y centrarse en una conversación en particular. Esta capacidad se deteriora aún más con la pérdida de audición, que se está volviendo más común a medida que las personas viven más tiempo, lo que puede llevar al aislamiento social.

Sin embargo, un equipo de investigadores de la Universidad de Washington, Microsoft, y Assembly AI han demostrado recientemente que la IA puede superar a los humanos en la tarea de aislar fuentes de sonido para crear una zona de silencio. Esta burbuja de sonido permite a las personas dentro de un radio de hasta 2 metros conversar con una interferencia enormemente reducida de otros hablantes o ruido fuera de la zona.

El grupo, liderado por el profesor de la Universidad de Washington Shyam Gollakota, tiene como objetivo combinar la IA con hardware para aumentar las capacidades humanas. Esto es diferente, dice Gollakota, de trabajar con recursos computacionales enormes como los que emplea ChatGPT; más bien, el desafío es crear aplicaciones útiles de IA dentro de los límites de las restricciones de hardware, particularmente para uso móvil o wearable. Gollakota ha pensado durante mucho tiempo que lo que se ha llamado el”.problema de la fiesta de cócte”. es un problema generalizado donde este enfoque podría ser factible y beneficioso.

Actualmente, los audífonos con cancelación de ruido disponibles en el mercado suprimen el ruido de fondo pero no compensan las distancias a las fuentes de sonido u otros problemas como las reverberaciones en espacios cerrados. Sin embargo, estudios previos han demostrado que las redes neuronales logran una mejor separación de las fuentes de sonido que el procesamiento de señales convencional. Basándose en este hallazgo, el grupo de Gollakota diseñó un sistema integrado de hardware e IA”.audibl”. que analiza los datos de audio para identificar claramente las fuentes de sonido dentro y fuera de un tamaño de burbuja designado. El sistema luego suprime los sonidos extraños en tiempo real, de modo que no hay un retraso perceptible entre lo que los usuarios escuchan y lo que ven al observar a la persona que está hablando.

La parte de audio del sistema es un auricular comercial con cancelación de ruido que cuenta con hasta seis micrófonos que detectan sonidos cercanos y más distantes, proporcionando datos para el análisis de la red neuronal. Las redes personalizadas determinan las distancias a las fuentes de sonido y cuál de ellas está dentro de un radio de burbuja programable de 1 metro, 1.5 metros o 2 metros. Estas redes fueron entrenadas con datos tanto simulados como del mundo real, tomados en 22 habitaciones de tamaños variados y cualidades de absorción de sonido con diferentes combinaciones de sujetos humanos. El algoritmo se ejecuta en un CPU pequeño integrado, ya sea el Orange Pi o Raspberry Pi, y envía los datos procesados de vuelta a los auriculares en milisegundos, lo suficientemente rápido como para mantener la audición y la visión sincronizadas.

Escucha la diferencia entre una conversación con el auricular con cancelación de ruido activado y desactivado. Malek Itani y Tuochao Chen/Paul G. Allen School/University of Washington

El algoritmo en este prototipo redujo el volumen de sonido fuera de la burbuja vacía en 49 decibelios, a aproximadamente 0.001 por ciento de la intensidad registrada dentro de la burbuja. Incluso en nuevos entornos acústicos y con diferentes usuarios, el sistema funcionó bien para hasta dos hablantes dentro de la burbuja y uno o dos interferentes externos, incluso si estos últimos eran más ruidosos. También acomodó la llegada de un nuevo hablante dentro de la burbuja.

No es difícil imaginar aplicaciones del sistema en dispositivos personalizables de cancelación de ruido, especialmente donde se necesite una comunicación verbal clara y sin esfuerzo en un entorno ruidoso. Los peligros del aislamiento social son bien conocidos, y una tecnología diseñada específicamente para mejorar la comunicación interpersonal podría ayudar. Gollakota cree que hay valor en simplemente ayudar a una persona a enfocar su atención auditiva y espacial para la interacción personal.

La tecnología de burbuja de sonido también podría eventualmente integrarse en audífonos. Tanto Google como el fabricante suizo de audífonos Phonak han agregado elementos de IA a sus auriculares y audífonos, respectivamente. Gollakota ahora está considerando cómo implementar el enfoque de burbuja de sonido en un formato de audífono cómodo para usar. Para que esto sea posible, el dispositivo tendría que caber en audífonos intraaurales o en una configuración detrás de cada oreja, comunicarse de manera inalámbrica entre las unidades izquierda y derecha, y operar durante todo el día con baterías diminutas.

Gollakota confía en que esto se puede lograr. “Estamos en un momento en que el hardware y los algoritmos están convergiendo para admitir la mejora mediante IA”, dice. “Esto no trata sobre la IA reemplazando trabajos, sino sobre tener un impacto positivo en las personas a través de una interfaz humano-computadora”.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Scroll al inicio