Un pequeño pájaro cantor surca los cielos sobre Ithaca, Nueva York, en una noche de septiembre. Es uno de los 4 mil millones de aves que forman un gran río anual de migración emplumada a través de América del Norte. En pleno vuelo, emite lo que los ornitólogos llaman un “llamado nocturno de vuelo” para comunicarse con su bandada. Es la señal más breve, apenas 50 milisegundos de duración, emitida en el bosque en medio de la noche. Pero los humanos la han captado de todas formas con un micrófono coronado por un embudo de enfoque. Momentos después, un software llamado BirdVoxDetect, el resultado de una colaboración entre la Universidad de Nueva York (NYU), el Cornell Lab of Ornithology y la École Centrale de Nantes, identifica al ave y la clasifica hasta el nivel de especie.
Biólogos como Andrew Farnsworth, del laboratorio Cornell, habían soñado durante mucho tiempo con espiar a las aves de esta manera. En un mundo en calentamiento, cada vez más lleno de infraestructuras humanas que pueden ser mortales para ellas, como rascacielos de vidrio y líneas de alta tensión, las aves migratorias enfrentan muchas amenazas existenciales. Los científicos dependen de una combinación de métodos para rastrear la ubicación y el momento de sus migraciones, pero cada uno tiene limitaciones. El radar Doppler, con el clima filtrado, puede detectar la biomasa total de aves en el aire, pero no puede desglosar ese total por especies. Los rastreadores GPS en aves individuales y las observaciones cuidadosas de observadores aficionados ayudan a cerrar esa brecha, pero marcar aves a gran escala es una propuesta costosa e invasiva. Y hay otro problema clave: la mayoría de las aves migran de noche, cuando es más difícil identificarlas visualmente y mientras la mayoría de los observadores están durmiendo. Durante más de un siglo, la monitorización acústica ha sido una posibilidad tentadora como un método que podría resolver los problemas de los ornitólogos.
A finales del siglo XIX, los científicos se dieron cuenta de que las aves migratorias realizaban llamados nocturnos específicos de cada especie: “huellas acústicas“. Cuando los micrófonos se hicieron comercialmente disponibles en la década de 1950, los científicos comenzaron a grabar aves por la noche. Farnsworth lideró parte de esta investigación de ecología acústica en la década de 1990. Pero incluso entonces era un desafío notar los breves llamados, algunos de los cuales están en el límite del rango de frecuencia que los humanos pueden escuchar. Los científicos terminaban con miles de cintas que tenían que revisar en tiempo real mientras observaban espectrogramas que visualizan el audio. Aunque la tecnología digital facilitó la grabación, el “problema perpetuo“, dice Farnsworth,
“fue que se volvió cada vez más fácil recopilar una cantidad enorme de datos de audio, pero cada vez más difícil analizar siquiera una parte de ellos”.
Entonces Farnsworth conoció a Juan Pablo Bello, director del Music and Audio Research Lab de la NYU. Recién terminado un proyecto utilizando aprendizaje automático para identificar fuentes de contaminación acústica urbana en la ciudad de Nueva York, Bello aceptó abordar el problema de los llamados nocturnos de vuelo. Reunió un equipo que incluía al experto francés en escucha por máquinas Vincent Lostanlen, y en 2015 nació el proyecto BirdVox para automatizar el proceso.
“Todo el mundo decía: ‘Eventualmente, cuando resolvamos esta dificultad, esta será una fuente de información súper rica'”, afirma Farnsworth.
Pero al principio, recuerda Lostanlen,
“ni siquiera había una pista de que esto fuera posible”.
Parecía inimaginable que el aprendizaje automático pudiera acercarse a las habilidades de escucha de expertos como Farnsworth.
“Andrew es nuestro héroe“, dice Bello. “Todo lo que queremos imitar con las computadoras es a Andrew“.
Comenzaron entrenando a BirdVoxDetect, una red neuronal, para ignorar defectos como zumbidos bajos causados por daños de agua de lluvia en los micrófonos. Luego entrenaron al sistema para detectar llamados de vuelo, que difieren entre (e incluso dentro de) especies y que fácilmente se pueden confundir con el chirrido de una alarma de coche o de una rana peeper. El desafío, dice Lostanlen, era similar al que enfrenta un altavoz inteligente al escuchar su “palabra de activación” única, excepto que en este caso la distancia del ruido objetivo al micrófono es mucho mayor (lo que significa mucho más ruido de fondo a compensar). Y, por supuesto, los científicos no podían elegir un sonido único como “Alexa” o “Hey Google” para su disparador.
“Para las aves, no podemos tomar esa decisión. Charles Darwin la tomó por nosotros”, bromea.
Por suerte, tenían una gran cantidad de datos de entrenamiento con los que trabajar: el equipo de Farnsworth había anotado a mano miles de horas de grabaciones recopiladas por los micrófonos en Ithaca.
Con BirdVoxDetect entrenado para detectar llamados de vuelo, quedaba otra tarea difícil: enseñarle a clasificar los llamados detectados por especie, algo que pocos expertos pueden hacer solo con el oído. Para manejar la incertidumbre, y debido a que no hay datos de entrenamiento para todas las especies, decidieron usar un sistema jerárquico. Por ejemplo, para un llamado dado, BirdVoxDetect podría ser capaz de identificar el orden y la familia del ave, incluso si no está seguro sobre la especie—tal como un observador podría al menos identificar un llamado como el de un chipe, ya sea coronado amarillo o de costados castaños. Durante el entrenamiento, la red neuronal era penalizada menos cuando confundía aves que estaban más cerca en el árbol taxonómico.
En agosto pasado, culminando ocho años de investigación, el equipo publicó un artículo detallando los algoritmos de aprendizaje automático de BirdVoxDetect. También lanzaron el software como un producto gratuito y de código abierto para que los ornitólogos lo usen y adapten. En una prueba con una temporada completa de grabaciones de migración que sumaban 6,671 horas, la red neuronal detectó 233,124 llamados de vuelo. En un estudio de 2022 en el Journal of Applied Ecology, el equipo que probó BirdVoxDetect encontró que los datos acústicos eran tan efectivos como el radar para estimar la biomasa total.
BirdVoxDetect funciona con un subconjunto de aves canoras migratorias de América del Norte. Pero mediante el aprendizaje limitado o “few-shot learning,” puede ser entrenado para detectar otras aves similares con solo unos pocos ejemplos de entrenamiento. Es como aprender un idioma similar a uno que ya hablas, dice Bello. Con micrófonos baratos, el sistema podría expandirse a lugares alrededor del mundo sin observadores o radar Doppler, incluso en condiciones de grabación muy diferentes.
“Si vas a una conferencia de bioacústica y hablas con varias personas, todas tienen diferentes casos de uso”, dice Lostanlen.
El siguiente paso para la bioacústica, señala, es crear un modelo base, como los que los científicos están desarrollando para el procesamiento de lenguaje natural y análisis de imágenes y videos, que sea reconfigurable para cualquier especie, incluso más allá de aves. De esa manera, los científicos no tendrán que construir un nuevo BirdVoxDetect para cada animal que quieran estudiar.
El proyecto BirdVox ahora está completo, pero los científicos ya están construyendo sobre sus algoritmos y enfoque. Benjamin Van Doren, un biólogo especializado en migración de la Universidad de Illinois Urbana-Champaign que trabajó en BirdVox, utiliza Nighthawk, una nueva red neuronal más fácil de usar basada tanto en BirdVoxDetect como en la popular aplicación de identificación de cantos de aves Merlin, para estudiar aves que migran sobre Chicago y otros lugares en América del Norte y del Sur. Y Dan Mennill, que dirige un laboratorio de bioacústica en la Universidad de Windsor, dice que está emocionado por probar Nighthawk en los llamados de vuelo que su equipo actualmente anota a mano después de ser grabados por micrófonos en el lado canadiense de los Grandes Lagos. Una debilidad de la monitorización acústica es que, a diferencia del radar, un solo micrófono no puede detectar la altitud de un ave por encima o la dirección hacia la que se mueve. El laboratorio de Mennill está experimentando con una matriz de ocho micrófonos que puede triangular para resolver ese problema. Revisar las grabaciones ha sido un proceso lento. Pero con Nighthawk, el análisis será mucho más rápido.
Con las aves y otros animales migratorios bajo amenaza, Mennill dice que BirdVoxDetect llegó justo en el momento adecuado. Saber exactamente qué aves están volando en tiempo real puede ayudar a los científicos a monitorear cómo están las especies y hacia dónde se dirigen. Eso puede informar esfuerzos prácticos de conservación como iniciativas de “Luces Apagadas“, que alientan a los rascacielos a apagarse por la noche para prevenir colisiones de aves.
“La bioacústica es el futuro de la investigación de la migración, y realmente estamos llegando a la etapa en la que tenemos las herramientas adecuadas”, afirma.
“Esto nos lleva a una nueva era”.
Christian Elliott es periodista de ciencia y medio ambiente con sede en Illinois.