On parle souvent d’IA “qui voit”, beaucoup plus rarement d’IA “qui écoute”. Pourtant, dans une forêt dense comme l’Amazonie (et les forêts tropicales voisines), le son est parfois l’indice le plus fiable. Les oiseaux signalent la santé d’un écosystème, les tronçonneuses trahissent une menace, le silence anormal raconte une perte. L’idée est simple: capter la forêt en continu, puis laisser l’IA faire le tri dans l’immensité du bruit du monde.
Voici trois projets qui montrent comment cette approche se déploie, du laboratoire au terrain, jusqu’au grand public.
1) Projet Guacamaya: la biodiversité en “tableau de bord” vivant
Le Projet Guacamaya, lancé en Colombie, ressemble à une tour de contrôle pour la forêt. Au lieu de dépendre d’un seul type de données, l’équipe combine trois sources qui se complètent: des images satellites, des caméras-pièges au sol et la bioacoustique (les sons de la jungle). L’objectif n’est pas de faire un “joli rapport”, mais de repérer plus vite ce qui change, et où.
Derrière le projet, on retrouve un attelage assez rare: Instituto SINCHI, l’Université des Andes (via le centre CinfonIA), l’Institut Humboldt, Planet Labs (pour les images satellites quotidiennes) et Microsoft AI for Good. L’enjeu est clair: passer d’une surveillance lente à une surveillance quasi continue, avec des alertes et des modèles entraînés spécifiquement pour l’Amazonie. Le résultat, c’est une capacité à comprendre plus vite les patterns de déforestation, à orienter les efforts, et à cartographier la biodiversité de manière plus dynamique.
Ce qui est intéressant, c’est le changement de philosophie: la forêt n’est plus seulement un territoire qu’on visite, c’est un système qu’on “lit” en temps réel. Et dans cette lecture, les oiseaux ne sont pas un décor sonore, ce sont des indicateurs.

2) I-AM-Bird: quand la recherche universitaire prouve que “voir” les oiseaux peut être automatisé
Deuxième histoire, autre échelle: I-AM-Bird, une étude présentée à ICAART 2024, s’attaque à un problème très concret: détecter automatiquement des espèces d’oiseaux amazoniens dans des images, sans intervention humaine constante.
Ici, on est dans une approche “deep learning” (apprentissage profond) appliquée à la vision: les chercheurs ont entraîné un modèle de détection d’objets (Faster R-CNN) à partir d’images captées par des webcams installées près d’une mangeoire, en Amazonie brésilienne. Et les scores annoncés sont élevés: le modèle final atteint une performance mAP1 autour de 98% dans leurs conditions d’essai.
Pourquoi c’est important? Parce que ça valide un principe: on peut suivre des populations d’oiseaux de façon moins invasive, plus régulière, et potentiellement à grande échelle si l’infrastructure suit. Ce genre de brique scientifique finit souvent par alimenter des systèmes plus vastes (ONG, parcs, programmes de conservation). Et au passage, ça rappelle un truc tout simple: la science “terrain” n’est pas toujours une expédition hollywoodienne, parfois c’est trois webcams, de la patience, et un bon modèle.

3) Tech4Nature + Google Forest Listeners: la conservation à grande échelle, et l’expérience “grand public” qui donne envie d’écouter
Troisième axe: l’échelle industrielle (dans le bon sens du terme). Tech4Nature, c’est un partenariat mondial lancé en 2020 entre Huawei et l’UICN (IUCN), aligné sur l’initiative TECH4ALL de Huawei et la Green List de l’UICN. L’idée: utiliser, le cloud, des capteurs audio/vidéo et la connectivité pour aider à gérer des aires protégées plus efficacement. Une phase 2 a été annoncée, avec des projets pilotes prévus dans plusieurs pays (dont le Brésil, le Kenya, le Mexique, la Turquie et la Chine).
Concrètement, ce genre d’écosystème permet de financer des déploiements lourds: capteurs dans la canopée, données envoyées au cloud, modèles qui reconnaissent des signatures sonores, et parfois même des mécanismes de détection d’activités illégales.
Exemple très parlant côté oiseaux: au Costa Rica, sous l’initiative TECH4ALL, des partenaires (SINAC, Rainforest Connection, Macaw Recovery Network, Tropical Scientific Center) ont installé 113 dispositifs acoustiques (technologie RFCx2) sur une vaste zone pour suivre le Grand Ara Vert (Great Green Macaw), espèce menacée.


Les dispositifs enregistrent en continu et les données sont analysées via IA, pour mieux comprendre distribution, comportements, cycles de nidification, et, surtout, pour renforcer la protection de l’habitat face aux pressions comme la déforestation.
Une immersion pour vos oreilles (et pour la science)
Et maintenant, la partie “immersion”: Google a lancé le 5 novembre 2025 une expérience en ligne appelée Forest Listeners (Google Arts & Culture + Google DeepMind + WildMon). Le concept est délicieux: tu entres dans une forêt virtuelle 3D, tu écoutes un extrait sonore, et tu cliques “oui/non” si tu entends l’appel d’une espèce cachée. Ces micro-décisions humaines servent à affiner Perch, un modèle de Google DeepMind, avec l’ambition d’accélérer le suivi de la biodiversité. Le projet s’appuie sur plus de 1,2 million d’enregistrements audio Amazonie + Forêt atlantique. Ici : https://blog.google/outreach-initiatives/arts-culture/forest-listeners/
C’est là que tout se rejoint: le terrain capte, l’IA trie, et parfois le public aide à “étiqueter” le vivant. Forest Listeners est littéralement une façon utile (et franchement cool) de les tester en immersion, tout en contribuant à une vraie base de données scientifique.

Pourquoi c’est important maintenant ?
Alors que nous profitons du confort de nos foyers, ces sentinelles numériques continuent de veiller. Cette technologie nous rappelle que l’innovation n’est pas obligée d’être synonyme de rupture avec la nature. Elle peut être le lien qui nous unit à elle.
Si vous avez cinq minutes, allez tester l’expérience d’écoute. C’est une façon poétique et technologique de se rappeler que le monde est vaste, vivant, et qu’il mérite qu’on tende l’oreille.
💡 Saviez-vous que…
Un seul micro peut “entendre” très loin, mais pas comme un humain : en forêt dense, l’IA peut repérer des signatures sonores même quand elles sont couvertes par la pluie, les insectes ou d’autres oiseaux, parce qu’elle cherche des motifs précis dans les fréquences, pas une “voix” claire.
On découpe souvent le son en mini-images : pour analyser l’audio, beaucoup de systèmes transforment les enregistrements en spectrogrammes (une sorte de photo du son), puis utilisent des techniques proches de la vision par ordinateur pour classer les espèces ou détecter des bruits suspects.
La “géolocalisation par le son” existe : avec plusieurs capteurs espacés, on peut estimer la provenance d’un bruit (ex. tronçonneuse) par différence de temps d’arrivée. C’est comme un mini GPS acoustique, utile pour guider des patrouilles.
L’IA peut apprendre sans tout étiqueter à la main : certaines approches modernes utilisent de l’apprentissage auto-supervisé, elles avalent des milliers d’heures de sons non annotés pour apprendre des “représentations”, puis deviennent plus performantes avec peu d’exemples étiquetés.
Les capteurs doivent survivre à l’enfer humide : chaleur, pluie, moisissures, insectes… Le vrai défi n’est pas juste l’IA, c’est la fiabilité du matériel et l’énergie. Beaucoup de systèmes sont pensés pour tourner en continu avec panneaux solaires et débit réseau limité.
Les oiseaux peuvent devenir des “capteurs vivants” : certains projets utilisent des espèces très sensibles comme indicateurs, quand leur chant disparaît d’une zone, c’est parfois un signal d’alerte écologique avant même que la déforestation soit visible au satellite.
- En Intelligence Artificielle : mAP (Mean Average Precision), c’est la mesure de performance standard pour évaluer les modèles de vision par ordinateur, comme ceux qui détectent et localisent des objets dans une image (ex: identifier des voitures, des piétons). ↩︎
- La technologie RFCx (Rainforest Connection) utilise des capteurs acoustiques en recyclant des smartphones en dispositifs « Guardians » installés dans la canopée, Fondée par Topher White en 2013, elle détecte instantanément les bruits de tronçonneuses ou de braconnage pour alerter les autorités locales, tout en collectant des données précieuses sur la biodiversité sonore. ↩︎



