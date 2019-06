La plus grande base de données de reconnaissance faciale publique sur internet est désormais de l’histoire ancienne. Microsoft vient de la supprimer, sans crier gare. Celle-ci comptait plus de 10 millions d’images provenant d’environ 100 000 personnes. Publiées en 2016 dans le jeu de données MS Celeb, toutes les images provenaient des moteurs de recherche.

Pour rappel, cette base de données a servi à former des systèmes de reconnaissance faciale dans les quatre coins du monde et a également été d’une grande utilité pour les chercheurs, militaires et entreprises chinoises dont SenseTime.

Une des plus grandes bases de données chez Microsoft

Ms Celeb n’est pas forcément le set d’images auquel on pense le premier. Et pourtant, sa base de données le place parmi les plus grands au monde. Au total : plus de 10 millions d’images appartenant à plus de 100 000 personnes différentes. Ce chiffre lui a même valu le rang de « la plus grande base de données publiquement disponible pour la reconnaissance facile ». Depuis sa publication en 2016, cette base de données a surtout servi aux grandes entreprises technologiques chinoises, entre autres, mais également à des complexes militaires de par le monde.

Mais voilà, bien que la base de données soit d’une grande envergure, toutes les personnes de la liste n’ont pas donné leur utilisation pour une telle exploitation. Mais à priori, Microsoft n’a pas jugé cette démarche nécessaire étant donné que la liste ne contenait que des célébrités. Et pourtant, suite à une enquête réalisée par le Financial Times, l’on a pu découvrir que ce n’étaient pas seulement des célébrités que l’on pouvait y trouver. Une petite recherche simple suffisait pour tomber sur des journalistes spécialisés dans la sécurité informatique ou encore des auteurs.

Pour éviter les problèmes, Microsoft a donc décidé de supprimer discrètement cette base de données. Mais il semble que cet objectif n’ait pas été atteint, car le jeu de données lui a échappé : les données sont encore disponibles sur un nombre incalculable de disques durs. Une initiative qui pourrait néanmoins servir d’exemple.