L’automatisation de la lutte au discours radical : un projet voué à l’échec

Cybersurveillance

Exclusif

La semaine dernière je vous disais que l’évacuation des activités terroristes du Web ouvert était une fausse bonne idée. Cette semaine, je vais vous expliquer en quoi l’automatisation de la lutte au discours radical est appelée à être un échec retentissant.

Comme je l’ai mentionné dans mon article précédent, Google désire pousser les terroristes en dehors du Web ouvert. La tactique serait essentiellement de systématiquement bloquer le contenu discursif «à saveur radicale». L’objectif est donc de confier à un algorithme la tâche de filtrer les éléments pouvant être jugés problématiques. D’ailleurs, la Maison-Blanche a mandaté les firmes technologiques de développer un outil capable de détecter les discours radicaux issus d’individus ou d’organisations impliqués dans des activités terroristes.

En théorie, le tout peut paraître logique et efficace. Après tout, des algorithmes surveillent déjà certaines activités en ligne. Facebook a par exemple un outil qui permet de détecter les comportements suicidaires. Les compagnies de cartes de crédit, elles, ont développé des algorithmes détectant les activités frauduleuses dans les transactions. Le tout fonctionne plutôt bien, n’est-ce pas? Bien que construite autour d’une logique «du gros bon sens», cette inférence ne passe toutefois pas le test de l’application scientifique. En fait, lorsque l’on discute d’exploration des données (data mining), on se rend rapidement compte que l’on doit avoir des paramètres assez stricts pour qu’un algorithme du genre fonctionne adéquatement.

Les problèmes de l’exploration des données

Ce que l’exploitation de l’exploration des données a réussi à démontrer, c’est qu’elle fonctionne relativement bien lorsque l’on recherche des profils assez bien définis, lorsqu’il y a un nombre suffisant d’incidents pouvant être comptabilisés et analysés, et lorsque le coût des «fausses alertes» – on pourrait aussi dire les faux positifs – est relativement bas. Dans le cas des cartes de crédit, on se retrouve devant un cas de figure qui tombe exactement dans ce cadre.

L’exploration des données fonctionne relativement bien lorsque l’on recherche des profils assez bien définis, lorsqu’il y a un nombre suffisant d’incidents pouvant être comptabilisés et analysés, et lorsque le coût des «fausses alertes» est relativement bas.

Cependant, lorsqu’il est question de terrorisme, le flou artistique est beaucoup plus grand. Tout d’abord, on ne tombe pas dans de l’analyse de transactions quantitatives, mais bien dans de l’analyse langagière, avec toutes les subtilités que cela comporte. Faire la différence entre un discours faisant l’apologie du terrorisme, un discours analysant la conduite des activités terroristes, et une revendication sociopolitique légitime est relativement facile pour un humain (enfin, pour la plupart du moins). Le tout devient toutefois rapidement extrêmement complexe pour un algorithme.

Ensuite, une des seules choses sur laquelle la plupart des spécialistes du terrorisme s’entendent, c’est pour dire que les profils terroristes sont pour ainsi dire impossibles à définir. Presque chaque cas est unique. Faire des prédictions sur une variété aussi grande de situations est donc impossible puisque l’analyse prédictive se construit avec des événements passés connus et similaires.

En ce qui concerne les faux positifs, s’il y a une chose que la statistique moderne nous a apprise, c’est que si l’on prend un événement rare dans une population importante, le nombre de faux positifs détectés est élevé – voire mon article sur le théorème de Bayes et la surveillance automatisée. Vraiment trop grand. En fait, dans le cas qui nous intéresse, trop grand pour être gérable. Bref, un système du genre retournerait trop de faux positifs pour être utile, car il faudrait filtrer tous ces faux positifs des vrais positifs. Ce processus de filtre serait tout simplement trop long pour être efficace et efficient. Considérant que ce sont des entreprises intéressées par le profit qui devront faire ce boulot, elles ne dépenseront certainement pas un surplus de ressources pour faire ce boulot.

En même temps, c’est tout de même une bonne nouvelle. Cela signifie que les événements de terrorisme sont suffisamment rares pour être considérés comme des «anomalies statistiques» plus que des événements suffisamment récurrents pour être détectés. En somme, nos sociétés sont beaucoup plus sécuritaires que l’on ne pourrait le croire.

En ce qui concerne le coût de la gestion des faux positifs, on est encore en droit de douter de la portée de l’opération. Comme cela vient tout juste d’être présenté, la question de la surveillance automatisée des discours radicaux soulèvera nécessairement un nombre important de faux positifs; autant de cas qui demanderont de l’analyse et de la gestion, engendrant conséquemment des coûts. D’un point de vue strictement financier, je doute que Google décide d’accepter de gruger ses profits pour se lancer dans une telle avenue. Ça risque d’être passablement onéreux, surtout si l’on applique le tout à la «grandeur» de l’Internet.

En fait, les études menées sur le sujet démontrent que c’est contre-productif. Et ce n’est pas moi qui le dis, c’est le gouvernement américain.