Pourquoi la détection automatique des terroristes est inefficace ?

Suite aux attentats du 13 novembre mes pensées vont aux familles et amis des victimes. J’ai choisi de publier cet article si tôt, car il y a de fortes chances que les politiques vont vouloir renforcer les boîtes noires de la loi renseignement. La presse, la blogosphère et les experts du sujet ont massivement critiqué la dangerosité et l’inefficacité de ces boîtes noires dans la lutte antiterroriste, mais les causes de cette inefficacité n’ont jamais été expliquées.
L’objet de ce billet est d’expliquer pourquoi on ne peut pas utiliser efficacement des algorithmes pour détecter des terroristes.

Avant toutes choses il faut comprendre que cette inefficacité est due au fait qu’un trop grand nombre de personnes seront classées comme potentiellement terroriste. La NSA aurait à surveiller 640 000 personnes potentiellement terroristes aux USA, ramené à la population de la France cela fait 110 000 personnes à surveiller. Soit 110 000 enquêtes à faire pour séparer les vrais positifs des faux positifs. Si cette vérification humaine est longue alors la détection de terroristes à l’aide d’algorithmes est inutile voir néfaste.

Pourquoi l’algorithme trouverait autant de présumés terroristes ?

La première raison à cela est purement statistique et peut s’expliquer à travers un petit exemple. Prenons un test fictif permettant de détecter si quelqu’un est un terroriste. Ce test a un taux de détection à 99%. Notre population de 1 000 100 personnes est composée de 100 terroristes et de 1 000 000 de non-terroristes.

En appliquant le test parmi les 100 terroristes on trouve que 100 * 99% = 99 sont des terroristes et que 100 * 1% = 1 ne l’est pas. Si l’on  fait de même parmi les 1 000 000 autres on trouve que 1 000 000 * 99% = 990 000 ne sont pas terroristes et que 1 000 000 * 1% = 10 000 le sont.

Dans cet exemple le taux de vrais positifs est le même pour les deux tests (99%). Avec un algorithme c’est rarement le cas.

Prenons un algorithme donnant un score allant de 0 à 10. Plus ce score est élevé plus la personne a de chance d’être un terroriste. En mettant la limite à 9 alors une bonne proportion des résultats sera des terroristes, mais il restera beaucoup de terroristes réels non détectés. Au contraire si on prend une limite de 1 alors quasiment tous les terroristes seront dans les résultats, mais il y aura énormément de non-terroristes dans notre échantillon. Ceci est vrai pour tout algorithme de classification et peut se modéliser par une courbe ROC.

ROC

Exemple de courbe ROC. Le taux de faux négatifs correspond à la proportion de terroristes non détectés comme tel et le taux de faux positifs à la proportion de personnes non-terroristes détectées comme terroristes

La courbe ROC présentée est factice. Cependant, pour toute courbe ROC, les points 0,1 et 1,0 seront présent, la courbe ira de l’un à l’autre et sera décroissante.

Les systèmes experts

Si malgré ces problèmes on souhaite quand même détecter des terroristes on peut faire le choix d’utiliser un système expert. Un système expert vise à incorporer des connaissances humaines dans un algorithme. Dans notre cas cela consisterait à extraire les connaissances sur les terroristes et de leurs comportements sur internet à partir de personnes qui sont expertes dans ce domaine.

Pour pouvoir construire un bon système expert il faut:
– Trouver les bons experts
– Trouver les bons informaticiens
– Que les bonnes informations soient communiquées aux informaticiens
– Que ceux-ci les aient correctement comprises pour pouvoir les écrire dans un langage informatique
– etc.

Bref, tout un tas de problèmes qui ne sont pas mathématiques ou informatiques mais humains. Cependant, si vous avez des experts et des informaticiens vous pouvez tenter de mettre en place un système expert sans pour autant avoir beaucoup de données.

L’apprentissage automatique

Il y a deux grands types de méthodes d’apprentissage. L’apprentissage supervisé et l’apprentissage automatique.

En apprentissage automatique on cherche à déterminer des classes que l’on ne connait pas d’avance ou à observer des relations entre des classes.

Ici on connait déjà nos classes (terroriste et non-terroriste). Il peut cependant être interressant de créer plus de classes pour regarder les relations entre les classes ainsi générées. On pourrait par exemple trouver la réponse à : Est-ce que le djihadiste français à plus de points communs avec son homologue syrien ou avec un délinquant qui vie à deux pas de chez lui ?

Dans le cas du terrorisme les outils d’apprentissage automatique pourront uniquement servir à comprendre les données, à voir si on pourrait augmenter la qualité de la détection en augmentant le nombre de classes et à chercher des données redondantes dans le jeu de données (L’exemple de jouer au foot et de posséder un ballon de foot expliqué par la suite).

Tout ce travail d’analyse des données et des résultats d’apprentissages automatiques sont les fondations nécessaires à la mise en place d’un algorithme d’apprentissage supervisé.

L’appentissage supervisé

Avec l’apprentissage supervisé on sait ce que l’on cherche à déterminer. Ici on souhaite séparer des personnes dans deux catégories : terroriste et non-terroriste.

Il existe beaucoup d’algorithmes d’apprentissage supervisé. Si vous souhaitez comprendre comment les problèmes présentés peuvent arriver je vous conseille de regarder du côté des arbres de décisions qui sont très faciles à comprendre.

Le problème qui nous intéresse dans l’apprentissage supervisé est dû à la quantité d’exemples de chaque classe. Dans l’idéal il faut énormément d’individus de chaque classe pour que la classification soit efficace. Dans notre cas, cela signifie qu’il faut énormément (des centaines de milliers, voir des millions) de terroristes pour pouvoir avoir une classification correcte.
Il est possible d’en faire une avec peu d’individus mais celle-ci ne sera pas très bonne. Par exemple si parmi la douzaine de terroristes ayant agi en France 100% jouaient au foot, l’algorithme va apprendre qu’un terroriste joue forcement au foot et va donc baisser le score de toute personne ne jouant pas au foot.

Ce problème diminue sans pour autant totalement disparaitre avec l’augmentation du nombre d’exemples, car il n’existe pas de solutions informatiques pour différencier une corrélation d’une causalité. Il est également difficile de savoir si deux corrélations sont les mêmes. Par exemple l’algorithme a pu apprendre : tous les terroristes jouent au foot et ils possèdent tous un ballon de foot. Donnant ainsi deux fois plus d’importance au fait de jouer au foot.

C’est pour cela qu’une très grande quantité d’exemples ainsi que toute l’analyse des données est primordiale pour obtenir de bons résultats.

D’autres axes de réflexion

L’article s’est focalisé sur des problèmes informatiques et statistiques, il y a d’autres axes de réflexion qui n’ont pas été abordés. On pourrait supposer que, par chance, on arrive à avoir une très bonne boîte noire. Il suffirait que les terroristes changent suffisamment leurs comportements par rapport aux précédents terroristes pour ne plus être détectés.

Un parallèle peut être fait avec le monde physique. On pourrait autoriser le port d’arme, ainsi, les tueries avec des armes à feu seraient beaucoup plus difficiles, mais il est fort probable que les terroristes s’adaptent et utilisent des voitures piégées ou des bombes chimiques/biologiques/sales.

N’hésitez pas à rajouter d’autres problèmes dans les commentaires.

Pourquoi la détection automatique des terroristes est inefficace ? par La Réponse est 42 est sous Licence Creative Commons Internationale Attribution 4.0.

Vous aimerez aussi...

5 réponses

  1. Vassili dit :

    « On pourrait autoriser le port d’arme, ainsi, les tueries avec des armes à feu seraient beaucoup plus difficiles »>>En première lecture, j’avais compris l’inverse de ce que tu a écrit, du-coup je ne comprends pas en quoi autoriser tous les débiles à porter une arme, diminue les risques… regarde aux USA, sa n’arrête pas.

    Si tu voulais dire par là: « si tout le monde à une arme, alors les terroristes auront peur de se faire tirer dessus », tu oublie que si tout le monde a une arme, n’importe qui peut tirer le premier avant que les autres dégaine; et quand je voit tous les débiles/meurtriers qu’il y a (les gens quoi), je me dit qu’ils ont déjà bien assez de bras, de jambes, de voitures, etc, pour s’entre tuer volontairement, ou en disant « désolé, je ne vous avait pas vu ».

  2. A1 dit :

    L’objectif de la surveillance ne me semble pas tant être celle de la prévention des drames que celle de l’identification rapide de leurs auteurs, donc a posteriori. Je vois dans cette identification rapide et facile a posteriori une tentative de dissuader le plus de personnes possible de prendre part à ces drames, sachant qu’elles seront identifiées et poursuivies.

    Le système a ses limites: par définition, il importe peu à des kamikaze de savoir qu’ils seront identifiés, puisqu’ils ne seront jamais poursuivis. C’est même contre productif: les ériger en coupables ultimes, c’est faire d’eux les martyr qu’ils prétendent être. Pour leurs complices, éventuels, c’est peut-être différent: peut-être que la dissuasion opère.

    En tout cas c’est un effet bien trop indirect par rapport à ce qu’il serait nécessaire de mettre en place. Un algorithme ne pansera jamais la misère humaine.

    • Astyan dit :

      Si l’objectif réel de cette surveillance est celui que signale effectivement tu as totalement raison. Es-ce que identifié un auteur d’un crime une heure après ce crime au lieu d’un ou deux jours après est très interessant ?

      J’ai traité de l’objectif affiché par le gouvernement qui est de les coincer avant. Je n’ai pas fait de supposition sur des objectifs non dit qui pourrait aussi bien etre de détecter les grands mouvements sociaux en avance (ce qui pour le coup est faisable via des algorithmes mais pas souhaitable pour le peuple amha).

  3. AntiPub1 dit :

    La détection automatique des terroristes est inefficace parce que les terroristes ne sont tout simplement pas bettes. Sinon, comment parviendront-ils à effectuer ces attaques sans qu’on les soupçonnent? En plus, ils le font en plein jour au beau milieu d’un endroit où on peut dire que la sécurité est déjà assez performante. Si les bons informaticiens capables d’installer un système de détection automatique des terroristes existaient vraiment, beaucoup d’attaques auraient déjà été éviter, mais ce n’est pas le cas!

  4. AntiPub1 dit :

    Oui, je suis d’accord, la détection automatique des terroristes ne marche pas parce que ce sont des malins et ils n’arrêteront pas d’optimiser leur façon de faire. Ce qu’il nous reste à faire c’est d’améliorer nous aussi nos systèmes de sécurité informatique et trouver de nouveaux systèmes de piratage pour pouvoir les coincer.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *