Patrick Perrot
Coordonnateur pour l'intelligence artificielle
Service de la Transformation
Gendarmerie nationale
Expert EuropIA
L’attaque adverse, une fragilité des systèmes d’IA, une arme pour les cyberdélinquants ?
- Décembre 2021
L’intelligence artificielle envahit progressivement le quotidien des citoyens et il existe déjà nombre de domaines où elle est utilisée parfois même sans en avoir pleinement conscience. C’est par exemple les requêtes effectuées sur Internet via des moteurs de recherche qui, non seulement renvoient plusieurs réponses aux sollicitations mais qui les classent en fonction de leur pertinence. C’est encore, les systèmes de recommandations qui guident le choix des utilisateurs (consommateurs) des plateformes de vidéos à la demande ou tout simplement d’achats en ligne indépendamment de leur souhait. Cette intelligence artificielle du quotidien ne cessera de croître au sein des villes et territoires connectés où sera régulée la dépense énergétique des bâtiments pour minimiser l’impact environnemental, où les flux d’eau seront distribuées par une intelligence artificielle pour en réduire la consommation, où la circulation automobile sera optimisée par des systèmes automatiques. L’intelligence artificielle va générer de nouveaux modèles commerciaux, de nouveaux services publics, de nouvelles formes de prestations de plus en plus orientés sur du sur-mesure à la demande.
Voilà donc un monde qui s’annonce porteur de promesses d’un mieux vivre ensemble réconciliant l’être humain au sein de son environnement. Et pourtant, derrière cette vision quelque peu idyllique, se dissimule de nombreuses interrogations comme la question de savoir qui sera ou seront derrière cette intelligence artificielle ? Qui assurera la sécurité des systèmes et services ? Qui, encore, sera capable de faire preuve de résilience en cas de difficulté ?
La malveillance qui, malheureusement gangrène toute société et se révèle particulièrement performante pour profiter des moindres failles, assombrit également les espoirs. Et parmi les différentes formes de malveillance, il en est une qu’il convient de prendre en compte au plus tôt en matière de protection d’une population, usagère des systèmes et services offerts : les attaques adverses.
Mais qu’est ce donc qu’une attaque adverse ?
Alors que l’intelligence artificielle progresse considérablement tant au niveau des champs applicatifs que de la performance, elle doit encore progresser en matière de robustesse. En effet, elle peut encore être extrêmement fragilisée par d’infimes modifications imperceptibles pour l’humain, comme la modification d’un seul pixel d’une image, mais aux conséquences désastreuses. C’est l’objectif des attaques adverses. L’attaque se traduit par une entrée altérée, présentée au système qui, non seulement, ne sera pas capable de la reconnaître mais pourra même la confondre avec une entité différente :
– en matière d’image : un chien peut être pris pour un chat et un panneau STOP peut aussi être confondu avec une limitation à 130km/h laissant présager quelques difficultés en matière de circulation.
Cette anomalie peut même être réalisée dans le monde réel, c’est par exemple un adhésif collé opportunément sur un panneau de circulation pour en fausser le sens perçu par un système automatique. Dans le domaine médical, confondre une anomalie sur une radio ou une échographie avec une autre peut aussi s’avérer dramatique en termes de diagnostic comme de traitement.
– en matière audio : il est possible de faire reconnaître par le système des paroles qui n’auront jamais été prononcées par un homme politique par exemple ou encore un chef d’entreprise. Dès lors, les systèmes de Speech2Text se voient largement fragilisés voire totalement inutilisables.
– en matière de texte : il est possible de perturber les différents systèmes de fouilles de texte en introduisant dans la base des perturbations qui rendent totalement erronée la recherche de mots clefs par exemple.
Toutes ces applications peuvent aussi perturber les systèmes biométriques que ce soit en matière de reconnaissance faciale ou de locuteur par exemple et ainsi altérer la valeur de toute identité numérique.
Les conséquences de ces attaques peuvent être catastrophiques à petite comme à grande échelle suite à une mauvaise interprétation des données conduisant à une décision éronnée. Et, ces attaques demeurent relativement simples à concevoir puisqu’elles ne nécessitent d’avoir accès ni à l’architecture du système, ni même aux paramètres. Elles consistent simplement à estimer ces paramètres en vue d’altérer l’erreur de prédiction. Il est évident que la connaissance du système accentuera la force des attaques, il s’agit d’une connaissance de type « boîte blanche » du système. Parfois, l’adversaire n’a accès qu’à la possibilité d’effectuer des requêtes, il peut alors tester l’algorithme par une série d’entrées et mesurer le résultat des sorties pour estimer les paramètres du réseau. Il s’agit d’une configuration de type « boite grise ». Et enfin, l’adversaire peut ne disposer d’aucune connaissance du modèle d’apprentissage, ni d’aucun accès par requête, c’est une configuration de type « boîte noire ». Il s’agira alors pour l’attaquant de produire une altération estimée par rapport à des systèmes aux objectifs similaires.
Quelle défense face à ces attaques ?
Ces attaques constituent une véritable contrainte en terme de sécurité et apparaîssent comme une arme très efficace pour les cyber délinquants contre laquelle les forces de sécurité doivent dès à présent se prémunir. Mais, elles ne doivent pas être les seules : les constructeurs automobiles, les publicitaires, les assureurs ou encore les banquiers par exemple doivent aussi être en mesure de garantir les services proposés en consacrant une part non négligeable de leur développement aux tests de robustesse des systèmes.
Pour faire face aux attaques adverses, la première condition est d’en comprendre le fonctionnement. Ces différents altérations exploitent en effet l’essence même du fonctionnement de l’ intelligence artificielle à savoir la difficulté de généralisation et celle d’appréhender la non linéarité par les composants matériels. Les impostures s’attaquent aux caractéristiques des jeux de données qui sont utiles à la reconnaissance mais fragiles à l’imposture. L’enjeu pour la défense est alors de modifier le jeu de donnée d’apprentissage pour le centrer sur les variables les plus robustes à l’imposture tout en conservant une bonne capacité de reconnaissance.
Image du jeux de donnée d'origine (1)
Image du jeux de donnée rendu robuste (Michael Sok)
Face aux attaques adverses, la solution réside ainsi dans une modification de la phase d’apprentissage malheureusement au risque d’une baisse du niveau de performance. Lors de cette phase, il conviendra de multiplier les modèles de prédictions en fondant l’analyse sur des méthodes différentes. L’objectif est d’insérer des aléas pour rendre inexploitables les failles de confidentialité. Cela complique la tâche de l’attaquant soit en multipliant les solutions possibles, soit en proposant des modèles différents.
Il est également intéressant d’évaluer l’évolution de performance d’un système confronté à du bruit et de déterminer le bruit minimal qui entraîne systématiquement une mauvaise classification.
Les possibilités de défense sont donc nombreuses et souvent adaptées à la forme de l’attaque ce qui peut potentiellement nuire à leur généralisation. Diverses plateformes existent en open source permettant de développer des méthodes défensives capables d’inhiber en partie les attaques adverses mais de nombreux travaux restent encore à produire pour tendre vers une connaissance réversible du fonctionnement des systèmes. Il s’agit aujourd’hui pour faire face aux attaques d’établir un compromis acceptable entre la performance attendu et le niveau de robustesse souhaité au regard de la finalité de l’application. L’enjeu de la robustesse des systèmes est ainsi considérable car il a trait au niveau de performance, à la capacité de déploiement et participe à l’indispensable confiance à accorder aux systèmes automatiques.
(1) « Adversarial Examples Are Not Bugs, They Are Features » Andrew Ilyas, Shibani Santurkar, Dimitris Tsipras, Logan Engstrom, Brandon Tran, Aleksander Madry, Part of Advances in Neural Information Processing Systems 32 (NeurIPS 2019)