La reconnaissance faciale : une pluralité de méthodes, une pluralité d’usages en sécurité

  • Home
  • Publications
  • La reconnaissance faciale : une pluralité de méthodes, une pluralité d’usages en sécurité

La reconnaissance faciale : une pluralité de méthodes, une pluralité d’usages en sécurité

De Big Brother au crédit social en Chine, la reconnaissance faciale anime les débats sur le risque d’une société de surveillance qui exploiterait cette technologie à des fins de contrôle de la population. Alors que la Chine a mis en place un système de cotation individuelle fondé sur différentes méthodes d’intelligence artificielle, toutes les critiques ou contestations semblent converger vers la reconnaissance faciale. Pourtant, la reconnaissance faciale automatique progresse continuellement pour atteindre un niveau de performance au-delà des capacités humaines dans certains cas d’usage. Alors cette discipline doit-elle réellement effrayer au point de voir naître des actions pour encourager un moratoire et se priver de perspectives considérables que ce soient dans des applications « grand public » ou plus spécialisées? La question à se poser n’est-elle pas de savoir si c’est l’outil qui est en cause ou celui qui le tient, voire le cadre de son usage? Bien souvent l’incompréhension nait d’un manque de connaissance. Pour pallier cet écueil, tentons de comprendre comment fonctionne la reconnaissance faciale et d’en décrire les utilisations pratiques notamment dans le domaine de la sécurité.

Une discipline en évolution continue

La reconnaissance faciale automatique n’est pas une discipline nouvelle tant elle est le symbole de notre identité [5]. Les premières applications sont apparues en 1964 avec les travaux de Woodrow Bledsoe et de son équipe. Dès lors, la discipline n’a cessé de croître par l’intérêt suscité comme par le niveau de performance. Longtemps, l’idée a été d’imaginer la reconnaissance automatique à partir de la superposition d’images [1][3][13] ou de l’extraction de caractéristiques physiques [4] comme la hauteur des yeux, du nez, de la bouche, des oreilles, l’écart entre les yeux. Ces éléments, proches de notre perception humaine, constituaient les vecteurs caractéristiques des visages. L’exploitation de cette modalité biométrique en dépit d’avances théoriques pertinentes a connu des échecs applicatifs retentissants et médiatisés, souvent causés par une mise en situation opérationnelle trop rapide et dès lors pas assez évaluée. En 2003, à Tampa, la reconnaissance faciale a été abandonnée par la municipalité pour un manque de performance au regard de l’objectif fixé à savoir la reconnaissance de criminels à partir d’images de vidéoprotection [10]. En réalité, la difficulté résidait bien plus sur la qualité des images extraites de la vidéoprotection qui était d’une résolution trop faible, que sur l’algorithme de reconnaissance ou plutôt sur la qualité de ce dernier au vu des images présentées.  En effet la performance de la reconnaissance faciale dépend de facteurs comme la résolution ou la définition des images d’entrainement, des images de questions, des images de comparaison mais aussi comme la compression potentielle des images, les conditions de luminosité lors de la phase d’acquisition ou encore la mauvaise orientation des visages.

Aujourd’hui, le niveau de performance de la reconnaissance faciale automatique est supérieur à celui de la reconnaissance par des humains dès lors qu’il s’agit de reconnaître des visages inconnus. A cette capacité de reconnaissance s’ajoute aussi le temps d’analyse qui est largement plus rapide dans le cadre d’une reconnaissance automatique. Les performances ont évolué significativement depuis les tests de Tampa pour atteindre un niveau proche de la perfection dans des environnements contrôlés. Chaque année, de nombreux centres de recherche universitaires comme industriels participent à des évaluations internationales et ouvertes [14][15][16][17][18] à ceux qui souhaitent tester leur systèmes, tels les « Face Recognition Vendor Test (FRVT) » du « National Institute of Standards and Technology (NIST) » .

En terme de reconnaissance faciale, quatre grandes catégories d’utilisation peuvent être envisagées.

  • l’identification : elle consiste à reconnaître un individu au sein d’un ensemble fermé.
  •  La vérification : elle consiste à reconnaître un individu au sein d’un ensemble ouvert.
  • Le suivi ou le « tracking » : elle consiste à suivre un individu au sein d’un flux vidéo.
  • La surveillance : elle consiste à reconnaître une personne en temps réel à partir d’une séquence vidéo.

Chaque mode d’utilisation nécessite non pas une mais des méthodes différentes à appliquer. La différence entre les méthodes proposées dans la littérature réside dans le choix des caractéristiques, l’extraction de celles-ci, et les techniques de classification ou modélisation. Les méthodes de reconnaissance faciale peuvent être classées en trois grandes familles : les méthodes globales, les méthodes locales et les méthodes hybrides

Les méthodes globales ou holistiques utilisent le visage dans sa globalité comme entrée du système de reconnaissance. Une des méthodes les plus connues dans cette catégorie est celle développée par M. Turk et P. Pentland : les Eigenfaces [12][7][8]. Elle est basée sur l’Analyse en Composantes Principales (ACP ou PCA en anglais) et sur les travaux de Teuvo Kohonen et Kirby et Sirovich en 1989. Mais plusieurs autres méthodes ont été développées en se basant sur l’ACP (Analyse en composantes principales) : les probabilistic Eigenfaces fondées sur les méthodes bayesiennes [13], les Fisherfaces [2] qui utilisent, en plus de l’ACP [11], l’analyse discriminante linéaire aussi appelée Fisherface (FLD/LDA). Dans le cas de l’utilisation de la LDA, qui est aussi une approche statistique, la démarche consiste à classer des échantillons inconnus avec des échantillons connus, tout en maximisant la variance inter classe (entre deux individus différents) et minimiser la variance intra classe (pour un même individu). Cela signifie que plusieurs images de postures différentes d’un même individu sont utilisées. Parmi les autres méthodes globales, nous retrouverons : la méthode des SVM [9], qui utilise les Support Vector Machine (SVM) ou séparateur à vastes marges pour classifier et la méthode des analyses en composantes indépendantes. Il existe également des techniques basées sur les réseaux neuronaux comme la Probabilistic Decision-Based Neural Network (PDBNN) [6].

Dans le cadre des méthodes locales, les caractéristiques locales sont utilisées comme entrées du système de reconnaissance. Il y a donc une phase d’extraction de ces paramètres locaux tels que le nez, la bouche, les yeux, et de leurs coordonnées. Ensuite, vient une phase de classification et d’analyse statistique. Ces méthodes sont réputées moins sensible aux changements de pause que les méthodes globales, mais nécessitent de disposer d’images de bonne résolution. La plupart de ces systèmes ne fonctionnent pas si les yeux sont fermés ou masqués. Ce sont les premières méthodes à avoir été développées par Kelly en 1970 et Kanade en 1973 : une mesure des distances et des angles était prise entre différents points anthropométriques (points pertinents du visage communs à chacun), puis il y avait une phase de comparaison. Par la suite des techniques plus précises ont été développées : la méthode de Cox en 1996, qui avait l’inconvénient d’utiliser aussi des mesures extraites manuellement, puis des méthodes basées sur les modèles cachés de Markov (Hidden Markov Model HMM), qui n’ont plus besoin d’extraction manuelle des points. Un des systèmes les plus performants de cette catégorie est le graph matching system développé par Okada et al. en 1998, il est basé sur  les DLA : Dynamic Link Architecture. Cette technique a ensuite été étendue aux Elastic Bunch Graph Matching qui donnent de bons résultats. Dans cette méthode, des points caractéristiques sont localisés de manière manuelle ou algorithmique, puis un treillis élastique virtuel est appliqué sur l’image de visage à partir de ces points. Chaque point représente un nœud labellisé auquel est associé un jeu de coefficients d’ondelettes complexes de Gabor, appelés Jet. La comparaison se fait sur une mesure de similarité entre les différents jets et la longueur des segments du treillis de deux images. Les réseaux neuronaux sont aussi utilisés dans cette catégorie avec par exemple, la méthode self-organizing map.

Enfin, les méthodes hybrides qui comme leurs noms l’indiquent, utilisent à la fois le visage dans sa globalité mais aussi des caractéristiques locales. Pentland a développé une de ces méthodes : les modular Eigenfaces aussi appelée Eigenmodules. Quelques fois, les méthodes globales sont utilisées uniquement sur la partie supérieure de la face, la partie inférieure (la bouche) étant considéré comme trop variante. Parmi ces différentes méthodes, il est difficile de définir la meilleure. En effet, la qualité des systèmes dépend de plusieurs paramètres et toutes les méthodes ne sont pas égales vis-à-vis de ces critères. Il n’en demeure pas moins qu’une étape d’ajustement des images, une étape d’extraction de caractéristiques, et une étape de comparaison des caractéristiques à des fins de reconnaissance sont communes et nécessaires.

Depuis quelques années, il est une discipline qui a bouleversé le niveau de performance des systèmes : les réseaux de neurones profonds, et particulièrement les réseaux convolutifs se sont imposés par leur efficacité dans le domaine de la reconnaissance faciale tout simplement parce que les méthodes plus classiques ne permettent pas de saisir les invariants pertinents cachés dans les pixels de l’image. L’exploitation des réseaux de neurones entre dans la catégorie des méthodes globales. Avec les réseaux de neurones, le vecteur de caractéristiques d’un visage n’a plus de lien explicite avec notre perception humaine, c’est aussi pour cette raison qu’ils sont considérés comme moins explicables, ces invariants étant pour le moment trop abstraits. Les réseaux les plus pertinents sont les réseaux convolutifs qui présentent l’intérêt, outre un niveau de performance très élevé, d’effectuer automatiquement l’extraction et la description des caractéristiques.

Des applications diverses et encadrées dans le champ de la sécurité

Dans le domaine de la sécurité, les perspectives d’usage pour lutter contre la criminalité ou le terrorisme mais aussi pour améliorer la recherche de personnes disparues ou l’identification de cadavres, sont très nombreuses et l’industrie privée comme les géants du numériques l’ont bien compris.

La reconnaissance faciale peut être exploitée en mode direct à des fins de contrôles d’accès. C’est le cas lors du passage d’une frontière notamment au sein des aéroports. L’objectif est de s’assurer que la personne qui se présente n’est pas une personne recherchée dont le visage serait inclus dans des bases de données. Il est à préciser que le visage de la personne passant la frontière n’est, quant à lui, pas collecté. Ce type d’application présente l’intérêt d’apporter une réponse rapide et directement exploitable. Deux types d’application peuvent être envisagées en terme de contrôle d’accès en fonction du degré de sécurité recherché : soit le système autorise automatiquement l’accès des personnes sans contrainte humaine (degré de sécurité simple), soit le système est complété par un contrôle humain (degré de sécurité double). Dans un aéroport, l’objectif est à la fois de contrôler les individus qui transitent mais peut aussi être de faciliter le passage à l’immigration pour les personnes détentrices d’un passeport électronique. La question de la validation du système automatique est importante dans le cas où le système fonctionne sans assistance humaine. En effet, le système mis en place se doit de ne pas générer trop de fausses alarmes sinon une telle application génère plus de désagréments qu’elle n’apporte de solutions.

Dans le domaine judiciaire, et notamment en terme d’assistance à l’enquêteur, la reconnaissance faciale peut également s’avérer très utile. Elle consiste en général à comparer une photographie (pièce de question) avec un suspect ou la photo d’un suspect (pièce de comparaison). La photographie que nous appellerons de question est en général issue d’enregistrements vidéo de caméras de surveillance. Dans une telle situation, l’enquêteur doit faire face à différentes difficultés. Tout d’abord l’image de question est en général de mauvaise qualité. Ensuite, il ne peut savoir si l’individu présent est ou non déguisé (fausse barbe, …) ou utilise un artifice (casquette…).  Les possibilités qui s’offrent à l’enquêteur dans un tel cadre sont multiples. En effet, il peut ajouter à la simple comparaison visuelle, une reconnaissance automatique qui parfois permet de faire le tri au sein d’une base de données importante ou d’identifier directement l’individu. La question est alors de déterminer quelle est la valeur probante d’une telle reconnaissance. En fait, dans ce cas, cette question est très facile à résoudre. Cette reconnaissance ou identification est une orientation pour l’enquêteur qui devra de toute façon confirmer cette orientation par d’autres éléments.

La reconnaissance faciale automatique présente également des opportunités eu égard au temps d’analyse. C’est particulièrement pertinent lors d’affaires de pédophilie pour identifier, durant le temps de la garde à vue, un individu qu’il soit auteur ou victime parmi des milliers d’images. C’est également le cas lors de recherche de personne disparue où les premières heures peuvent s’avérer déterminantes pour la survie. C’est enfin utile dans le cadre de la recherche de terroristes en fuite suite à la commission d’un attentat, notamment, pour prévenir toute réitération.

En matière criminalistique, la problématique est quelque peu différente des cas présentés ci-dessus. En effet, l’expert répond à la question d’un magistrat et cette information nécessite d’être mesurée. En outre, l’expertise judiciaire utilise généralement la reconnaissance faciale dans un cadre de vérification contrairement au cas précédent où nous sommes souvent dans un cadre d’identification. Enfin, l’expert judicaire dispose de tout le temps nécessaire pour mener à bien son travail de comparaison. Il peut, suivant les cas, procéder à de nouvelles prises de vue d’un visage pour réaliser ses propres pièces de comparaison. L’expert judiciaire, dans le domaine de la validation de son travail, doit néanmoins toujours garder en tête que la technique de validation, quelle qu’elle soit, ne lui garantit pas une totale fiabilité de résultat. En effet, ce point qui touche aux limites des campagnes d’évaluation signifie qu’une expertise est toujours un cas particulier qui de toute façon ne sera jamais totalement couvert par une campagne d’évaluation. Les limites tiennent à la qualité spécifique des images de question, des images de comparaison, de la luminosité, de la pose, de l’inclinaison du visage… De même, certaines personnes ont des visages tellement communs qu’ils ne seront jamais bien reconnus alors que d’autres qui sont très particuliers le seront toujours. Il convient donc de comprendre que quels que soient les résultats de la validation d’un système, aussi performant soit-il, ces derniers ne garantissent pas une reconnaissance fiable absolument. L’expert se doit donc d’être en toute situation, particulièrement prudent et pondéré quant à la réponse fournie.

La reconnaissance faciale est souvent considérée comme intrusive ou encore attentatoire aux libertés. Si la reconnaissance faciale automatique offre de réelles opportunités pour améliorer le mieux vivre ensemble et accroître la protection de la population, une utilisation non-encadrée pourrait se révéler nuisible et porter atteinte aux droits des personnes et à leurs libertés. L’exemple du crédit social en Chine met en lumière des utilisations qui ne sont ni autorisées, ni souhaitées en Europe. La menace ne réside pas tant en réalité dans la reconnaissance faciale que dans l’intention de son usage. Comme évoqué, lorsqu’il convient de retrouver un mineur disparu, il peut être pertinent d’exploiter la capacité de reconnaissance automatique, lorsqu’il s’agit d’identifier un pédophile dans une enquête judiciaire, il peut être pertinent de bénéficier d’une approche automatique, lorsqu’il convient de prévenir la réitération d’actes de grande criminalité ou de terrorisme, là encore la reconnaissance faciale peut aider. Ces différents cas d’usage sont bien évidemment encadrés par la loi que ce soit par le droit pénal ou le droit administratif. Les usages bienveillants comme malveillants à l’instar de nombreuses disciplines sont possibles. Mais plus que l’usage, le cadre d’emploi est essentiel à définir de même que la capacité humaine à interpréter les résultats. Un système n’est efficace qu’au regard du problème posé, de la base de données et de ses conditions d’usage. L’IA présente cet intérêt de ne pas être une discipline figée mais bien évolutive qui nécessite d’être évaluée à chaque nouvelle utilisation. La reconnaissance faciale doit son succès mais aussi peut être les craintes qu’elle inspire, à son niveau de performance comme à sa facilité de mise en oeuvre et de déploiement. Il apparaît, dès lors, essentiel de prévenir toute réaction excessive que ce soit en terme d’usages que de réglementation et un juste équilibre, capable de préserver les libertés individuelles et de protéger la population notamment dans les évènements collectifs, doit pouvoir être mis en place.

[1] Austin-Smith D (1999) .Video superimposition at the C.A. Pound Laboratory 1987 to 1992. J Forensic Sci, 44,4 (abstract).
[2] P.N. Belhummeur and al. EigenFaces vs FisherFaces: Recognition using class linear projection – IEEE Trans. Patt Anal. Mach. Intell. 19,696-710 – 1997
[3] Dorin RBJ (1983) Photographic superimposition. J Forensic Sci ,28:724-734.
[4] Halberstein RA (2001) . The application of anthropometric indices in forensic photography : three cases studies. J Forensic Sc , 46,6 (abstract).
[5] Le Breton D & Grosbois Ph (1993) . Le visage, symbole de notre identité. Le journal des Psychologu es, n° 105 :14-18.
[6] Lawrence S. , Giles C. L. , Tsoi A. C. , and Back A. D. , “Face recognition: A convolutional neural-network approach”, IEEE Trans. Neural Netw. 8, 98–113, 1997.
[7] B. Moghaddam and A. P. Pentland – Eigenfaces for Recognition – Journal of Cognitive Neurosciences, 1991
[8] Pentland A. , Moghaddam B. , and Starner T. , “View-based and modular eigenspaces for face recognition”,  Proceedings, IEEE Conference on Computer Vision and Pattern Recognition, 1994.
[9] Phillips P. J. , “Support vector machines applied to face recognition”, Adv. Neural Inform. Process. Syst. 11, 803–809, 1998.
[10] P. Perrot, C. Torres, J.A. Laran: L’identification biométrique en vidéosurveillance. Proc. WISG 2008
[11] Romdhani S. , Ph.D. Thesis : Face recognition using principal components analysis.
[12]Turk M. A.  and Pentland A. P. , “Eigenfaces for Recognition”, Journal of Cognitive Neuroscience, 1991
[13] Vanezis P & Brierkey C ( 1996). Facial image comparison of crime suspects using video superimposition. J Forensic Sci Soc , 36:27-33.
[14] Face Recognition Vendor Test 2002 Performance Metrics, by P.J. Grother, R.J. Micheals and P. J. Phillips. Proceedings 4th International Conference on Audio Visual Based Person Authentication, 2003. (435KB)
[15] The FERET Evaluation Methodology for Face-recognition Algorithms, by P. J. Phillips, H. Moon, S. A. Rizvi, and P. J. Rauss, IEEE trans. Pattern Analysis and Machine Intelligence. (625KB)
[16] Face Recognition Grand Challenge – http://face.nist.gov/frgc
[17] P. Jonathon Phillips, W. Todd Scruggs, Alice J. O’Toole, Patrick J. Flynn, Kevin W. Bowyer, Cathy L. Schott, Matthew Sharpe – FRVT 2006 and ICE 2006 Large-Scale Results – 2007
[18] P.J. Philips and al. Overview of the face recognition grand challenge – 2005

Patrick Perrot
Coordonnateur pour l’intelligence artificielle
Service de la Transformation
Gendarmerie nationale
Expert EuropIA

Leave A Comment