Modéliser l'humain, humaniser le modèle : quand l'IA apprend à décoder nos visages
Publié par Alexandre Bruckert, le 4 juin 2026
Avez-vous déjà remarqué à quel point une simple discussion en face à face est une chorégraphie invisible ? Quand nous échangeons, il n’y a pas que nos bouches qui travaillent pour communiquer de l’information. Un sourcil qui se lève, un plissement d'yeux, un léger hochement de tête... Tous ces micro-signaux forment une partie de ce que l'on appelle la communication non-verbale. Ce type de communication est essentiel à la bonne compréhension de l’autre lors d’échanges ; ces signaux comportementaux sont particulièrement riches dans la quantité d’information qu’ils peuvent transmettre, et forment une composante essentielle de notre empathie.
Etant donné la place prépondérante de la communication non-verbale dans nos échanges, il semblerait important d’intégrer cet aspect à toutes les interfaces informatiques avec lesquelles nous communiquons. Imaginez un assistant virtuel destiné à accompagner des personnes âgées isolées ou des enfants hospitalisés. Si cet assistant impassible ou réagit de manière décalée, l'interaction devient froide, voire angoissante. En revanche, si la machine est capable de repérer un signe de fatigue ou de douleur sur le visage, et d'y répondre instantanément par une expression de compassion ou un ton de voix adapté, le lien change du tout au tout.
Ce besoin de réalisme et de réactivité est aussi crucial dans la télémédecine que dans l'éducation à distance, ou la création d'avatars numériques plus réalistes pour le grand public. En comprenant l’humain, l’IA devient un outil plus fluide, plus accessible et, en fin de compte, mieux accepté. C’est dans cette optique de recherche que s’inscrit notre projet PULSAR, cofinancé par la Région Pays-de-la-Loire, Nantes Université et le Laboratoire des Sciences du Numérique de Nantes (LS2N, UMR 6004).
Qu'est-ce que l'étude des expressions faciales pour une IA ?
Pour nous, humains, décoder ces expressions est une seconde nature. Dès le plus jeune âge, nous apprenons à comprendre la signification d’un sourire, d’un froncement de sourcils. Mais pour une machine, ce décodage est un immense point d'interrogation.
Pour comprendre l'ampleur du défi, il faut se mettre à la place d'un ordinateur. Là où nous saisissons instantanément la joie, l'ennui ou le doute sur un visage, la machine ne perçoit initialement qu'une grille abstraite de pixels ou un maillage de points géométriques. Apprendre à un algorithme à décoder ces données implique de surmonter plusieurs obstacles majeurs qui font toute la richesse – et la complexité – de la communication humaine :
- La fugacité des micro-expressions : Une émotion n'est pas une simple posture figée que l'on pourrait capturer sur une photo. Nos visages sont animés par de très légers mouvements, des micro-expressions spontanées extrêmement brèves, durant parfois moins d'une demi-seconde. Pour une IA, réussir à capter, isoler et analyser ces signaux furtifs avant qu'ils ne disparaissent relève d’un défi technique.
- La subtilité et l'ambiguïté de l'interprétation : Un sourire exprime-t-il toujours le bonheur ? Il peut être de façade, gêné, ironique, ou même masquer une certaine tristesse. Modéliser l'humain, c'est se heurter à cette ambiguïté. L'IA doit non seulement identifier l'activation mécanique d'un muscle (comme l'étirement des commissures des lèvres), mais aussi tenter d'en déduire la véritable signification.
- Le filtre multi-culturel : Nos émotions ne se traduisent pas de manière strictement identique à travers le monde. Les chercheurs étudient depuis longtemps les variations culturelles dans la façon dont nous exprimons et jugeons l'intensité d'une émotion. Ce qui est perçu comme une expression « très marquée » dans une culture peut sembler tout à fait « normale » ou « modérée » dans une autre. Entraîner une IA nécessite donc de prendre en compte cette diversité culturelle, pour éviter de créer un modèle biaisé qui imposerait un standard unique de comportement.
Face à de tels défis, la recherche moderne a compris qu'elle devait abandonner la simple analyse de photos en 2D. Étudier les expressions faciales aujourd'hui, c'est apprendre aux algorithmes à percevoir le monde en « 4D » : en intégrant à la fois le volume et les déformations du visage (la 3D) ainsi que son évolution temporelle continue (la 4e dimension). C'est seulement en capturant cette dynamique globale que la machine passe d'une froide observation géométrique à une compréhension plus fine de nos échanges.
Trois exemples concrets issus de la recherche ligérienne
Pour donner vie à cette vision, nous avons, durant ces deux dernières années, développé des outils concrets qui permettent de franchir de nouvelles étapes dans l’analyse de nos signaux comportementaux :
1. Mesurer notre perception de la force d'une émotion. Pour qu'une IA s'adapte à nous, elle doit savoir si notre émotion est discrète ou extrême. Nous avons, pour ce faire, créé une grande base de données de visages en mouvement et en relief. En faisant évaluer ces animations par plusieurs personnes, nous souhaitons comprendre quelles sont les limites de la perception humaine des expressions faciales : à quel point un mouvement est-il détectable par un humain ? Pouvons nous quantifier le niveau de détail idéal que le modèle devra ensuite imiter ?
2. Créer des personnages virtuels qui savent (enfin) écouter. Quand on discute, l'écoute est aussi importante que la parole. Dans cette optique, nous avons conçu un modèle d'IA capable de générer instantanément les réactions d'un interlocuteur virtuel qui écoute. En analysant la voix et le visage de l'humain en face de lui, l'avatar hoche la tête ou change d'expression en temps réel, sans temps de latence (avec une baisse significative du temps de calcul par rapport aux anciennes techniques).
3. Mieux comprendre le handicap visuel en Réalité Virtuelle. Au-delà du simple dialogue, cette capacité à modéliser le comportement sert aussi la santé et la qualité de vie. Dans des travaux en collaboration avec le service d’ophtalmologie du CHU de Nantes, nous avons utilisé différentes méthodes faisant appel à des modèles d’IA pour analyser les mouvements de tête et de mains de patients naviguant dans un labyrinthe virtuel sous différentes intensités de lumière. En apprenant à l'IA à reproduire ces comportements, nous essayons d’apporter des outils permettant de diagnostiquer et mieux comprendre le quotidien des personnes malvoyantes, sans leur imposer de tests physiques longs et fatigants.
L’équipe du projet
Plusieurs doctorants de l’équipe IPI du Laboratoire des Sciences du Numérique de Nantes (LS2N, UMR 6004) ont participé à divers degrés à ces travaux : Yujie Huang, Badr Tahri-Joutei, et particulièrement Zesheng Wang. Ces travaux ont également été rendus possibles grâce aux contributions de plusieurs étudiants de master : Dongyang Mao, Zhaoyuan Zhang et Xin Le. Un grand merci à toutes ces contributrices et contributeurs pour leur implication et leur enthousiasme !
Le porteur du projet, Alexandre Bruckert, est maître de conférence en informatique à Polytech Nantes, exerçant sa recherche au LS2N. Ses intérêts de recherche portent sur l’analyse de signaux comportementaux, la perception humaine, et leurs applications dans le développement de systèmes de traitement d’images automatiques.
