Sciences & Vie

Ces IA médicales peuvent trahir l’identité des patients qui ont servi à les entraîner

posted by Vincent 25 juin 2026
Silhouette humaine composée de données numériques au-dessus d'un électrocardiogramme

On nous avait promis que les données médicales utilisées pour entraîner les intelligences artificielles seraient soigneusement anonymisées. Une étude allemande vient de doucher cette belle assurance.

Des chercheurs de l’université technique de Munich, menés par Moritz Knolle, ont montré qu’un modèle entraîné à poser des diagnostics peut, si on l’interroge avec ruse, révéler quels patients précis figuraient dans ses données d’entraînement. Leurs travaux ont été publiés le 24 juin dans la prestigieuse revue Nature.

La technique porte un nom un peu aride, l’attaque par inférence d’appartenance. En clair, il s’agit de deviner si les données d’une personne ont nourri le modèle, sans jamais avoir eu accès à la base de départ.

Le ressort est presque trop simple pour rassurer. Un modèle se montre toujours un peu plus sûr de lui face à un cas qu’il a déjà rencontré pendant son apprentissage, et c’est précisément cet excès de confiance qui le trahit.

Pour le prouver, l’équipe a passé au crible sept jeux de données cliniques bien réels, mêlant imagerie médicale, électrocardiogrammes et dossiers de santé, puis a entraîné quelque deux cents modèles par jeu afin de mesurer, patient par patient, qui pouvait être démasqué.

Santé et intelligence artificielle (C. Villani, B. Nordlinger)

Pour creuser les promesses et les pièges de l’IA en médecine, l’essai signé Cédric Villani et Bernard Nordlinger :

Santé et intelligence artificielle (C. Villani, B. Nordlinger) → voir sur Amazon

Lien affilié Amazon. En tant que Partenaire Amazon, je réalise un bénéfice sur les achats remplissant les conditions requises.

Le résultat a de quoi inquiéter. Pour certains patients, l’identification réussit presque à coup sûr, alors même que les indicateurs de confidentialité habituels, calculés en moyenne sur l’ensemble du jeu de données, affichaient des chiffres parfaitement rassurants. C’est tout le problème soulevé par l’étude, la moyenne ment, et un audit qui ne regarde que la protection globale d’une base peut gravement sous-estimer le risque réel couru par un individu donné.

Et les plus exposés ne sont pas n’importe qui. Ce sont les personnes sous-représentées dans les données, celles atteintes de maladies rares, les minorités, les profils atypiques. Plus le modèle est gros et puissant, plus le nombre de ces patients vulnérables augmente.

Le danger devient alors très concret. Quand un modèle a été entraîné uniquement sur les patients d’une clinique psychiatrique ou d’un service de génétique, savoir qu’une personne en faisait partie revient à connaître son diagnostic. De quoi nourrir discrimination, chantage ou démarchage visant les plus fragiles, sachant qu’il suffit parfois à l’attaquant d’un simple fragment de bilan sanguin pour vérifier qu’untel était du lot.

Les chercheurs réclament donc des garde-fous vérifiables, des accès strictement contrôlés, et surtout des audits capables de mesurer le risque patient par patient, et plus seulement en moyenne. Car en l’état, l’anonymat promis tenait surtout du vœu pieux.

Crédit photo : Illustration générée par IA

Leave a Comment

À lire