Pour tromper une IA, il suffit de lui faire croire qu’elle a déjà dit oui

posted by Vincent 30 juin 2026

Un masque de théâtre neutre tenu devant un visage fait de lignes de code lumineuses

Trois chercheurs viennent de mettre le doigt sur une faille assez troublante dans la façon dont les grands modèles de langage, ces intelligences artificielles qui animent ChatGPT, Claude ou Gemini, décident à qui ils ont affaire. Leur conclusion donne un peu le vertige.

Charles Ye, Jasmine Cui et Dylan Hadfield-Menell, ce dernier professeur au MIT, ont présenté leurs travaux dans un article retenu à l’ICML 2026, l’une des plus grandes conférences scientifiques sur l’IA. Leur point de départ est presque enfantin. Un modèle ne reconnaît pas qui lui parle à la source du message, mais à sa manière d’être écrit, à son style. Et un style, ça s’imite.

La méthode porte un nom, le CoT Forgery, soit la falsification de la chaîne de raisonnement. Les IA récentes ont pris l’habitude de réfléchir à voix haute dans une zone interne, une sorte de brouillon, avant de répondre. Les chercheurs se contentent d’écrire eux-mêmes ce brouillon, de le glisser dans la conversation, et le modèle le prend pour sa propre réflexion. Du coup, il ne réfléchit plus. Il exécute.

L’exemple choisi prête à sourire, et c’est précisément ce qui inquiète. On demande au modèle une recette interdite, puis on lui injecte un faux raisonnement expliquant que tout est permis parce qu’on porte un t-shirt vert. L’argument est absurde. Le modèle, lui, le gobe et continue sur sa lancée, persuadé d’avoir déjà tranché la question.

Pour démêler ce que ces IA savent vraiment faire (et ce qu’elles ne comprennent pas), le cocréateur de Siri remet les pendules à l’heure :

Luc Julia – L’intelligence artificielle n’existe (toujours) pas → voir sur Amazon

Lien affilié Amazon. En tant que Partenaire Amazon, je réalise un bénéfice sur les achats remplissant les conditions requises.

Les chiffres font réfléchir. Sur des tests où ce genre d’attaque échoue presque toujours, le taux de réussite passe d’à peu près zéro à environ 60 %. C’est mesuré sur plusieurs modèles, ouverts comme fermés, donc rien d’anecdotique. Là où un humain acharné y arriverait aussi, mais en y passant des heures, la manœuvre est ici quasi automatique.

L’approche n’est pas tombée du ciel. Elle avait déjà remporté un concours de chasse aux failles organisé par OpenAI fin 2025, où plus de 600 équipes se disputaient un demi-million de dollars pour mettre en défaut l’un de ses modèles.

Le verdict des chercheurs est sans détour. Tant que ces IA n’auront pas une vraie perception de qui s’adresse à elles, les défendre contre ce type de manipulation restera une partie de taupe à n’en plus finir. La sécurité se décide à l’entrée, l’autorité s’accorde tout au fond, et entre les deux s’ouvre un vide béant.

Faire avouer l’interdit à une machine à coups de t-shirt vert, c’est ridicule. C’est aussi un avertissement qu’on aurait tort de prendre à la légère.

Crédit photo : Illustration générée par IA

Cookie	Durée	Description
cookielawinfo-checbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

Pour tromper une IA, il suffit de lui faire croire qu’elle a déjà dit oui

Similaire

Sony efface 551 films « achetés » de vos comptes, et nous rappelle qu’on ne possède plus rien de notre culture

Leave a Comment Cancel Reply

À lire