
Trois chercheurs viennent de mettre le doigt sur une faille assez troublante dans la façon dont les grands modèles de langage, ces intelligences artificielles qui animent ChatGPT, Claude ou Gemini, décident à qui ils ont affaire. Leur conclusion donne un peu le vertige.
Charles Ye, Jasmine Cui et Dylan Hadfield-Menell, ce dernier professeur au MIT, ont présenté leurs travaux dans un article retenu à l’ICML 2026, l’une des plus grandes conférences scientifiques sur l’IA. Leur point de départ est presque enfantin. Un modèle ne reconnaît pas qui lui parle à la source du message, mais à sa manière d’être écrit, à son style. Et un style, ça s’imite.
La méthode porte un nom, le CoT Forgery, soit la falsification de la chaîne de raisonnement. Les IA récentes ont pris l’habitude de réfléchir à voix haute dans une zone interne, une sorte de brouillon, avant de répondre. Les chercheurs se contentent d’écrire eux-mêmes ce brouillon, de le glisser dans la conversation, et le modèle le prend pour sa propre réflexion. Du coup, il ne réfléchit plus. Il exécute.
L’exemple choisi prête à sourire, et c’est précisément ce qui inquiète. On demande au modèle une recette interdite, puis on lui injecte un faux raisonnement expliquant que tout est permis parce qu’on porte un t-shirt vert. L’argument est absurde. Le modèle, lui, le gobe et continue sur sa lancée, persuadé d’avoir déjà tranché la question.
Pour démêler ce que ces IA savent vraiment faire (et ce qu’elles ne comprennent pas), le cocréateur de Siri remet les pendules à l’heure :
Luc Julia – L’intelligence artificielle n’existe (toujours) pas → voir sur Amazon
Lien affilié Amazon. En tant que Partenaire Amazon, je réalise un bénéfice sur les achats remplissant les conditions requises.
Les chiffres font réfléchir. Sur des tests où ce genre d’attaque échoue presque toujours, le taux de réussite passe d’à peu près zéro à environ 60 %. C’est mesuré sur plusieurs modèles, ouverts comme fermés, donc rien d’anecdotique. Là où un humain acharné y arriverait aussi, mais en y passant des heures, la manœuvre est ici quasi automatique.
L’approche n’est pas tombée du ciel. Elle avait déjà remporté un concours de chasse aux failles organisé par OpenAI fin 2025, où plus de 600 équipes se disputaient un demi-million de dollars pour mettre en défaut l’un de ses modèles.
Le verdict des chercheurs est sans détour. Tant que ces IA n’auront pas une vraie perception de qui s’adresse à elles, les défendre contre ce type de manipulation restera une partie de taupe à n’en plus finir. La sécurité se décide à l’entrée, l’autorité s’accorde tout au fond, et entre les deux s’ouvre un vide béant.
Faire avouer l’interdit à une machine à coups de t-shirt vert, c’est ridicule. C’est aussi un avertissement qu’on aurait tort de prendre à la légère.
Crédit photo : Illustration générée par IA





