Actualité : ChatGPT arrêtera enfin de mentir pour confesser ses véritables intentions

il y a 2 day 3

Publicité, votre contenu continue ci-dessous

Publié le 03/12/25 à 22h45

Nos réseaux :

ChatGPT et les autres grands modèles de langage ont la fâcheuse tendance à dire ce que l'utilisateur souhaite entendre, une complaisance que les chercheurs appellent sycophantie qui les pousse à flatter leur interlocuteur au détriment de la vérité.

ChatGPT

ChatGPT est le chatbot d’OpenAI, basé sur le modèle d’intelligence artificielle GPT, permettant de répondre à toutes sortes de questions ou requêtes. Disponible en version gratuite en ligne.

Licence : Licence gratuite
Auteur : OpenAI
Systèmes d'exploitation : Windows 10 / 11, macOS Apple Silicon, Service en ligne, Android, iOS iPhone / iPad
Catégorie : IA

Pire encore, et les utilisateurs d'IA ne le savent que trop bien, les chatbots affirment des informations fausses avec beaucoup de conviction, ce qu'on appelle les hallucinations. Des comportements qui sont la conséquence de leur méthode d'entraînement. Les modèles apprennent à produire des réponses que l'on attend, ce qui renforce donc leur propension à plaire au lieu d'informer.

ChatGPT fera des "confessions" pour plus d'honnêteté

Publicité, votre contenu continue ci-dessous

OpenAI travaille désormais sur une nouvelle approche pour corriger ce problème de ChatGPT. L'idée repose sur un mécanisme que la startup appelle "confessions". Le principe consiste à entraîner l'IA à reconnaître d'elle-même qu'elle a adopté un comportement problématique.

Le modèle est poussé à produire une autre réponse, en plus de la principale, qui explique comment il est parvenu à sa conclusion et quelles réflexions ont été faites pour y arriver. Les réponses principales des modèles sont d'habitude jugées selon des critères d'utilité, des attitudes et de conformité aux instructions.

Les confessions sont quant à elles basées sur l'honnêteté, une distinction importante car elle empêche toute incitation à dissimuler un comportement douteux. Si le modèle avoue de lui-même qu'un test a été contourné ou fait semblant d'être moins performant qu'il ne l'est en réalité ou de désobéir à des instructions, cet aveu augmente sa récompense au lieu de la diminuer.

Le modèle n'a donc aucun intérêt à mentir sur ses propres agissements. Les chercheurs espèrent donc que cette technique poussera les modèles à faire preuve de transparence sur leurs actions, même les plus douteuses. L'objectif à terme est de permettre que les IA soient capables d'assumer leurs propres erreurs ou manipulations au lieu de les dissimuler derrière une confiance absolue.

Publicité, votre contenu continue ci-dessous

Suivez toute l'actualité des Numériques sur Google Actualités et sur la chaîne WhatsApp des Numériques

Envie de faire encore plus d'économies ? Découvrez nos codes promo sélectionnés pour vous.

Publications qui peuvent vous intéresser

Lire l’article en entier