🧠 ChatGPT a-t-il vraiment passé le test de Turing ?

🧠 ChatGPT a-t-il vraiment passé le test de Turing ?

Une étude récente affirme que GPT-4.5 a réussi à tromper des humains dans plus de 70 % des cas lors d’une série de conversations, relançant le débat sur le test de Turing. Mais qu’en est-il vraiment ?

Une percée ou un simple coup d’éclat ?

L’annonce a fait grand bruit : un chatbot aurait réussi le test de Turing, cette célèbre épreuve censée distinguer l’homme de la machine. Mais derrière le titre accrocheur, la réalité s’avère plus nuancée.

L’information provient d’une étude non encore validée par les pairs, menée par Cameron Jones et Benjamin Bergen, deux chercheurs en sciences cognitives à l’Université de Californie à San Diego. L’expérience impliquait quatre chatbots, dont GPT-4o, LLaMa-3.1-405B, ELIZA (l’un des tout premiers programmes de conversation), et GPT-4.5 d’OpenAI.

Face à eux, 248 volontaires humains ont mené huit conversations textuelles chacun, dans lesquelles un interrogateur devait identifier qui, entre deux interlocuteurs, était humain et qui était une IA.

GPT-4.5, indiscernable dans 70 % des cas

Selon les résultats, GPT-4.5 a été confondu avec un humain dans plus de 70 % des cas, ce qui semble satisfaire aux conditions du test de Turing, tel que défini par Alan Turing en 1950. Ce test propose qu’une machine puisse être qualifiée d’intelligente si, dans un échange écrit, elle parvient à tromper un humain sur sa nature non humaine.

À première vue, cette performance semble historique. Mais une lecture plus attentive des détails de l’expérience invite à la prudence.

Une performance scénarisée

En réalité, GPT-4.5 n’a pas été lancé à l’aveugle dans l’exercice. Les chercheurs lui avaient assigné un rôle précis à jouer : celui d’un jeune homme passionné de culture internet et de technologie. Une sorte de “feuille de personnage” conçue pour maximiser ses chances de passer pour humain.

Dans une version précédente du test, sans cette mise en situation, le taux de succès tombait à 36 %. L’expérience montre donc surtout l’efficacité de l’imitation contextuelle, plus que l’émergence d’une véritable intelligence.

Le test de Turing, un concept daté ?

Cette étude relance une ancienne controverse scientifique : le test de Turing est-il encore pertinent ? L’une des principales critiques à son encontre est qu’il confond imitation et intelligence réelle.

Une intelligence artificielle ne pense pas, elle simule des comportements humains à partir de modèles statistiques. Elle n’a pas de conscience, de compréhension profonde ni de raisonnement abstrait, éléments clés de l’intelligence humaine.

Même les auteurs de l’étude en conviennent : les conversations ne duraient que cinq minutes, un délai court qui favorise la tromperie sans trop de profondeur dans l’échange.

Une machine convaincante, pas consciente

Ce que révèle surtout cette étude, c’est la capacité de GPT-4.5 à incarner un personnage crédible, tant que le contexte lui est favorable. C’est une prouesse technologique en termes de traitement du langage, mais pas une preuve de conscience ni d’intelligence au sens humain.

L’intelligence artificielle progresse à grands pas, mais elle reste une imitation, aussi bluffante soit-elle. Comme le soulignait déjà Turing lui-même, la question n’est peut-être pas tant “les machines peuvent-elles penser ?” que “pouvons-nous encore faire la différence ?”