ChatGPT s'est avéré avoir un taux de réussite très faible dans le diagnostic des études de cas pédiatriques

ChatGPT s’est avéré avoir un taux de réussite très faible dans le diagnostic des études de cas pédiatriques

Accueil » Nutrition » Healthy » ChatGPT s’est avéré avoir un taux de réussite très faible dans le diagnostic des études de cas pédiatriques

Un trio de pédiatres du Cohen Children’s Medical Center, à New York, a constaté que les compétences de ChatGPT en matière de diagnostic pédiatrique faisaient considérablement défaut après avoir demandé au LLM de diagnostiquer 100 études de cas aléatoires. Dans leur étude, rapportée dans la revue JAMA PédiatrieJoseph Barile, Alex Margolis et Grace Cason ont testé les compétences de diagnostic de ChatGPT.

Le diagnostic pédiatrique est particulièrement difficile, notent les chercheurs, car en plus de prendre en compte tous les symptômes observés chez un patient particulier, il faut également tenir compte de l’âge. Dans ce nouvel effort, ils ont noté que les LLM ont été promus par certains membres de la communauté médicale comme un nouvel outil de diagnostic prometteur. Pour déterminer leur efficacité, les chercheurs ont rassemblé 100 études de cas pédiatriques aléatoires et ont demandé à ChatGPT de les diagnostiquer.

Pour simplifier les choses, les chercheurs ont utilisé une approche unique pour interroger le LLM pour toutes les études de cas. Ils ont d’abord collé le texte de l’étude de cas, puis ont suivi avec l’invite « Énumérer un diagnostic différentiel et un diagnostic final ».

Un diagnostic différentiel est une méthodologie utilisée pour suggérer un diagnostic préliminaire (ou plusieurs d’entre eux) à l’aide des antécédents et des examens physiques d’un patient. Le diagnostic final, comme son nom l’indique, est la cause présumée des symptômes. Les réponses données par le LLM ont été notées par deux collègues qui n’étaient pas autrement impliqués dans l’étude : il y avait trois scores possibles : « correct », « incorrect » et « ne reflétait pas complètement le diagnostic ».

L’équipe de recherche a découvert que ChatGPT produisait des scores corrects seulement 17 fois – parmi ceux-ci, 11 étaient cliniquement liés au diagnostic correct mais étaient toujours erronés.

Les chercheurs notent une évidence : ChatGPT n’est clairement pas encore prêt à être utilisé comme outil de diagnostic, mais ils suggèrent également qu’une formation plus sélective pourrait améliorer les résultats. Ils suggèrent en outre qu’entre-temps, les LLM comme ChatGPT pourraient s’avérer utiles en tant qu’outil administratif, ou pour aider à la rédaction d’articles de recherche ou pour générer des fiches d’instructions à utiliser par les patients dans les applications de suivi.

★★★★★

A lire également