Une étude révèle que ChatGPT échoue dans l'évaluation du risque cardiaque

Une étude révèle que ChatGPT échoue dans l'évaluation du risque cardiaque

Accueil » Parents » Étapes » Enfant » Une étude révèle que ChatGPT échoue dans l'évaluation du risque cardiaque

Malgré la capacité signalée de ChatGPT à réussir les examens médicaux, de nouvelles recherches indiquent qu'il serait imprudent de s'y fier pour certaines évaluations de santé, par exemple si un patient souffrant de douleurs thoraciques doit être hospitalisé.

Dans une étude portant sur des milliers de cas simulés de patients souffrant de douleurs thoraciques, ChatGPT a fourni des conclusions incohérentes, renvoyant différents niveaux d'évaluation du risque cardiaque pour exactement les mêmes données de patients. Le système d'IA générative n'a pas non plus réussi à correspondre aux méthodes traditionnelles utilisées par les médecins pour évaluer le risque cardiaque d'un patient. Les résultats ont été publiés dans la revue PLOS UN.

“ChatGPT n'agissait pas de manière cohérente”, a déclaré l'auteur principal, le Dr Thomas Heston, chercheur au Elson S. Floyd College of Medicine de l'Université de l'État de Washington. “Avec exactement les mêmes données, ChatGPT donnerait un score de risque faible, puis la prochaine fois un risque intermédiaire, et occasionnellement, cela irait jusqu'à donner un risque élevé.”

Les auteurs pensent que le problème est probablement dû au niveau de caractère aléatoire intégré à la version actuelle du logiciel, ChatGPT4, qui l'aide à varier ses réponses pour simuler le langage naturel. Ce même caractère aléatoire ne fonctionne toutefois pas bien pour les utilisations en soins de santé qui nécessitent une réponse unique et cohérente, a déclaré Heston.

“Nous avons constaté qu'il y avait beaucoup de variations, et que ces variations d'approche peuvent être dangereuses”, a-t-il déclaré. “Cela peut être un outil utile, mais je pense que la technologie évolue beaucoup plus vite que notre compréhension. Il est donc extrêmement important que nous effectuions beaucoup de recherches, en particulier dans ces situations cliniques à enjeux élevés.”

Les douleurs thoraciques sont des plaintes courantes dans les salles d'urgence, obligeant les médecins à évaluer rapidement l'urgence de l'état du patient. Certains cas très graves sont faciles à identifier grâce à leurs symptômes, mais ceux à faible risque peuvent être plus délicats, a déclaré Heston, en particulier lorsqu'il s'agit de déterminer si une personne doit être hospitalisée pour observation ou renvoyée chez elle et recevoir des soins ambulatoires.

Actuellement, les professionnels de la santé utilisent souvent l’une des deux mesures appelées TIMI et HEART pour évaluer le risque cardiaque. Heston a comparé ces échelles à des calculatrices, chacune utilisant une poignée de variables, notamment les symptômes, les antécédents médicaux et l'âge. En revanche, un réseau neuronal d’IA tel que ChatGPT peut évaluer rapidement des milliards de variables, ce qui signifie qu’il pourrait potentiellement analyser une situation complexe plus rapidement et de manière plus approfondie.

Pour cette étude, Heston et son collègue, le Dr Lawrence Lewis de l'Université de Washington à Saint-Louis, ont d'abord généré trois ensembles de données de 10 000 cas randomisés et simulés chacun. Un ensemble de données contenait les sept variables de l'échelle TIMI, le deuxième ensemble comprenait les cinq variables de l'échelle HEART et un troisième contenait 44 variables de santé randomisées.

Sur les deux premiers ensembles de données, ChatGPT a donné une évaluation des risques différente dans 45 à 48 % des cas sur des cas individuels d'un score TIMI ou HEART fixe. Pour le dernier ensemble de données, les chercheurs ont analysé les cas quatre fois et ont constaté que ChatGPT n'était souvent pas d'accord avec lui-même, renvoyant différents niveaux d'évaluation pour les mêmes cas 44 % du temps.

Malgré les résultats négatifs de cette étude, Heston voit un grand potentiel pour l’IA générative dans les soins de santé, avec un développement ultérieur.

Par exemple, en supposant que les normes de confidentialité puissent être respectées, des dossiers médicaux entiers pourraient être chargés dans le programme et, en cas d'urgence, un médecin pourrait demander à ChatGPT de fournir rapidement les faits les plus pertinents sur un patient. De plus, pour les cas difficiles et complexes, les médecins pourraient demander au programme de générer plusieurs diagnostics possibles.

“ChatGPT pourrait être excellent pour créer un diagnostic différentiel et c'est probablement l'une de ses plus grandes forces”, a déclaré Heston.

“Si vous ne savez pas vraiment ce qui se passe avec un patient, vous pouvez lui demander de vous donner les cinq principaux diagnostics et le raisonnement derrière chacun d'eux. Cela pourrait donc être utile pour vous aider à réfléchir à un problème, mais ce n'est pas bon pour donner la réponse. »

Publications similaires