Comparaison des performances des internes français de chirurgie orthopédique et de l’intelligence artificielle ChatGPT-4/4o aux examens du diplôme d’études spécialisées de chirurgie orthopédique et traumatologique - 08/01/25

Comparing performances of French orthopaedic surgery residents with the artificial intelligence ChatGPT-4/4o in the French diploma exams of orthopaedic and trauma surgery

Doi : 10.1016/j.rcot.2024.12.005

Nabih Maraqa ¹, Ramy Samargandi ², Antoine Poichotte ³, Julien Berhouet ¹, Rayane Benhenneda ^1,⁎
¹ Université de Tours Centre-Val-de-Loire, hôpital Trousseau, CHRU de Tours, faculté de médecine, service de chirurgie orthopédique et traumatologique, Tours, France
² Faculty of medicine, University of Jeddah, Department of Orthopedic Surgery, Jeddah, Arabie saoudite
³ Centre hospitalier Loire-Vendée-Océan, service de chirurgie orthopédique et traumatologique, Challans, France

^⁎Rayane Benhenneda, CHRU de Tours, hôpital Trousseau, service de chirurgie orthopédique, avenue de la République, Chambray-lès-Tours, 37044 Tours cedex, France.CHRU de Tours, hôpital Trousseau, service de chirurgie orthopédiqueavenue de la République, Chambray-lès-ToursTours cedex37044France

Sous presse. Épreuves corrigées par l'auteur. Disponible en ligne depuis le Wednesday 08 January 2025

Résumé

Introduction

Cette étude évalue la performance de ChatGPT, notamment dans ses versions 4 et 4o, à répondre aux questions de l’examen français de chirurgie orthopédique et traumatologique (DES), en comparaison aux résultats des internes français en chirurgie orthopédique. Des recherches antérieures ont étudié les capacités de ChatGPT dans différentes spécialités médicales et examens, avec des résultats variés, en particulier pour l’interprétation d’images radiologiques complexes.

Hypothèse

ChatGPT dans sa version 4o était capable de fournir un score supérieur ou égal (on inférieur) à celui des internes pour l’examen du DES.

Matériel et méthodes

Les capacités de réponse par le modèle Chat-GPT versions -4 et -4o ont été évaluées et comparées aux résultats des internes pour 250 questions issues des épreuves du DES de 2020 à 2024. L’analyse secondaire a porté sur les différences de résultats de l’IA en fonction du type de données à analyser, texte ou images, et du thème des questions posées.

Résultats

Le score obtenu par Chat GPT-4o était équivalent à celui des internes sur les cinq dernières années : 74,8 % pour ChatGPT-4o vs 70,8 % pour les internes (p=0,32). Le taux de bonnes réponses de Chat-GPT était significativement supérieur dans sa dernière version 4o que dans sa version 4 (58,8 %, p=0,0001). L’analyse secondaire en sous-groupe mettait en évidence un défaut de performance de l’IA dans l’analyse graphique des images (taux de réussite respectivement à 48 % et 65 % pour Chat-GPT-4 et -4o). Chat-GPT 4o avait une performance supérieure à la version 4 lorsque les thèmes abordés concernaient le rachis, pédiatrie et membre inférieur.

Conclusion

La performance de ChatGPT-4o est équivalente à celle des étudiants français pour répondre aux questions du DES de chirurgie orthopédique et traumatologique. Des progrès importants ont été notés entre les versions -4 et -4o. L’analyse des questions avec iconographies est une difficulté notable pour les versions de ChatGPT actuelles, avec une tendance pour l’IA à moins bien performer que pour les questions avec analyse de texte seul.

Niveau de preuve

IV ; étude rétrospective observationnelle.

Le texte complet de cet article est disponible en PDF.

Summary

Introduction

This study evaluates the performance of ChatGPT, particularly its versions 4 and 4o, in answering questions from the French orthopedic and trauma surgery exam (Diplôme d’Études Spécialisées [DES]), compared to the results of French orthopedic surgery residents. Previous research has examined ChatGPT's capabilities across various medical specialties and exams, with mixed results, especially in the interpretation of complex radiological images.

Hypothesis

ChatGPT version 4o was capable of achieving a score equal to or higher (not lower) than that of residents for the DES exam.

Methods

The response capabilities of the ChatGPT model, versions 4 and 4o, were evaluated and compared to the results of residents for 250 questions taken from the DES exams from 2020 to 2024. A secondary analysis focused on the differences in the AI's performance based on the type of data being analyzed (text or images) and the topic of the questions.

Results

The score achieved by ChatGPT-4o was equivalent to that of residents over the past five years: 74.8% for ChatGPT-4o vs. 70.8% for residents (P=0.32). The accuracy rate of ChatGPT was significantly higher in its latest version 4o compared to version 4 (58.8%, P=0.0001). Secondary subgroup analysis revealed a performance deficiency of the AI in analyzing graphical images (success rates of 48% and 65% for ChatGPT-4 and 4o, respectively). ChatGPT-4o showed superior performance to version 4 when the topics involved the spine, pediatrics, and lower limb.

Conclusion

The performance of ChatGPT-4o is equivalent to that of French students in answering questions from the DES in orthopedic and trauma surgery. Significant progress has been observed between versions 4 and 4o. The analysis of questions involving iconography remains a notable challenge for the current versions of ChatGPT, with a tendency for the AI to perform less effectively compared to questions requiring only text analysis.

Level of evidence

IV; Retrospective Observational Study.

Le texte complet de cet article est disponible en PDF.

Mots clés : Intelligence artificielle, ChatGPT-4, ChatGPT-4o, Diplôme d’études spécialisées, Chirurgie orthopédique et traumatologique

Keywords : Artificial intelligence, ChatGPT-4, ChatGPT-4o, Diploma of specialized studies, Orthopedic and trauma surgery

Plan

Déclaration de liens d’intérêts

Financement

Contribution des auteurs

Déclaration de l’IA générative et des technologies assistées par l’IA

☆	Ne pas utiliser, pour citation, la référence française de cet article, mais celle de l’article original paru dans Orthopaedics & Traumatology: Surgery & Research, en utilisant le DOI ci-dessus.

Export

Bienvenue sur EM-consulte, la référence des professionnels de santé.
L’accès au texte intégral de cet article nécessite un abonnement.

Déjà abonné à cette revue ?

connectez-vous ou créez un compte

Comparaison des performances des internes français de chirurgie orthopédique et de l’intelligence artificielle ChatGPT-4/4o aux examens du diplôme d’études spécialisées de chirurgie orthopédique et traumatologique - 08/01/25

Comparing performances of French orthopaedic surgery residents with the artificial intelligence ChatGPT-4/4o in the French diploma exams of orthopaedic and trauma surgery

Résumé

Introduction

Hypothèse

Matériel et méthodes

Résultats

Conclusion

Niveau de preuve

Summary

Introduction

Hypothesis

Methods

Results

Conclusion

Level of evidence

Plan

Export citations

Fichier

Contenu

Accès rapides

Mon compte

Aide & support

Plateformes Elsevier Masson

Déclaration CNIL