Évaluation des modèles d’intelligence artificielle dans la gestion clinique de la lombalgie commune - 09/04/25
Evaluation of artificial intelligence models in the clinical management of chronic low back pain
, Philippe Armengaud b, Guillaume Couquet cCet article a été publié dans un numéro de la revue, cliquez ici pour y accéder
Résumé |
L’intelligence artificielle (IA), en particulier des modèles tels que ChatGPT, Copilot et Claude, exerce une influence de plus en plus importante dans le domaine de la santé, ce qui affecte à la fois les patients et les professionnels. L’objectif de cette étude était d’évaluer la capacité de ces IA à fournir des recommandations cliniques conformes aux lignes directrices de la Haute Autorité de Santé (HAS) pour la lombalgie commune. Cette évaluation s’est centrée sur la cohérence interne des réponses, la fiabilité des recommandations par rapport aux experts, et la stabilité des évaluations entre examinateurs.
Méthodes |
Trois IA (ChatGPT, Copilot, Claude) ont été interrogées avec neuf questions cliniques concernant le traitement de la lombalgie commune. Chaque IA a été interrogée trois fois pour tester la cohérence interne de ses réponses. Les réponses ont été évaluées par deux experts kinésithérapeutes spécialisés. Les critères d’évaluation comprenaient la concordance des réponses avec les recommandations de la HAS et l’analyse de la fiabilité intra- et inter-évaluateurs à l’aide des coefficients kappa.
Résultats |
Les IA ont montré une bonne cohérence interne avec des similarités textuelles moyennes de 88 à 90 %. Toutefois, des discordances ont été observées, notamment dans la gestion des questions complexes comme l’éducation thérapeutique et les interventions pharmacologiques. Copilot a montré une plus grande cohérence que ChatGPT et Claude. L’accord entre les experts a révélé une concordance modérée, particulièrement pour les questions plus controversées.
Conclusions |
Les IA montrent un potentiel prometteur dans le traitement de la lombalgie commune. Elles offrent des recommandations cohérentes et utiles pour des cas simples. Cependant, des divergences notables dans les réponses soulignent les limites des IA dans des contextes cliniques complexes. Elles ne peuvent pas encore être utilisées de manière autonome pour la prise de décision clinique. Ce processus nécessite de combiner expertise humaine et intelligence artificielle pour garantir des soins fiables et personnalisés.
Niveau de preuve |
IV.
Le texte complet de cet article est disponible en PDF.Summary |
Artificial intelligence (AI), in particular models such as ChatGPT, Copilot and Claude, is increasingly influential in healthcare, affecting both patients and professionals. The aim of this study was to assess the ability of these AIs to provide clinical recommendations aligned with those of the Haute Autorité de Santé (HAS) guidelines for common low back pain. This evaluation focused on the internal consistency of responses, the reliability of recommendations in relation to experts, and the stability of assessments between reviewers.
Methods |
Three AIs (ChatGPT, Copilot, Claude) were interviewed with nine clinical questions concerning the management of common low back pain. Each AI was interviewed three times to test the internal consistency of its answers. Responses were assessed by two specialists physiotherapy experts. Evaluation criteria included concordance of responses with HAS recommendations and analysis of intra- and inter-rater reliability using kappa coefficients.
Results |
The AIs showed good internal consistency, with average textual similarities of 88–90 %. However, discrepancies were observed, particularly in the management of complex issues such as therapeutic education and pharmacological interventions. Copilot showed greater consistency than ChatGPT and Claude. Agreement between experts revealed moderate concordance, particularly for the more controversial issues.
Conclusions |
AIs show promising potential in the management of common low back pain, offering consistent and useful recommendations for simple cases. However, notable discrepancies in responses highlight the limitations of AIs in complex clinical settings. AIs cannot yet be used autonomously for clinical decision-making, requiring a combination of human expertise and artificial intelligence to ensure reliable, personalized care.
Level of evidence |
IV.
Le texte complet de cet article est disponible en PDF.Mots clés : ChatGPT, Claude, Copilot, Haute Autorité de Santé, Intelligence artificielle: Lombalgie, Recommandations cliniques
Keywords : ChatGPT, Claude, Copilot, Haute Autorité de Santé, Artificial intelligence, Low back pain, Clinical recommandations
Plan
Bienvenue sur EM-consulte, la référence des professionnels de santé.
L’accès au texte intégral de cet article nécessite un abonnement.
Déjà abonné à cette revue ?
