Évaluation des modèles d’intelligence artificielle dans la gestion clinique de la lombalgie commune - 09/04/25

Evaluation of artificial intelligence models in the clinical management of chronic low back pain

Doi : 10.1016/j.kine.2025.02.021

Frédéric André ^a,⁎ , Philippe Armengaud ^b, Guillaume Couquet ^c
^a Pôle régional d’enseignement et des formations aux métiers de la santé, IFMK Toulouse-Rodez, 74, voie du Toec, 31300 Toulouse, France
^b 8, rue Émile-Dewoitine, 31700 Cornebarrieu, France
^c 160, Gd Rue Saint-Michel, 31400 Toulouse, France

^⁎Auteur correspondant : Pôle régional d’enseignement et des formations aux métiers de la santé, IFMK Toulouse-Rodez, 74, voie du Toec, 31300 Toulouse, France.Pôle régional d’enseignement et des formations aux métiers de la santé, IFMK Toulouse-Rodez74, voie du ToecToulouse31300France

Sous presse. Épreuves corrigées par l'auteur. Disponible en ligne depuis le Wednesday 09 April 2025
Cet article a été publié dans un numéro de la revue, cliquez ici pour y accéder

Résumé

L’intelligence artificielle (IA), en particulier des modèles tels que ChatGPT, Copilot et Claude, exerce une influence de plus en plus importante dans le domaine de la santé, ce qui affecte à la fois les patients et les professionnels. L’objectif de cette étude était d’évaluer la capacité de ces IA à fournir des recommandations cliniques conformes aux lignes directrices de la Haute Autorité de Santé (HAS) pour la lombalgie commune. Cette évaluation s’est centrée sur la cohérence interne des réponses, la fiabilité des recommandations par rapport aux experts, et la stabilité des évaluations entre examinateurs.

Méthodes

Trois IA (ChatGPT, Copilot, Claude) ont été interrogées avec neuf questions cliniques concernant le traitement de la lombalgie commune. Chaque IA a été interrogée trois fois pour tester la cohérence interne de ses réponses. Les réponses ont été évaluées par deux experts kinésithérapeutes spécialisés. Les critères d’évaluation comprenaient la concordance des réponses avec les recommandations de la HAS et l’analyse de la fiabilité intra- et inter-évaluateurs à l’aide des coefficients kappa.

Résultats

Les IA ont montré une bonne cohérence interne avec des similarités textuelles moyennes de 88 à 90 %. Toutefois, des discordances ont été observées, notamment dans la gestion des questions complexes comme l’éducation thérapeutique et les interventions pharmacologiques. Copilot a montré une plus grande cohérence que ChatGPT et Claude. L’accord entre les experts a révélé une concordance modérée, particulièrement pour les questions plus controversées.

Conclusions

Les IA montrent un potentiel prometteur dans le traitement de la lombalgie commune. Elles offrent des recommandations cohérentes et utiles pour des cas simples. Cependant, des divergences notables dans les réponses soulignent les limites des IA dans des contextes cliniques complexes. Elles ne peuvent pas encore être utilisées de manière autonome pour la prise de décision clinique. Ce processus nécessite de combiner expertise humaine et intelligence artificielle pour garantir des soins fiables et personnalisés.

Niveau de preuve

IV.

Le texte complet de cet article est disponible en PDF.

Summary

Artificial intelligence (AI), in particular models such as ChatGPT, Copilot and Claude, is increasingly influential in healthcare, affecting both patients and professionals. The aim of this study was to assess the ability of these AIs to provide clinical recommendations aligned with those of the Haute Autorité de Santé (HAS) guidelines for common low back pain. This evaluation focused on the internal consistency of responses, the reliability of recommendations in relation to experts, and the stability of assessments between reviewers.

Methods

Three AIs (ChatGPT, Copilot, Claude) were interviewed with nine clinical questions concerning the management of common low back pain. Each AI was interviewed three times to test the internal consistency of its answers. Responses were assessed by two specialists physiotherapy experts. Evaluation criteria included concordance of responses with HAS recommendations and analysis of intra- and inter-rater reliability using kappa coefficients.

Results

The AIs showed good internal consistency, with average textual similarities of 88–90 %. However, discrepancies were observed, particularly in the management of complex issues such as therapeutic education and pharmacological interventions. Copilot showed greater consistency than ChatGPT and Claude. Agreement between experts revealed moderate concordance, particularly for the more controversial issues.

Conclusions

AIs show promising potential in the management of common low back pain, offering consistent and useful recommendations for simple cases. However, notable discrepancies in responses highlight the limitations of AIs in complex clinical settings. AIs cannot yet be used autonomously for clinical decision-making, requiring a combination of human expertise and artificial intelligence to ensure reliable, personalized care.