S'abonner

Évaluation des modèles d’intelligence artificielle dans la gestion clinique de la lombalgie commune - 09/04/25

Evaluation of artificial intelligence models in the clinical management of chronic low back pain

Doi : 10.1016/j.kine.2025.02.021 
Frédéric André a, , Philippe Armengaud b, Guillaume Couquet c
a Pôle régional d’enseignement et des formations aux métiers de la santé, IFMK Toulouse-Rodez, 74, voie du Toec, 31300 Toulouse, France 
b 8, rue Émile-Dewoitine, 31700 Cornebarrieu, France 
c 160, Gd Rue Saint-Michel, 31400 Toulouse, France 

Auteur correspondant : Pôle régional d’enseignement et des formations aux métiers de la santé, IFMK Toulouse-Rodez, 74, voie du Toec, 31300 Toulouse, France.Pôle régional d’enseignement et des formations aux métiers de la santé, IFMK Toulouse-Rodez74, voie du ToecToulouse31300France
Sous presse. Épreuves corrigées par l'auteur. Disponible en ligne depuis le Wednesday 09 April 2025
Cet article a été publié dans un numéro de la revue, cliquez ici pour y accéder

Résumé

L’intelligence artificielle (IA), en particulier des modèles tels que ChatGPT, Copilot et Claude, exerce une influence de plus en plus importante dans le domaine de la santé, ce qui affecte à la fois les patients et les professionnels. L’objectif de cette étude était d’évaluer la capacité de ces IA à fournir des recommandations cliniques conformes aux lignes directrices de la Haute Autorité de Santé (HAS) pour la lombalgie commune. Cette évaluation s’est centrée sur la cohérence interne des réponses, la fiabilité des recommandations par rapport aux experts, et la stabilité des évaluations entre examinateurs.

Méthodes

Trois IA (ChatGPT, Copilot, Claude) ont été interrogées avec neuf questions cliniques concernant le traitement de la lombalgie commune. Chaque IA a été interrogée trois fois pour tester la cohérence interne de ses réponses. Les réponses ont été évaluées par deux experts kinésithérapeutes spécialisés. Les critères d’évaluation comprenaient la concordance des réponses avec les recommandations de la HAS et l’analyse de la fiabilité intra- et inter-évaluateurs à l’aide des coefficients kappa.

Résultats

Les IA ont montré une bonne cohérence interne avec des similarités textuelles moyennes de 88 à 90 %. Toutefois, des discordances ont été observées, notamment dans la gestion des questions complexes comme l’éducation thérapeutique et les interventions pharmacologiques. Copilot a montré une plus grande cohérence que ChatGPT et Claude. L’accord entre les experts a révélé une concordance modérée, particulièrement pour les questions plus controversées.

Conclusions

Les IA montrent un potentiel prometteur dans le traitement de la lombalgie commune. Elles offrent des recommandations cohérentes et utiles pour des cas simples. Cependant, des divergences notables dans les réponses soulignent les limites des IA dans des contextes cliniques complexes. Elles ne peuvent pas encore être utilisées de manière autonome pour la prise de décision clinique. Ce processus nécessite de combiner expertise humaine et intelligence artificielle pour garantir des soins fiables et personnalisés.

Niveau de preuve

IV.

Le texte complet de cet article est disponible en PDF.

Summary

Artificial intelligence (AI), in particular models such as ChatGPT, Copilot and Claude, is increasingly influential in healthcare, affecting both patients and professionals. The aim of this study was to assess the ability of these AIs to provide clinical recommendations aligned with those of the Haute Autorité de Santé (HAS) guidelines for common low back pain. This evaluation focused on the internal consistency of responses, the reliability of recommendations in relation to experts, and the stability of assessments between reviewers.

Methods

Three AIs (ChatGPT, Copilot, Claude) were interviewed with nine clinical questions concerning the management of common low back pain. Each AI was interviewed three times to test the internal consistency of its answers. Responses were assessed by two specialists physiotherapy experts. Evaluation criteria included concordance of responses with HAS recommendations and analysis of intra- and inter-rater reliability using kappa coefficients.

Results

The AIs showed good internal consistency, with average textual similarities of 88–90 %. However, discrepancies were observed, particularly in the management of complex issues such as therapeutic education and pharmacological interventions. Copilot showed greater consistency than ChatGPT and Claude. Agreement between experts revealed moderate concordance, particularly for the more controversial issues.

Conclusions

AIs show promising potential in the management of common low back pain, offering consistent and useful recommendations for simple cases. However, notable discrepancies in responses highlight the limitations of AIs in complex clinical settings. AIs cannot yet be used autonomously for clinical decision-making, requiring a combination of human expertise and artificial intelligence to ensure reliable, personalized care.

Level of evidence

IV.

Le texte complet de cet article est disponible en PDF.

Mots clés : ChatGPT, Claude, Copilot, Haute Autorité de Santé, Intelligence artificielle: Lombalgie, Recommandations cliniques

Keywords : ChatGPT, Claude, Copilot, Haute Autorité de Santé, Artificial intelligence, Low back pain, Clinical recommandations


Plan


© 2025  Elsevier Masson SAS. Tous droits réservés.
Ajouter à ma bibliothèque Retirer de ma bibliothèque Imprimer
Export

    Export citations

  • Fichier

  • Contenu

Bienvenue sur EM-consulte, la référence des professionnels de santé.
L’accès au texte intégral de cet article nécessite un abonnement.

Déjà abonné à cette revue ?

Elsevier s'engage à rendre ses eBooks accessibles et à se conformer aux lois applicables. Compte tenu de notre vaste bibliothèque de titres, il existe des cas où rendre un livre électronique entièrement accessible présente des défis uniques et l'inclusion de fonctionnalités complètes pourrait transformer sa nature au point de ne plus servir son objectif principal ou d'entraîner un fardeau disproportionné pour l'éditeur. Par conséquent, l'accessibilité de cet eBook peut être limitée. Voir plus

Mon compte


Plateformes Elsevier Masson

Déclaration CNIL

EM-CONSULTE.COM est déclaré à la CNIL, déclaration n° 1286925.

En application de la loi nº78-17 du 6 janvier 1978 relative à l'informatique, aux fichiers et aux libertés, vous disposez des droits d'opposition (art.26 de la loi), d'accès (art.34 à 38 de la loi), et de rectification (art.36 de la loi) des données vous concernant. Ainsi, vous pouvez exiger que soient rectifiées, complétées, clarifiées, mises à jour ou effacées les informations vous concernant qui sont inexactes, incomplètes, équivoques, périmées ou dont la collecte ou l'utilisation ou la conservation est interdite.
Les informations personnelles concernant les visiteurs de notre site, y compris leur identité, sont confidentielles.
Le responsable du site s'engage sur l'honneur à respecter les conditions légales de confidentialité applicables en France et à ne pas divulguer ces informations à des tiers.


Tout le contenu de ce site: Copyright © 2025 Elsevier, ses concédants de licence et ses contributeurs. Tout les droits sont réservés, y compris ceux relatifs à l'exploration de textes et de données, a la formation en IA et aux technologies similaires. Pour tout contenu en libre accès, les conditions de licence Creative Commons s'appliquent.