Comparative analysis of artificial intelligence chatbot recommendations for urolithiasis management: A study of EAU guideline compliance - 17/06/24
Analyse comparative des recommandations d’un chatbot d’intelligence artificielle pour la prise en charge de l’urolithiase : une étude de la conformité aux lignes directrices de l’EAU
Abstract |
Objectives |
Artificial intelligence (AI) applications are increasingly being utilized by both patients and physicians for accessing medical information. This study focused on the urolithiasis section (pertaining to kidney and ureteral stones) of the European Association of Urology (EAU) guideline, a key reference for urologists.
Material and methods |
We directed inquiries to four distinct AI chatbots to assess their responses in relation to guideline adherence. A total of 115 recommendations were transformed into questions, and responses were evaluated by two urologists with a minimum of 5 years of experience using a 5-point Likert scale (1 – False, 2 – Inadequate, 3 – Sufficient, 4 – Correct, and 5 – Very correct).
Results |
The mean scores for Perplexity and ChatGPT 4.0 were 4.68 (SD: 0.80) and 4.80 (SD: 0.47), respectively, both significantly differed the scores of Bing and Bard (Bing vs. Perplexity, P<0.001; Bard vs. Perplexity, P<0.001; Bing vs. ChatGPT, P<0.001; Bard vs. ChatGPT, P<0.001). Bing had a mean score of 4.21 (SD: 0.96), while Bard scored 3.56 (SD: 1.14), with a significant difference (Bing vs. Bard, P<0.001). Bard exhibited the lowest score among all chatbots. Analysis of references revealed that Perplexity and Bing cited the guideline most frequently (47.3% and 30%, respectively).
Conclusion |
Our findings demonstrate that ChatGPT 4.0 and, notably, Perplexity align well with EAU guideline recommendations. These continuously evolving applications may play a crucial role in delivering information to physicians in the future, especially for urolithiasis.
Le texte complet de cet article est disponible en PDF.Résumé |
Objectifs |
Les applications d’intelligence artificielle (IA) sont de plus en plus utilisées par les patients et les médecins pour accéder à l’information médicale. Cette étude s’est concentrée sur la section urolithiase (concernant les calculs rénaux et urétéraux) des lignes directrices de l’Association européenne d’urologie (EAU), une référence clé pour les urologues.
Matériel et méthodes |
Nous avons adressé des demandes à quatre chatbots IA distincts afin d’évaluer leurs réponses par rapport à l’adhésion aux lignes directrices. Un total de 115 recommandations ont été transformées en questions et les réponses ont été évaluées par deux urologues avec un minimum de 5 ans d’expérience en utilisant une échelle de Likert en 5 points (1 – Faux, 2 – Inadéquat, 3 – Suffisant, 4 – Correct, et 5 – Très correct).
Résultats |
Les scores moyens pour Perplexité et ChatGPT 4.0 étaient respectivement de 4,68 (écart-type : 0,80) et 4,80 (écart-type : 0,47), tous deux significativement différents des scores de Bing et Bard (Bing vs Perplexité, p<0,001 ; Bard vs Perplexité, p<0,001 ; Bing vs ChatGPT, p<0,001 ; Bard vs ChatGPT, p<0,001). Bing a obtenu un score moyen de 4,21 (écart-type : 0,96), tandis que Bard a obtenu un score de 3,56 (écart-type : 1,14), avec une différence significative (Bing vs Bard, p<0,001). Bard a obtenu le score le plus bas de tous les chatbots. L’analyse des références a révélé que Perplexity et Bing ont cité la directive le plus souvent (47,3 % et 30 %, respectivement).
Conclusion |
Nos résultats démontrent que ChatGPT 4.0 et, notamment, Perplexity s’alignent bien sur les recommandations de l’EAU. Ces applications en constante évolution pourraient jouer un rôle crucial dans la fourniture d’informations aux médecins à l’avenir, en particulier pour l’urolithiase.
Le texte complet de cet article est disponible en PDF.Keywords : Artificial intelligence Chatbot, ChatGPT, Perplexity, EAU guideline, Urolithiasis
Plan
Vol 34 - N° 7-8
Article 102666- juillet 2024 Retour au numéroBienvenue sur EM-consulte, la référence des professionnels de santé.
L’accès au texte intégral de cet article nécessite un abonnement.
Déjà abonné à cette revue ?