Intérêt du traitement automatique de langage (TAL) pour constituer une base de données structurées de 1125 patients ayant une polyarthrite rhumatoïde - 18/12/22
Résumé |
Introduction |
Le TAL est un domaine informatique combinant intelligence artificielle et séméiologie (linguistique), dont l’utilisation très récente en médecine semble montrer un intérêt majeur dans l’extraction d’information et la constitution de bases de données structurées. Le TAL permet une conversion automatisée d’informations narratives en des bases de données digitales codifiées prêtes à l’application de modèles statistiques. Nous avons voulu constituer une base de données regroupant tous les patients ayant une PR suivis dans notre hôpital entre 2015 et 2020, et extraire automatiquement de leur dossier informatisé leurs caractéristiques et leurs traitements successifs.
Patients et méthodes |
La première étape a consisté à détecter au sein des dossiers informatisés les patients atteints de PR suivis au moins une fois pendant la période d’intérêt. Des outils de phénotypage automatique ont été utilisés (PheNorm*) sur une cohorte de patients ayant une forte probabilité d’être atteints de PR. Cette cohorte de patient a été définie par la présence d’au moins un code PMSI en rapport avec la PR et une mention de PR dans le dossier patient. La deuxième étape a consisté à extraire du texte libre les traitements médicamenteux de ces patients. Un algorithme d’extraction d’entités nommées par approche à base de dictionnaire a été utilisé pour extraire tous les traitements présents dans le texte libre (occurrence de mots-clefs), en utilisant une terminologie préexistante (dictionnaire médical de Bordeaux (ROMEDI*)), permettant d’assimiler chaque traitement extrait (DCI/nom de marque) à un code ATC exploitable secondairement sur le plan statistique (code de classification internationale des médicaments).
Résultats |
Sur plus de 4101 patients initialement sélectionnés, nous avons retenu 1125 patients dont la probabilité d’avoir une PR était forte, et les avons inclus dans notre base de données. Tous les médicaments ont été extraits des dossiers médicaux et reliés à leur classe ATC. La date d’introduction du traitement dans le dossier médical a été approximée par la date de première mention dans le dossier patient. Des séquences thérapeutiques des traitements de fond (conventionnels et ciblés) successifs ont été établies pour chaque patient.
Discussion |
La prochaine étape consistera à séparer les PR « difficiles à traiter » (en se basant sur le nombre de séquences thérapeutiques) et de les phénotyper à l’aide du TAL (sexe, âge au début du suivi, IMC, co-traitements, statuts immun et érosif…) afin d’identifier des facteurs pronostiques de mauvaise réponse aux traitements.
Conclusion |
Le TAL permet la constitution automatisée de bases de données dont les champs d’utilisation en rhumatologie sont variés et prometteurs.
Le texte complet de cet article est disponible en PDF.Plan
Vol 89 - N° S1
P. A41 - décembre 2022 Retour au numéroBienvenue sur EM-consulte, la référence des professionnels de santé.
L’accès au texte intégral de cet article nécessite un abonnement.
Déjà abonné à cette revue ?