Development of a natural language processing model for deriving breast cancer quality indicators : A cross-sectional, multicenter study - 29/11/23

Développement d'un modèle de traitement automatique du langage pour calculer des indicateurs qualité du cancer du sein : une étude transversale multicentrique

Doi : 10.1016/j.respe.2023.102189

Etienne Guével ^a, Sonia Priou ^b, Rémi Flicoteaux ^c, Guillaume Lamé ^b, Romain Bey ^a, Xavier Tannier ^d, Ariel Cohen ^a, Gilles Chatellier ^e, Christel Daniel ^a, Christophe Tournigand ^f, Emmanuelle Kempf ^d,^f,^⁎
on behalf of the AP-HP Cancer Group, a CRAB^⁎⁎
CRAB : Cancer Research Application on Big Data.
initiative
^a Assistance Publique – Hôpitaux de Paris, Innovation and Data, IT Department, 75012 Paris, France
^b Université Paris-Saclay, CentraleSupélec, Laboratoire Génie Industriel, 91192 Gif-sur-Yvette, France
^c Assistance Publique – Hôpitaux de Paris, Department of medical information, 75012 Paris, France
^d Université Sorbonne Paris Nord, Laboratoire d'Informatique Médicale et d'Ingénierie des Connaissances pour la e-Santé, LIMICS, 75006 Paris, France
^e Université Paris CIté, Department of medical informatics, Assistance Publique Hôpitaux de Paris, Centre-Université de Paris (APHP-CUP), 75015 Paris, France
^f Université Paris Est Créteil, Assistance Publique – Hôpitaux de Paris, Department of medical oncology, Henri Mondor and Albert Chenevier University Hospital, 94000 Créteil, France

^⁎Auteur correspondant. Department d'oncologie médicale, Groupe hospitalo-universitaire Henri Mondor and Albert Chenevier, Assistance Publique – Hôpitaux de Paris, 1 rue Gustave Eiffel, 94000 Créteil, FranceDepartment d'oncologie médicaleGroupe hospitalo-universitaire Henri Mondor and Albert ChenevierAssistance Publique – Hôpitaux de Paris1 rue Gustave EiffelCréteil94000France

Abstract

Objectives

Medico-administrative data are promising to automate the calculation of Healthcare Quality and Safety Indicators. Nevertheless, not all relevant indicators can be calculated with this data alone. Our feasibility study objective is to analyze 1) the availability of data sources; 2) the availability of each indicator elementary variables, and 3) to apply natural language processing to automatically retrieve such information.

Method

We performed a multicenter cross-sectional observational feasibility study on the clinical data warehouse of Assistance Publique – Hôpitaux de Paris (AP-HP). We studied the management of breast cancer patients treated at AP-HP between January 2019 and June 2021, and the quality indicators published by the European Society of Breast Cancer Specialist, using claims data from the Programme de Médicalisation du Système d'Information (PMSI) and pathology reports. For each indicator, we calculated the number (%) of patients for whom all necessary data sources were available, and the number (%) of patients for whom all elementary variables were available in the sources, and for whom the related HQSI was computable. To extract useful data from the free text reports, we developed and validated dedicated rule-based algorithms, whose performance metrics were assessed with recall, precision, and f1-score.

Results

Out of 5785 female patients diagnosed with a breast cancer (60.9 years, IQR [50.0–71.9]), 5,147 (89.0%) had procedures related to breast cancer recorded in the PMSI, and 3732 (72.5%) had at least one surgery. Out of the 34 key indicators, 9 could be calculated with the PMSI alone, and 6 others became so using the data from pathology reports. Ten elementary variables were needed to calculate the 6 indicators combining the PMSI and pathology reports. The necessary sources were available for 58.8% to 94.6% of patients, depending on the indicators.

The extraction algorithms developed had an average accuracy of 76.5% (min-max [32.7%–93.3%]), an average precision of 77.7% [10.0%–97.4%] and an average sensitivity of 71.6% [2.8% to 100.0%]. Once these algorithms applied, the variables needed to calculate the indicators were extracted for 2% to 88% of patients, depending on the indicators.

Discussion

The availability of medical reports in the electronic health records, of the elementary variables within the reports, and the performance of the extraction algorithms limit the population for which the indicators can be calculated.

Conclusions

The automated calculation of quality indicators from electronic health records is a prospect that comes up against many practical obstacles.

Le texte complet de cet article est disponible en PDF.

Résumé

Objectifs

Les données médico-administratives ne suffisent pas à automatiser le calcul des indicateurs de qualité et de sécurité des soins (IQSS). L'objectif de notre étude de faisabilité est d'analyser. 1) la disponibilité des sources de données ; 2) la disponibilité de chaque variable élémentaire par indicateur, et 3) d'appliquer des algorithmes de traitement du langage naturel pour extraire automatiquement ces informations.

Méthode

Nous avons réalisé une étude de faisabilité observationnelle transversale multicentrique sur l'entrepôt de données cliniques de l'Assistance Publique – Hôpitaux de Paris (AP-HP). Nous avons étudié la prise en charge des patients atteints de cancer du sein traités à l'AP-HP entre janvier 2016 et juin 2021, et les indicateurs publiés par l'European Society of Breast Cancer Specialist, à partir des données administratives du Programme de Médicalisation du Système d'Information (PMSI) et des comptes-rendus d'anatomopathologie. Pour chaque indicateur, nous avons calculé le nombre (%) de patients pour lesquels toutes les sources de données nécessaires étaient disponibles, et le nombre (%) de patients pour lesquels toutes les variables élémentaires étaient disponibles dans les sources, et pour lesquels l'IQSS associé était calculable. Pour extraire des données utiles des comptes rendus textuels, nous avons développé et validé des algorithmes dédiés basés sur des règles, dont les mesures de performance ont été évaluées par rappel, précision et score f1.

Résultats

Des 5785 patientes diagnostiquées d'un cancer du sein (60,9 ans, IQR [50,0–71,9]), 5147 (89,0 %) avaient des actes liés au cancer enregistrés dans le PMSI, et 3 732 (72,5 %) avaient au moins une chirurgie. Des 34 indicateurs cibles, 9 étaient calculables avec le PMSI seul, et 6 autres le devenaient en utilisant les données présentes dans les comptes-rendus d'anatomopathologie. Dix variables élémentaires étaient nécessaires au calcul des 6 indicateurs combinant Programme de Médicalisation du Système d'Information et comptes-rendus d'anatomopathologie. Les comptes-rendus nécessaires étaient disponibles pour 58,8 % à 94,6 % des patients, suivant les indicateurs.

Les algorithmes d'extraction textuelle avaient une exactitude moyenne de 76,5 % (min-max [32,7 %–93,3 %]), une précision moyenne de 77,7 % [10,0 %–97,4 %] et une sensibilité moyenne de 71,6 % [2,8 % à 100,0 %]. Une fois ces algorithmes appliqués, les variables nécessaires au calcul des indicateurs étaient possibles à extraire pour 2 % à 88 % des patients, suivant les indicateurs.

Discussion

La disponibilité des comptes-rendus dans l'entrepôt de données, celle des variables élémentaires au sein des comptes rendus, et la performance des algorithmes d'extraction limite la population pour laquelle les indicateurs sont calculables.

Conclusions

Le calcul automatisé d'indicateurs qualité à partir des dossiers patients informatisés est une perspective qui se heurte à de nombreux freins pratiques.

Le texte complet de cet article est disponible en PDF.

Keywords : Quality Indicators, Health Care, Natural Language Processing, Electronic Data Processing

Mots-clés : Indicateurs de qualité, Soins de santé, Traitement du langage naturel, Traitement électronique de données

Plan

Introduction

Methods

Population identification

HQSI calculation methods

Extraction of pathology reports elementary variables

Availability of elementary variables in pathology reports

Development of an algorithm for automatic extraction of elementary variables by NLP

Results

Population characteristics

Identification of computable HQSI

Availability of elementary variables in pathology reports

Performance and results of NLP algorithms

HQSI computability

Discussion

Conclusion

Contribution des auteurs

Export

Vol 71 - N° 6

Article 102189- décembre 2023 Retour au numéro

Article précédent

Association between physical activity and health in healthcare professionals : Results from the nationwide AMADEUS survey
Guillaume Fond, Lee Smith, Bastien Boussat, Guillaume Lucas, Dong Keon Yon, Bach Tran, Tham Thi Nguyen, Brendon Stubbs, Laurent Boyer

| Article suivant

Polyhandicap, profound intellectual multiple disabilities : Concept and definition of a highly specific public health issue
Marie-Christine Rousseau, Myriam Winance, Karine Baumstarck

Bienvenue sur EM-consulte, la référence des professionnels de santé.
L’accès au texte intégral de cet article nécessite un abonnement.

Déjà abonné à cette revue ?

connectez-vous ou créez un compte

Development of a natural language processing model for deriving breast cancer quality indicators : A cross-sectional, multicenter study - 29/11/23

Développement d'un modèle de traitement automatique du langage pour calculer des indicateurs qualité du cancer du sein : une étude transversale multicentrique

Abstract

Objectives

Method

Results

Discussion

Conclusions

Résumé

Objectifs

Méthode

Résultats

Discussion

Conclusions

Plan

Export citations

Fichier

Contenu

Accès rapides

Mon compte

Aide & support

Plateformes Elsevier Masson

Déclaration CNIL