Analyse critique des données du PMSI pour l’épidémiologie des cancers : une approche longitudinale devient possible - 19/01/11

Critical analysis of French DRG based information system (PMSI) databases for the epidemiology of cancer: A longitudinal approach becomes possible

Doi : 10.1016/j.respe.2010.09.001

F. Olive ^a,^⁎ , F. Gomez ^b, A.-M. Schott ^c,^e, L. Remontet ^d,^e, N. Bossard ^d,^e, N. Mitton ^f, S. Polazzi ^c, M. Colonna ^f,^h, B. Trombert-Paviot ^g,ⁱ
^a Département d’information médicale, CHU de Grenoble, pavillon Taillefer, BP217, 38043 Grenoble cedex 09, France
^b Département d’information médicale, centre Léon-Bérard, 69008 Lyon, France
^c Pôle information médicale évaluation recherche, Hospices Civils de Lyon, université de Lyon, EA 4129 Santé individu société, 69424 Lyon, France
^d UMR CNRS 5558, laboratoire biostatistique santé, service de biostatistique, Lyon, Hospices Civils de Lyon, 69495 Pierre-Bénite, France
^e Université de Lyon, université Lyon I, 69622 Villeurbanne, France
^f Registre des cancers de l’Isère, 38240 Meylan, France
^g Département de santé publique et d’information médicale, CHU de St-Étienne, université de Saint-Étienne, 42100 Saint-Étienne, France
^h FRANCIM, 31000 Toulouse, France
ⁱ Équipe 20, Inserm UMR S872, 75006 Paris, France

Auteur correspondant.

Sous presse. Épreuves corrigées par l'auteur. Disponible en ligne depuis le Wednesday 19 January 2011
Cet article a été publié dans un numéro de la revue, cliquez ici pour y accéder

Abstract

Background

Use of French Diagnosis Related Groups (DRGs) program databases, apart from financial purposes, has recently been improved since a unique anonymous patient identification number has been created for each inpatient in administrative case mix database. Based on the work of the group for cancer epidemiological observation in the Rhône-Alpes area, (ONC-EPI group), we review the remaining difficulties in the use of DRG data for epidemiological purposes and we consider a longitudinal approach based on analysis of database over several years. We also discuss limitations of this approach.

Difficulties

The main problems are related to a lack of quality of administrative data, especially coding of diagnoses. These errors come from missing or inappropriate codes, or not being in accordance with prioritization rules (causing an over- or under-reporting or inconsistencies in coding over time). One difficulty, partly due to the hierarchy of coding and the type of cancer, is the choice of an extraction algorithm. In two studies designed to estimate the incidence of cancer cared in hospitals (breast, colon-rectum, kidney, ovaries), a first algorithm, including a code of cancer as principal diagnosis with a selection of surgical procedures less performed than the second one including a code of cancer as principal diagnosis only, for which the number of hospitalizations per patient ratio was stable across time and space. The chaining over several years allows, by tracing the trajectory of the patient, to detect and correct inaccuracies, errors and missing values, and for incidence studies, to correct incident cases by removing prevalent cases.

Discussion

However, linkage, complete only since 2007, does not correct data in all cases. Ways of future improvement certainly pass through improved algorithms for case identification and especially by linking DRG data with other databases.

Le texte complet de cet article est disponible en PDF.

Résumé

Position du problème

Les possibilités d’utilisation (autres que pour la tarification) des données du Programme de médicalisation des systèmes d’information (PMSI) ont été largement améliorées depuis l’apparition du chaînage au moyen d’un identifiant patient unique anonyme national. À partir des travaux du groupe d’observation épidémiologique du cancer de la région Rhône-Alpes (groupe ONC-EPI), nous passons en revue les difficultés qui subsistent dans l’utilisation des données PMSI dans un but épidémiologique et nous envisageons une approche longitudinale basée sur une exploitation des données durant plusieurs années. Les limites de cette approche sont également discutées.

Difficultés

Les principaux problèmes sont liés au manque de qualité des données, en particulier du codage des diagnostics. Ces erreurs proviennent de codes manquants, inappropriés ou avec une hiérarchisation non conforme aux règles du PMSI (entraînant une sur- ou sous-déclaration des cas ou des incohérences du codage dans le temps). Une difficulté, en partie liée à la hiérarchisation et au type de cancer, est le choix de l’algorithme d’extraction. Dans deux études visant à estimer l’incidence des cancers à prise en charge hospitalière (sein, côlon-rectum, rein, ovaire), un premier algorithme, comprenant le code cancer en diagnostic principal, associé à une sélection d’actes chirurgicaux, s’est révélé moins performant que le deuxième basé sur la seule présence du code cancer en diagnostic principal, pour lequel le ratio du nombre d’hospitalisations par patient était stable dans le temps et dans l’espace. Le chaînage durant plusieurs années peut permettre, en retraçant la trajectoire du patient, de détecter et de corriger les imprécisions, les erreurs et les valeurs manquantes et, pour les études d’incidence, de corriger les cas incidents en éliminant les cas prévalents.

Discussion

Le chaînage, exhaustif seulement depuis 2007, ne permet pas de rectifier les données dans tous les cas. Les pistes d’avenir passent certainement par l’amélioration des algorithmes de sélection des cas et surtout par le croisement avec des données hors champ PMSI.

Le texte complet de cet article est disponible en PDF.

Keywords : Cancer, Epidemiology, Case mix, Database

Mots clés : Cancer, Épidémiologie, PMSI, Chaînage