Gestion des données manquantes (DM) et modélisation de la survie nette : illustration de l’impact du choix de la méthode en épidémiologie des cancers - 09/05/16
Résumé |
Introduction |
En restituant l’impact propre de la maladie sur la mortalité du collectif de patients étudiés, la survie nette est devenue une méthode d’analyse incontournable en épidémiologie des cancers, surtout lorsque l’on souhaite réaliser des comparaisons de survie dans l’espace ou le temps. Son estimation paramétrique repose sur la modélisation du taux de mortalité en excès. Malgré un contrôle serré de la qualité des données, la quantité de données manquantes peut atteindre parfois une proportion non négligeable dans les études rétrospective en population générale. Ne pas prendre en compte le manque de complétude des informations peut conduire à une inférence erronée ou à des estimations biaisées. Nous proposons ici d’illustrer l’utilisation de différentes méthodologies de gestion des DM et d’évaluer l’influence de ce choix sur l’ajustement de modèles du taux de mortalité en excès.
Méthode |
Nous comparons trois méthodes de gestion des DM (complete case analysis [CCA], missing data indicator [MDI] et multivariate imputation by chained equations [MICE]) sur l’analyse multivariée du taux de mortalité en excès (modèle d’Estève). Pour chacune des trois méthodes de gestion des DM nous appliquons la même stratégie de modélisation :
– sélection des covariables associées en univarié aux taux de mortalité en excès (p<0,25) ;
– stratégie de modélisation pas à pas descendante ;
– vérification de l’adéquation des modèles (ponts Brownians).
Concernant l’algorithme MICE son utilisation nécessite de vérifier au préalable que les données soient manquantes au hasard conditionnellement au statut vital (décédés/censurés). Nous appliquons également les lois de Rubin afin de synthétiser les estimations obtenues par MICE. Les modèles obtenus selon les différentes méthodes de gestion des DM sont comparés en fonction : des covariables sélectionnées, la différence absolue moyenne entre les paramètres, la variance des estimateurs, l’adéquation des modèles. Nous appliquons cette méthodologie sur les données de l’étude IsoLymph, une étude de cohorte rétrospective exhaustive d’environ 2000 patients français atteints d’un lymphome folliculaire ou diffus à grandes cellules B (entre 2002–2008). Elle cherche à identifier les déterminants associés à la survie de ces patients et en particulier l’impact des inégalités sociales.
Résultats |
L’analyse a porté sur les 1102 cas de lymphome diffus B. Sur la quinzaine de variables étudiées cinq possèdent des DM (état général, comorbidité, stade au diagnostic, EDI, solitude). La gestion des DM par MDI et MICE a permis de travailler sur l’ensemble des cas, contrairement au CCA qui supprime de l’analyse 221 patients (20 %), ce qui se traduit par une augmentation de la variance des estimateurs. Les estimations des paramètres du modèle final diffèrent aussi selon les méthodes utilisées avec une différence absolue moyenne de 8 % entre MICE versus CCA et de 2 % entre MICE versus MDI. Enfin, l’utilisation du MDI a rendu le modèle non proportionnel au cours du temps sur la modalité missing de la variable solitude.
Conclusion |
Des études par simulations Monté Carlo, ont montré que dans le cas d’une typologie de DM de type missing at random et dans un contexte de modélisation paramétrique du taux de mortalité en excès, le MICE fourni les paramètres les moins biaisés et les plus précis, ceci est le cas dans notre étude. Cette technique nous permet également d’obtenir un modèle plus adéquat que le MDI.
Le texte complet de cet article est disponible en PDF.Mots clés : Données manquantes, Survie nette, Modélisation, Lymphome
Plan
Vol 64 - N° S3
P. S126 - mai 2016 Retour au numéroBienvenue sur EM-consulte, la référence des professionnels de santé.
L’accès au texte intégral de cet article nécessite un abonnement.
Déjà abonné à cette revue ?