Imputation multiple en présence de données manquantes MNAR - 25/04/15
Résumé |
Introduction |
Malgré toute l’attention portée à la collecte des données, la persistance de données manquantes et la manière de les considérer restent une problématique importante de la plupart des études cliniques et épidémiologiques. Ces données manquantes sont généralement classées en fonction du lien suspecté entre le mécanisme ayant conduit au non enregistrement des données et les données observées : « missing completely at random » (MCAR), « missing at random » (MAR, la probabilité que les données soient manquantes ne dépend que des données) et « missing non at random » (MNAR, la probabilité que les données soient manquantes dépend entre autre des données manquantes). Plusieurs méthodes permettant d’obtenir des estimations non biaisées en présence de données manquantes MCAR et MAR ont été proposées. Parmi ces méthodes, l’imputation multiple par équations chaînées (MICE) est considérée comme particulièrement efficiente et flexible. Malheureusement, en présence de données manquantes MNAR, cette approche peut conduire à des estimations biaisées. Obtenir des estimations non biaisées en situation MNAR nécessite en principe de modéliser directement le mécanisme conduisant à l’absence de données. C’est ce que réalise la méthode d’Heckman, principalement utilisée en économétrie afin de traiter le biais de sélection induit par l’observation de données sur une fraction seulement des observations. Cette méthode utilise deux équations jointes : une équation de sélection modélisant le mécanisme conduisant à l’absence de données et une équation d’outcome. Nous avons montré l’intérêt de mixer les deux approches de façon à gérer plusieurs types de données manquantes (MNAR et MAR) en même temps pour un même échantillon. Cette approche consistait à développer un modèle d’imputation basé sur un modèle d’Heckman et son estimateur en deux étapes. Cependant cette approche ne permettait d’appréhender que les données continues. Nous proposons de généraliser notre approche aux données catégorielles.
Méthode |
Nous avons développé un modèle d’imputation utilisant la méthode d’Heckman et un estimateur par maximum de vraisemblance en une étape. Cette approche permet grâce à l’utilisation d’un modèle linéaire ou d’un modèle probit pour l’équation d’outcome d’imputer des variables continues et/ou binaires. Le principe consiste (i) à estimer les paramètres du modèle d’imputation par la méthode d’Heckman sur les données observées ; (ii) à en déduire des distributions à posteriori de ces paramètres ; (iii) à tirer des paramètres plausibles pour les données manquantes et enfin (iv) à imputer les valeurs manquantes. Une validation de cette approche par simulation de Monte Carlo sera présentée pour différentes configurations de données manquantes.
Conclusion |
Au final, nous proposons une approche simple pour gérer les données manquantes de type MNAR qu’elles soient continues ou binaires. De plus, cette approche en s’intégrant à une procédure d’imputation par équations chaînées permet dans un même processus d’imputer aussi bien des données MNAR que MAR.
Le texte complet de cet article est disponible en PDF.Mots clés : Données manquantes, Missing Not At Random (MNAR), Imputation multiple par équations chaînées (MICE), Modèle d’Heckman
Plan
Vol 63 - N° S2
P. S42 - mai 2015 Retour au numéroBienvenue sur EM-consulte, la référence des professionnels de santé.
L’accès au texte intégral de cet article nécessite un abonnement.
Déjà abonné à cette revue ?