S'abonner

Imputation multiple en présence de données manquantes MNAR - 25/04/15

Doi : 10.1016/j.respe.2015.03.014 
J.-E. Galimard a, , S. Chevret a, b, M. Resche-Rigon a, b
a Inserm UMR_S 1153 équipe ECSTRA, Paris Diderot, Paris, France 
b SBIM, hôpital Saint-Louis, AP–HP, Paris, France 

Auteur correspondant.

Résumé

Introduction

Malgré toute l’attention portée à la collecte des données, la persistance de données manquantes et la manière de les considérer restent une problématique importante de la plupart des études cliniques et épidémiologiques. Ces données manquantes sont généralement classées en fonction du lien suspecté entre le mécanisme ayant conduit au non enregistrement des données et les données observées : « missing completely at random » (MCAR), « missing at random » (MAR, la probabilité que les données soient manquantes ne dépend que des données) et « missing non at random » (MNAR, la probabilité que les données soient manquantes dépend entre autre des données manquantes). Plusieurs méthodes permettant d’obtenir des estimations non biaisées en présence de données manquantes MCAR et MAR ont été proposées. Parmi ces méthodes, l’imputation multiple par équations chaînées (MICE) est considérée comme particulièrement efficiente et flexible. Malheureusement, en présence de données manquantes MNAR, cette approche peut conduire à des estimations biaisées. Obtenir des estimations non biaisées en situation MNAR nécessite en principe de modéliser directement le mécanisme conduisant à l’absence de données. C’est ce que réalise la méthode d’Heckman, principalement utilisée en économétrie afin de traiter le biais de sélection induit par l’observation de données sur une fraction seulement des observations. Cette méthode utilise deux équations jointes : une équation de sélection modélisant le mécanisme conduisant à l’absence de données et une équation d’outcome. Nous avons montré l’intérêt de mixer les deux approches de façon à gérer plusieurs types de données manquantes (MNAR et MAR) en même temps pour un même échantillon. Cette approche consistait à développer un modèle d’imputation basé sur un modèle d’Heckman et son estimateur en deux étapes. Cependant cette approche ne permettait d’appréhender que les données continues. Nous proposons de généraliser notre approche aux données catégorielles.

Méthode

Nous avons développé un modèle d’imputation utilisant la méthode d’Heckman et un estimateur par maximum de vraisemblance en une étape. Cette approche permet grâce à l’utilisation d’un modèle linéaire ou d’un modèle probit pour l’équation d’outcome d’imputer des variables continues et/ou binaires. Le principe consiste (i) à estimer les paramètres du modèle d’imputation par la méthode d’Heckman sur les données observées ; (ii) à en déduire des distributions à posteriori de ces paramètres ; (iii) à tirer des paramètres plausibles pour les données manquantes et enfin (iv) à imputer les valeurs manquantes. Une validation de cette approche par simulation de Monte Carlo sera présentée pour différentes configurations de données manquantes.

Conclusion

Au final, nous proposons une approche simple pour gérer les données manquantes de type MNAR qu’elles soient continues ou binaires. De plus, cette approche en s’intégrant à une procédure d’imputation par équations chaînées permet dans un même processus d’imputer aussi bien des données MNAR que MAR.

Le texte complet de cet article est disponible en PDF.

Mots clés : Données manquantes, Missing Not At Random (MNAR), Imputation multiple par équations chaînées (MICE), Modèle d’Heckman


Plan


© 2015  Publié par Elsevier Masson SAS.
Ajouter à ma bibliothèque Retirer de ma bibliothèque Imprimer
Export

    Export citations

  • Fichier

  • Contenu

Vol 63 - N° S2

P. S42 - mai 2015 Retour au numéro
Article précédent Article précédent
  • Non observance dans les essais randomisés en clusters : comment estimer l’effet intervention?
  • C. Leyrat, C. Coleman, N. Marlin, S. Eldridge
| Article suivant Article suivant
  • Estimation de la survie conditionnelle aux effets non linéaires et dépendants du temps des facteurs pronostiques
  • W. Wynant, M. Abrahamowicz, J.-P. Quenot, C. Quantin, C. Binquet

Bienvenue sur EM-consulte, la référence des professionnels de santé.
L’accès au texte intégral de cet article nécessite un abonnement.

Déjà abonné à cette revue ?

Mon compte


Plateformes Elsevier Masson

Déclaration CNIL

EM-CONSULTE.COM est déclaré à la CNIL, déclaration n° 1286925.

En application de la loi nº78-17 du 6 janvier 1978 relative à l'informatique, aux fichiers et aux libertés, vous disposez des droits d'opposition (art.26 de la loi), d'accès (art.34 à 38 de la loi), et de rectification (art.36 de la loi) des données vous concernant. Ainsi, vous pouvez exiger que soient rectifiées, complétées, clarifiées, mises à jour ou effacées les informations vous concernant qui sont inexactes, incomplètes, équivoques, périmées ou dont la collecte ou l'utilisation ou la conservation est interdite.
Les informations personnelles concernant les visiteurs de notre site, y compris leur identité, sont confidentielles.
Le responsable du site s'engage sur l'honneur à respecter les conditions légales de confidentialité applicables en France et à ne pas divulguer ces informations à des tiers.


Tout le contenu de ce site: Copyright © 2024 Elsevier, ses concédants de licence et ses contributeurs. Tout les droits sont réservés, y compris ceux relatifs à l'exploration de textes et de données, a la formation en IA et aux technologies similaires. Pour tout contenu en libre accès, les conditions de licence Creative Commons s'appliquent.