S'abonner

CO10.6 - Imputation des données manquantes par un méta-algorithme (metaCART): étude de simulation - 20/04/23

Doi : 10.1016/j.respe.2023.101632 
I. El Badisy 1, 2, , C. Nejjari 1, 3, A. Naim 1, K. El Rhaz 3, M. Khalis 1, R. Giorgi 2, 4
1 Université Mohammed VI des sciences de la santé (UM6SS), Centre Mohammed VI pour la recherche et l'innovation, Casablanca, Maroc 
2 Aix Marseille Université, Inserm, IRD, Sesstim, Sciences économiques & sociales de la santé & traitement de l'information médicale, ISSPAM, Marseille, France 
3 Université Sidi Mohamed Ben Abdellah, Laboratoire d'épidémiologie de recherche clinique et de santé communautaire, Fès, Maroc 
4 Aix Marseille Université, APHM, Inserm, IRD, Hôpital de la Timone, BioSTIC, Biostatistique et technologies de l'information et de la communication, Marseille, France 

Auteur correspondant

Bienvenue sur EM-consulte, la référence des professionnels de santé.
Article gratuit.

Connectez-vous pour en bénéficier!

Résumé

Introduction

L'imputation multiple est rarement appliquée dans les analyses basées sur l'apprentissage automatique, où la majorité des algorithmes prennent comme input un jeu de données unique. Alors que pour les analyses axées sur l'inférence statistique (estimations des effets des facteurs, significativité statistique), l'imputation multiple reste le gold standard. Par ailleurs, les méthodes basées sur les arbres sont plus robustes aux valeurs aberrantes et peuvent capturer plus efficacement les interactions non linéaires entre les variables. L'objectif de notre de travail consiste à évaluer les performances d'un nouvel algorithme d'imputation inspiré du méta-apprentissage à d'autres algorithmes d'imputation simples et multiples.

Méthodes

Dans cette étude, nous comparons les performances de plusieurs méthodes d'imputation : "mice", "miceRF", "miceCART", "KNN", "CART", "missForest" et "missCforest", à une nouvelle méthode méthode d'imputation : "metaCART". Il s'agit d'un méta-algorithme qui prend comme imputeur de base "KNN", "missCforest" et "missForest". Dans une étude de simulation, nous avons généré 600 jeux de données complets de 1000 patients et ensuite introduit une proportion de 30 % de données manquantes aux covariables sous le mécanisme MCAR. Le modèle de Cox a été utilisé comme modèle substantif pour la génération des données et l'évaluation post-imputation. La performance d'imputation des méthodes a été évaluée par trois paramètres de simulation, le bias, bias relatif et MSE des HRs.

Résultats

A l'aide de l'étude de simulation, nous démontrons que notre approche peut donner lieu à des imputations plus plausibles et donc à des inférences plus fiables que ceux issues suites aux imputations multiples et simples (Tableau 1). Ces résultats suggèrent que l'imputation par metaCART peut être plus efficace si la minimisation du biais est un critère prioritaire pour le méthodologiste.

Conclusion

La présente étude montre le potentiel d'une nouvelle approche d'imputation basée sur le principe du méta-apprentissage. Des procédures d'optimisation de performance (ex. Cross-Validation) peuvent être ajoutée à cette méthode afin de booster sa performance d'imputation. D'autres combinaisons de méta-algorithmes et imputeurs de base peuvent être explorées également. Notre travail n'est qu'une initiation à un travail important d'investigation de cette nouvelle approche proposée.

Mots clés

Imputation multiple , Imputation simple , Méta-apprentissage , Données manquantes , CART

Déclaration de liens d'intérêts

Les auteurs n'ont pas précisé leurs éventuels liens d'intérêts.

Le texte complet de cet article est disponible en PDF.

© 2023  Publié par Elsevier Masson SAS.
Ajouter à ma bibliothèque Retirer de ma bibliothèque Imprimer
Export

    Export citations

  • Fichier

  • Contenu

Vol 71 - N° S2

Article 101632- mai 2023 Retour au numéro
Article précédent Article précédent
  • CO10.5 - Prédiction du risque de décès au décours d'une circulation extra-corporelle avec oxygénateur à membranes veino-artérielle (ECMO-VA), grâce à des méthodes d'intelligence artificielle
  • K. Sallah, A. Balzano, P. Eloy, J. Do-Vale, C. De Tymowski, S. Provenchere
| Article suivant Article suivant
  • CO10.7 - Plateforme de données de vie réelle ODH: élaboration d'un observatoire du médicament en oncologie
  • N. Benhajkassen, L. Bosquet, M. Deniau, C. Bachot, T. Guesmia, V. Robert, V. Machuron, A. Martin

Bienvenue sur EM-consulte, la référence des professionnels de santé.

Mon compte


Plateformes Elsevier Masson

Déclaration CNIL

EM-CONSULTE.COM est déclaré à la CNIL, déclaration n° 1286925.

En application de la loi nº78-17 du 6 janvier 1978 relative à l'informatique, aux fichiers et aux libertés, vous disposez des droits d'opposition (art.26 de la loi), d'accès (art.34 à 38 de la loi), et de rectification (art.36 de la loi) des données vous concernant. Ainsi, vous pouvez exiger que soient rectifiées, complétées, clarifiées, mises à jour ou effacées les informations vous concernant qui sont inexactes, incomplètes, équivoques, périmées ou dont la collecte ou l'utilisation ou la conservation est interdite.
Les informations personnelles concernant les visiteurs de notre site, y compris leur identité, sont confidentielles.
Le responsable du site s'engage sur l'honneur à respecter les conditions légales de confidentialité applicables en France et à ne pas divulguer ces informations à des tiers.


Tout le contenu de ce site: Copyright © 2025 Elsevier, ses concédants de licence et ses contributeurs. Tout les droits sont réservés, y compris ceux relatifs à l'exploration de textes et de données, a la formation en IA et aux technologies similaires. Pour tout contenu en libre accès, les conditions de licence Creative Commons s'appliquent.