CO10.6 - Imputation des données manquantes par un méta-algorithme (metaCART): étude de simulation - 20/04/23

Résumé |
Introduction |
L'imputation multiple est rarement appliquée dans les analyses basées sur l'apprentissage automatique, où la majorité des algorithmes prennent comme input un jeu de données unique. Alors que pour les analyses axées sur l'inférence statistique (estimations des effets des facteurs, significativité statistique), l'imputation multiple reste le gold standard. Par ailleurs, les méthodes basées sur les arbres sont plus robustes aux valeurs aberrantes et peuvent capturer plus efficacement les interactions non linéaires entre les variables. L'objectif de notre de travail consiste à évaluer les performances d'un nouvel algorithme d'imputation inspiré du méta-apprentissage à d'autres algorithmes d'imputation simples et multiples.
Méthodes |
Dans cette étude, nous comparons les performances de plusieurs méthodes d'imputation : "mice", "miceRF", "miceCART", "KNN", "CART", "missForest" et "missCforest", à une nouvelle méthode méthode d'imputation : "metaCART". Il s'agit d'un méta-algorithme qui prend comme imputeur de base "KNN", "missCforest" et "missForest". Dans une étude de simulation, nous avons généré 600 jeux de données complets de 1000 patients et ensuite introduit une proportion de 30 % de données manquantes aux covariables sous le mécanisme MCAR. Le modèle de Cox a été utilisé comme modèle substantif pour la génération des données et l'évaluation post-imputation. La performance d'imputation des méthodes a été évaluée par trois paramètres de simulation, le bias, bias relatif et MSE des HRs.
Résultats |
A l'aide de l'étude de simulation, nous démontrons que notre approche peut donner lieu à des imputations plus plausibles et donc à des inférences plus fiables que ceux issues suites aux imputations multiples et simples (Tableau 1). Ces résultats suggèrent que l'imputation par metaCART peut être plus efficace si la minimisation du biais est un critère prioritaire pour le méthodologiste.
Conclusion |
La présente étude montre le potentiel d'une nouvelle approche d'imputation basée sur le principe du méta-apprentissage. Des procédures d'optimisation de performance (ex. Cross-Validation) peuvent être ajoutée à cette méthode afin de booster sa performance d'imputation. D'autres combinaisons de méta-algorithmes et imputeurs de base peuvent être explorées également. Notre travail n'est qu'une initiation à un travail important d'investigation de cette nouvelle approche proposée.
Mots clés |
Imputation multiple , Imputation simple , Méta-apprentissage , Données manquantes , CART
Déclaration de liens d'intérêts |
Les auteurs n'ont pas précisé leurs éventuels liens d'intérêts.
Le texte complet de cet article est disponible en PDF.Vol 71 - N° S2
Article 101632- mai 2023 Retour au numéroBienvenue sur EM-consulte, la référence des professionnels de santé.