CO12.2 - Développement de méthodes de sélection de variables incluant un terme de pénalisation en classification supervisée - 20/04/23


Résumé |
Introduction |
Dans le contexte de la classification supervisée il est parfois nécessaire d'utiliser des méthodes de sélection de variables afin de n'inclure que les variables les plus pertinentes dans l'analyse, i.e. de ne conserver que les variables nous permettant de classer correctement une observation. Cette étape de sélection de variable est cruciale pour obtenir des modèles généralisables et des prédictions correctes. Ainsi, lors du développement de ces méthodes on cherche à atteindre au moins deux objectifs : l’élimination des variables non pertinentes et la minimisation de l'erreur de classification. Dans le cadre de nos travaux, nous avons été amenés à construire des méthodes de sélection de variables nous permettant d'identifier des variables pertinentes pour la classification. Cependant les méthodes retenaient à tort un certain nombre de variables. L'objectif de notre travail était de proposer une méthode de pénalisation afin de réduire la taille du sous-ensemble de variables tout en conservant un taux d'erreur faible.
Méthodes |
Notre pénalisation est basée sur le calcul de la gamma-metric auquel s'ajoute un terme dépendant de la dimension du sous-ensemble de variables. Pour vérifier l'apport de ce terme de pénalisation sur la méthode de sélection de variable, nous avons conduit une étude par simulation dans laquelle nous avons généré des variables informatives et non-informatives. Nous avons utilisé les méthodes de sélection de variables avec ou sans pénalisation sur un échantillon d'apprentissage et comparé i) le nombre et la nature des variables sélectionnées ainsi que ii) le taux d'observations correctement classées, sur un échantillon de validation, avec les modèles SVM construit à partir des variables sélectionnées.
Résultats |
Les résultats de la simulation sont donnés dans la Table 1. En termes de nombre de variables sélectionnées, les méthodes utilisant la pénalisation sélectionnaient moins de variables dans tous les cas. Parmi les variables sélectionnées, les méthodes avec pénalisation retenaient un peu moins souvent les variables dites informatives en moyenne mais, en terme de classification, le taux d'observations correctement classées augmentait avec les méthodes utilisant la pénalisation par rapport aux méthodes sans pénalisation.
Conclusion |
Les résultats obtenus sur cette simulation nous montrent que la pénalisation proposée nous a permis de conserver un taux d'erreur plutôt faible tout en supprimant des variables non-informatives quel que soit la méthode.
Mots clés |
Sélection de variables , Pénalisation , Classification , Simulation
Déclaration de liens d'intérêts |
Les auteurs n'ont pas précisé leurs éventuels liens d'intérêts.
Le texte complet de cet article est disponible en PDF.Vol 71 - N° S2
Article 101635- mai 2023 Retour au numéroBienvenue sur EM-consulte, la référence des professionnels de santé.