S'abonner

CO12.2 - Développement de méthodes de sélection de variables incluant un terme de pénalisation en classification supervisée - 20/04/23

Doi : 10.1016/j.respe.2023.101635 
N. Ngo 1, , R. Giorgi 2,
1 Aix Marseille Université, Inserm, IRD, Sesstim, Sciences économiques & sociales de la santé & traitement de l'information médicale, ISSPAM, UMR 1252 Sesstim, Marseille, France 
2 Aix Marseille Université, AP-HM, Inserm, IRD, Sesstim, Sciences économiques & sociales de la santé & traitement de l'information médicale, ISSPAM, Hôpital de la Timone, BioSTIC, Biostatistique et technologies de l'information et de la communication, UMR 1252 Sesstim, Marseille, France 

Auteurs correspondants

Bienvenue sur EM-consulte, la référence des professionnels de santé.
Article gratuit.

Connectez-vous pour en bénéficier!

Résumé

Introduction

Dans le contexte de la classification supervisée il est parfois nécessaire d'utiliser des méthodes de sélection de variables afin de n'inclure que les variables les plus pertinentes dans l'analyse, i.e. de ne conserver que les variables nous permettant de classer correctement une observation. Cette étape de sélection de variable est cruciale pour obtenir des modèles généralisables et des prédictions correctes. Ainsi, lors du développement de ces méthodes on cherche à atteindre au moins deux objectifs : l’élimination des variables non pertinentes et la minimisation de l'erreur de classification. Dans le cadre de nos travaux, nous avons été amenés à construire des méthodes de sélection de variables nous permettant d'identifier des variables pertinentes pour la classification. Cependant les méthodes retenaient à tort un certain nombre de variables. L'objectif de notre travail était de proposer une méthode de pénalisation afin de réduire la taille du sous-ensemble de variables tout en conservant un taux d'erreur faible.

Méthodes

Notre pénalisation est basée sur le calcul de la gamma-metric auquel s'ajoute un terme dépendant de la dimension du sous-ensemble de variables. Pour vérifier l'apport de ce terme de pénalisation sur la méthode de sélection de variable, nous avons conduit une étude par simulation dans laquelle nous avons généré des variables informatives et non-informatives. Nous avons utilisé les méthodes de sélection de variables avec ou sans pénalisation sur un échantillon d'apprentissage et comparé i) le nombre et la nature des variables sélectionnées ainsi que ii) le taux d'observations correctement classées, sur un échantillon de validation, avec les modèles SVM construit à partir des variables sélectionnées.

Résultats

Les résultats de la simulation sont donnés dans la Table 1. En termes de nombre de variables sélectionnées, les méthodes utilisant la pénalisation sélectionnaient moins de variables dans tous les cas. Parmi les variables sélectionnées, les méthodes avec pénalisation retenaient un peu moins souvent les variables dites informatives en moyenne mais, en terme de classification, le taux d'observations correctement classées augmentait avec les méthodes utilisant la pénalisation par rapport aux méthodes sans pénalisation.

Conclusion

Les résultats obtenus sur cette simulation nous montrent que la pénalisation proposée nous a permis de conserver un taux d'erreur plutôt faible tout en supprimant des variables non-informatives quel que soit la méthode.

Mots clés

Sélection de variables , Pénalisation , Classification , Simulation

Déclaration de liens d'intérêts

Les auteurs n'ont pas précisé leurs éventuels liens d'intérêts.

Le texte complet de cet article est disponible en PDF.

© 2023  Publié par Elsevier Masson SAS.
Ajouter à ma bibliothèque Retirer de ma bibliothèque Imprimer
Export

    Export citations

  • Fichier

  • Contenu

Vol 71 - N° S2

Article 101635- mai 2023 Retour au numéro
Article précédent Article précédent
  • CO12.1 - A case-control study to identify potential genetic biomarkers related to cardiac diseases occurrence in childhood cancer survivors
  • N. Aba, S. Belhechmi, B. Fresneau, C. El-Fayech, C. Rubino, R. Allodji, E. Morel, P. de la Grange, A. Jolly, S. Koscielny, G. Vu-Bezin, F. de Vathaire, G. Le Teuff, N. Haddy
| Article suivant Article suivant
  • CO12.3 - Impact de l'heure de la transplantation pulmonaire sur le pronostic précoce: une cohorte rétrospective multicentrique issue du registre national français CRISTAL
  • I. Cavalier, G. Weisenburger, J. Messika, D. Bachelet, P. Eloy, P. Mordant

Bienvenue sur EM-consulte, la référence des professionnels de santé.

Mon compte


Plateformes Elsevier Masson

Déclaration CNIL

EM-CONSULTE.COM est déclaré à la CNIL, déclaration n° 1286925.

En application de la loi nº78-17 du 6 janvier 1978 relative à l'informatique, aux fichiers et aux libertés, vous disposez des droits d'opposition (art.26 de la loi), d'accès (art.34 à 38 de la loi), et de rectification (art.36 de la loi) des données vous concernant. Ainsi, vous pouvez exiger que soient rectifiées, complétées, clarifiées, mises à jour ou effacées les informations vous concernant qui sont inexactes, incomplètes, équivoques, périmées ou dont la collecte ou l'utilisation ou la conservation est interdite.
Les informations personnelles concernant les visiteurs de notre site, y compris leur identité, sont confidentielles.
Le responsable du site s'engage sur l'honneur à respecter les conditions légales de confidentialité applicables en France et à ne pas divulguer ces informations à des tiers.


Tout le contenu de ce site: Copyright © 2025 Elsevier, ses concédants de licence et ses contributeurs. Tout les droits sont réservés, y compris ceux relatifs à l'exploration de textes et de données, a la formation en IA et aux technologies similaires. Pour tout contenu en libre accès, les conditions de licence Creative Commons s'appliquent.