CO5.2 - Méthodes d'analyses transcriptomiques: fiabilité des rangs des gènes sélectionnés et performance diagnostique. Etude de simulation et application QUID-NASH - 20/04/23
, J. Lascano Maillard 2, C. Laouénan 1, 3, F. Mehl 2, F. Letourneur 4, D. Valla 5, 6, J. Mullaert 1, 7, E. Gloaguen 1Résumé |
Introduction |
Les deux principaux objectifs des études transcriptomiques sont: l'identification des gènes différentiellement exprimés (DEG) entre deux groupes et le développement de modèles prédictifs. Identifier les DEG dans le bon ordre peut être pertinent pour orienter les analyses fonctionnelles et pourrait permettre, en outre, de développer des modèles prédictifs plus performants. Plusieurs méthodes statistiques pour l'analyse de données transcriptomiques existent, conduisant à des résultats souvent différents. Nous proposons ici d’évaluer la fiabilité des classements des gènes sélectionnés et les performances prédictives obtenues par cinq méthodes largement utilisées: « Linear model for microarray data » (limma) suivi de la méthode de correction de Benjamini-Hochberg, « Significance Analysis of Microarrays » (SAM), « Least Absolute Schrinkage and Selection Operator » (LASSO, validation croisée classique et validation croisée imbriquée), « Sparse Partial Least Square Discriminant Analysis » (SPLSDA) et « Random Forest » (RF).
Méthodes |
Pour les comparer, nous avons simulé des données pour lesquelles les rangs réels des gènes étaient connus. Neuf scénarii ont été envisagés avec différentes forces d'association, niveaux de bruit, tailles d'échantillon et pourcentages de DEG. Nous avons utilisé le Tau de Kendall pondéré pour mesurer la fiabilité des rangs estimés des DEG, et l'aire sous la courbe ROC (AUC) pour leur performance diagnostique. S'en est suivie une application aux données réelles de l'étude QUID-NASH (« Quantitative Imaging in Diabetes - Non-Alcoholic SteatoHepatitis »).
Résultats |
En situation de faible niveau de bruit, les méthodes limma et SAM sont significativement plus performantes que les méthodes multivariées. Dans les cas de bruit élevé, SAM et LASSO (version validation croisée imbriquée) ont fourni des classements plus fiables. Comme attendu, la fiabilité des classements se détériore avec l'augmentation du niveau de bruit ou la diminution de la taille de l'échantillon (Figure 1). L'application aux données QUID-NASH a montré que dans l'hypothèse de faible niveau de bruit, les rangs estimés étaient cohérents entre les méthodes. Enfin, la performance diagnostique s'améliore avec la fiabilité du classement.
Conclusion |
L’étude de simulation montre que le classement des gènes sélectionnés par SAM était significativement plus fiable dans la majorité des scénarii, tandis que le LASSO (version validation croisée imbriquée) était légèrement meilleur dans des contextes avec un haut niveau de bruit.
Mots clés |
Transcriptomique , Ordre , Limma , SAM , SPLS
Déclaration de liens d'intérêts |
Les auteurs n'ont pas précisé leurs éventuels liens d'intérêts.
Le texte complet de cet article est disponible en PDF.Vol 71 - N° S2
Article 101617- mai 2023 Retour au numéroBienvenue sur EM-consulte, la référence des professionnels de santé.
