S'abonner

CO5.2 - Méthodes d'analyses transcriptomiques: fiabilité des rangs des gènes sélectionnés et performance diagnostique. Etude de simulation et application QUID-NASH - 20/04/23

Doi : 10.1016/j.respe.2023.101617 
P. Arnault de Guenyveau 1, , J. Lascano Maillard 2, C. Laouénan 1, 3, F. Mehl 2, F. Letourneur 4, D. Valla 5, 6, J. Mullaert 1, 7, E. Gloaguen 1
1 AP-HP - Hôpital Bichat, DEBRC - Unité de recherche clinique Paris Nord Val de Seine, Paris, France 
2 Vital-IT Group, SIB Swiss Institute for Bioinformatics, Bioinformatics, Lausanne, Switzerland 
3 Université de Paris, UMR1137 (IAME), UMR1137 (IAME), Inserm, Paris, France 
4 GenomIC Université de Paris, Institut Cochin, Inserm, CNRS, GenomIC, Paris, France 
5 Université Paris Cité, Inserm, Centre de recherche sur l'inflammation, Paris, France 
6 AP-HP, Hôpital Beaujon, Service d'hépatologie, Clichy-la-Garenne, France 
7 Institut Curie, Inserm U900, Biostatistics for Personalized Medicine, Saint-Cloud, France 

Auteur correspondant

Bienvenue sur EM-consulte, la référence des professionnels de santé.
Article gratuit.

Connectez-vous pour en bénéficier!

Résumé

Introduction

Les deux principaux objectifs des études transcriptomiques sont: l'identification des gènes différentiellement exprimés (DEG) entre deux groupes et le développement de modèles prédictifs. Identifier les DEG dans le bon ordre peut être pertinent pour orienter les analyses fonctionnelles et pourrait permettre, en outre, de développer des modèles prédictifs plus performants. Plusieurs méthodes statistiques pour l'analyse de données transcriptomiques existent, conduisant à des résultats souvent différents. Nous proposons ici d’évaluer la fiabilité des classements des gènes sélectionnés et les performances prédictives obtenues par cinq méthodes largement utilisées: « Linear model for microarray data » (limma) suivi de la méthode de correction de Benjamini-Hochberg, « Significance Analysis of Microarrays » (SAM), « Least Absolute Schrinkage and Selection Operator » (LASSO, validation croisée classique et validation croisée imbriquée), « Sparse Partial Least Square Discriminant Analysis » (SPLSDA) et « Random Forest » (RF).

Méthodes

Pour les comparer, nous avons simulé des données pour lesquelles les rangs réels des gènes étaient connus. Neuf scénarii ont été envisagés avec différentes forces d'association, niveaux de bruit, tailles d'échantillon et pourcentages de DEG. Nous avons utilisé le Tau de Kendall pondéré pour mesurer la fiabilité des rangs estimés des DEG, et l'aire sous la courbe ROC (AUC) pour leur performance diagnostique. S'en est suivie une application aux données réelles de l'étude QUID-NASH (« Quantitative Imaging in Diabetes - Non-Alcoholic SteatoHepatitis »).

Résultats

En situation de faible niveau de bruit, les méthodes limma et SAM sont significativement plus performantes que les méthodes multivariées. Dans les cas de bruit élevé, SAM et LASSO (version validation croisée imbriquée) ont fourni des classements plus fiables. Comme attendu, la fiabilité des classements se détériore avec l'augmentation du niveau de bruit ou la diminution de la taille de l'échantillon (Figure 1). L'application aux données QUID-NASH a montré que dans l'hypothèse de faible niveau de bruit, les rangs estimés étaient cohérents entre les méthodes. Enfin, la performance diagnostique s'améliore avec la fiabilité du classement.

Conclusion

L’étude de simulation montre que le classement des gènes sélectionnés par SAM était significativement plus fiable dans la majorité des scénarii, tandis que le LASSO (version validation croisée imbriquée) était légèrement meilleur dans des contextes avec un haut niveau de bruit.

Mots clés

Transcriptomique , Ordre , Limma , SAM , SPLS

Déclaration de liens d'intérêts

Les auteurs n'ont pas précisé leurs éventuels liens d'intérêts.

Le texte complet de cet article est disponible en PDF.

© 2023  Publié par Elsevier Masson SAS.
Ajouter à ma bibliothèque Retirer de ma bibliothèque Imprimer
Export

    Export citations

  • Fichier

  • Contenu

Vol 71 - N° S2

Article 101617- mai 2023 Retour au numéro
Article précédent Article précédent
  • CO5.1 - Improving variance estimation for pseudo-values regression for restricted mean survival time in small sample cluster randomized trials
  • F. Le Vilain-Abraham, E. Tavernier, E. Dantan, S. Desmée, A. Caille
| Article suivant Article suivant
  • CO5.3 - Comparaison des performances des modèles de partitionnement dans la reconstitution des résultats de séquençage ADN à partir de réplicats techniques
  • Y. Zhai, C. Bardel, M. Vallée, J. Iwaz, P. Roy

Bienvenue sur EM-consulte, la référence des professionnels de santé.

Elsevier s'engage à rendre ses eBooks accessibles et à se conformer aux lois applicables. Compte tenu de notre vaste bibliothèque de titres, il existe des cas où rendre un livre électronique entièrement accessible présente des défis uniques et l'inclusion de fonctionnalités complètes pourrait transformer sa nature au point de ne plus servir son objectif principal ou d'entraîner un fardeau disproportionné pour l'éditeur. Par conséquent, l'accessibilité de cet eBook peut être limitée. Voir plus

Mon compte


Plateformes Elsevier Masson

Déclaration CNIL

EM-CONSULTE.COM est déclaré à la CNIL, déclaration n° 1286925.

En application de la loi nº78-17 du 6 janvier 1978 relative à l'informatique, aux fichiers et aux libertés, vous disposez des droits d'opposition (art.26 de la loi), d'accès (art.34 à 38 de la loi), et de rectification (art.36 de la loi) des données vous concernant. Ainsi, vous pouvez exiger que soient rectifiées, complétées, clarifiées, mises à jour ou effacées les informations vous concernant qui sont inexactes, incomplètes, équivoques, périmées ou dont la collecte ou l'utilisation ou la conservation est interdite.
Les informations personnelles concernant les visiteurs de notre site, y compris leur identité, sont confidentielles.
Le responsable du site s'engage sur l'honneur à respecter les conditions légales de confidentialité applicables en France et à ne pas divulguer ces informations à des tiers.


Tout le contenu de ce site: Copyright © 2025 Elsevier, ses concédants de licence et ses contributeurs. Tout les droits sont réservés, y compris ceux relatifs à l'exploration de textes et de données, a la formation en IA et aux technologies similaires. Pour tout contenu en libre accès, les conditions de licence Creative Commons s'appliquent.