S'abonner

CO5.3 - Comparaison des performances des modèles de partitionnement dans la reconstitution des résultats de séquençage ADN à partir de réplicats techniques - 20/04/23

Doi : 10.1016/j.respe.2023.101618 
Y. Zhai 1, 2, 3, , C. Bardel 2, 3, 4, 5, M. Vallée 6, J. Iwaz 2, 3, 4, P. Roy 1, 2, 3, 4
1 Université Lyon 1, Ecole doctorale E2M2, Villeurbanne, France 
2 Université de Lyon, Lyon, France 
3 CNRS UMR 5558, Équipe biostatistique-santé, Laboratoire de biométrie et biologie évolutive, Villeurbanne, France 
4 Hospices Civils de Lyon, Service de biostatistique-bioinformatique, Pôle santé publique, Lyon, France 
5 Groupement Hospitalier Est, Hospices Civils de Lyon, Service de génétique, Bron, France 
6 Hospices Civils de Lyon, Cellule bioinformatique de la plateforme de séquençage haut débit NGS, Bron, France 

Auteur correspondant

Bienvenue sur EM-consulte, la référence des professionnels de santé.
Article gratuit.

Connectez-vous pour en bénéficier!

Résumé

Introduction

Pour améliorer la performance de séquençage de l'ADN, un certain nombre de chercheurs utilisent des réplicats de séquençage de l'ADN du même individu. Avec de telles réplicats, plusieurs méthodes statistiques permettent d'obtenir des résultats de séquençage plus performants. Dans ce travail, plusieurs modèles de partitionnement ont été comparés quant à leurs capacités à reconstruire un nouveau catalogue (callset) avec des performances améliorées à partir de plusieurs réplicats de séquençage.

Méthodes

L'étude a considéré trois réplicats techniques du génome NA12878. Elle a comparé cinq types de modèles (modèle de consensus, modèle de classe latente, modèle de mélange gaussien, modèle Kamila et modèle de forêt aléatoire) en fonction de quatre indicateurs de performance: sensibilité, précision, et score F1.

Résultats

Le modèle de consensus a légèrement amélioré la précision (de 0,1 %) tandis que le modèle de classe latente a amélioré la précision de 1 % (97 % à 98 %) sans compromettre la sensibilité (=98,9 %). Par rapport à l'absence de modèle de combinaison, les modèles de mélange gaussien et de forêt aléatoire ont fourni des catalogues avec une précision plus élevée (>99 % dans les deux cas) mais au prix d'une sensibilité plus faible. Kamila a fourni une précision accrue (>99 %) tout en conservant une sensibilité élevée (98,8 %) et s'est finalement avéré avoir la meilleure performance globale (Fig. 1)

Conclusion

En termes de précision et de score F1, les modèles de classification non supervisés combinant plusieurs catalogues sont capables d'améliorer les performances de séquençage par rapport à certains modèles supervisés précédemment utilisés. Parmi les modèles comparés, le modèle de mélange gaussien et le modèle Kamila ont offert des améliorations non négligeables de la précision et du score F1.

Mots clés

Evaluation de performance , Sensibilité , Séquençage de l'ADN , Clustering , Modèle non-supervisé

Déclaration de liens d'intérêts

Les auteurs n'ont pas précisé leurs éventuels liens d'intérêts.

Le texte complet de cet article est disponible en PDF.

© 2023  Publié par Elsevier Masson SAS.
Ajouter à ma bibliothèque Retirer de ma bibliothèque Imprimer
Export

    Export citations

  • Fichier

  • Contenu

Vol 71 - N° S2

Article 101618- mai 2023 Retour au numéro
Article précédent Article précédent
  • CO5.2 - Méthodes d'analyses transcriptomiques: fiabilité des rangs des gènes sélectionnés et performance diagnostique. Etude de simulation et application QUID-NASH
  • P. Arnault de Guenyveau, J. Lascano Maillard, C. Laouénan, F. Mehl, F. Letourneur, D. Valla, J. Mullaert, E. Gloaguen
| Article suivant Article suivant
  • CO6.1 - Relation entre différents profils de travail de nuit et la santé perçue chez les travailleurs français de la cohorte Constances
  • M. Gédor, E. Bourgkard, M. Dziurla, C. Ribet, M. Grzebyk, G. Hédelin, S. Boini

Bienvenue sur EM-consulte, la référence des professionnels de santé.

Mon compte


Plateformes Elsevier Masson

Déclaration CNIL

EM-CONSULTE.COM est déclaré à la CNIL, déclaration n° 1286925.

En application de la loi nº78-17 du 6 janvier 1978 relative à l'informatique, aux fichiers et aux libertés, vous disposez des droits d'opposition (art.26 de la loi), d'accès (art.34 à 38 de la loi), et de rectification (art.36 de la loi) des données vous concernant. Ainsi, vous pouvez exiger que soient rectifiées, complétées, clarifiées, mises à jour ou effacées les informations vous concernant qui sont inexactes, incomplètes, équivoques, périmées ou dont la collecte ou l'utilisation ou la conservation est interdite.
Les informations personnelles concernant les visiteurs de notre site, y compris leur identité, sont confidentielles.
Le responsable du site s'engage sur l'honneur à respecter les conditions légales de confidentialité applicables en France et à ne pas divulguer ces informations à des tiers.


Tout le contenu de ce site: Copyright © 2025 Elsevier, ses concédants de licence et ses contributeurs. Tout les droits sont réservés, y compris ceux relatifs à l'exploration de textes et de données, a la formation en IA et aux technologies similaires. Pour tout contenu en libre accès, les conditions de licence Creative Commons s'appliquent.