CO5.3 - Comparaison des performances des modèles de partitionnement dans la reconstitution des résultats de séquençage ADN à partir de réplicats techniques - 20/04/23

Résumé |
Introduction |
Pour améliorer la performance de séquençage de l'ADN, un certain nombre de chercheurs utilisent des réplicats de séquençage de l'ADN du même individu. Avec de telles réplicats, plusieurs méthodes statistiques permettent d'obtenir des résultats de séquençage plus performants. Dans ce travail, plusieurs modèles de partitionnement ont été comparés quant à leurs capacités à reconstruire un nouveau catalogue (callset) avec des performances améliorées à partir de plusieurs réplicats de séquençage.
Méthodes |
L'étude a considéré trois réplicats techniques du génome NA12878. Elle a comparé cinq types de modèles (modèle de consensus, modèle de classe latente, modèle de mélange gaussien, modèle Kamila et modèle de forêt aléatoire) en fonction de quatre indicateurs de performance: sensibilité, précision, et score F1.
Résultats |
Le modèle de consensus a légèrement amélioré la précision (de 0,1 %) tandis que le modèle de classe latente a amélioré la précision de 1 % (97 % à 98 %) sans compromettre la sensibilité (=98,9 %). Par rapport à l'absence de modèle de combinaison, les modèles de mélange gaussien et de forêt aléatoire ont fourni des catalogues avec une précision plus élevée (>99 % dans les deux cas) mais au prix d'une sensibilité plus faible. Kamila a fourni une précision accrue (>99 %) tout en conservant une sensibilité élevée (98,8 %) et s'est finalement avéré avoir la meilleure performance globale (Fig. 1)
Conclusion |
En termes de précision et de score F1, les modèles de classification non supervisés combinant plusieurs catalogues sont capables d'améliorer les performances de séquençage par rapport à certains modèles supervisés précédemment utilisés. Parmi les modèles comparés, le modèle de mélange gaussien et le modèle Kamila ont offert des améliorations non négligeables de la précision et du score F1.
Mots clés |
Evaluation de performance , Sensibilité , Séquençage de l'ADN , Clustering , Modèle non-supervisé
Déclaration de liens d'intérêts |
Les auteurs n'ont pas précisé leurs éventuels liens d'intérêts.
Le texte complet de cet article est disponible en PDF.Vol 71 - N° S2
Article 101618- mai 2023 Retour au numéroBienvenue sur EM-consulte, la référence des professionnels de santé.