Construction of non-symmetric substitution matrices derived from proteomes with biased amino acid distributions - 01/01/05


pages | 9 |
Iconographies | 5 |
Vidéos | 0 |
Autres | 0 |
Abstract |
Automatic comparison of compositionally biased genomes, such as that of the malarial causative agent Plasmodium falciparum (82% adenosine + thymidine), with genomes of average composition, is currently limited. Indeed, popular tools such as BLAST require that amino acid distributions be similar in aligned sequences. However, the P. falciparum genome is so biased that six amino acids account for more than 50% of the protein composition. One reason for the comparison methods failure lies in the compositional difference between the query and the subject proteomes, which is not taken into account in the amino acid substitution matrices. This paper introduces a method to derive substitution matrices, in particular BLOSUM 62, in the frame of the information theory. It allows the construction of non-symmetrical matrices, taking into account the non-symmetric amino acid distributions. The dirAtPf family of matrices allowing the comparison of P. falciparum and A. thaliana is given as an example. This paper further provides an analysis of the obtained matrices in the frame of the information theory, supporting the discrimination advantage they bring. To cite this article: O. Bastien et al., C. R. Biologies 328 (2005).
Le texte complet de cet article est disponible en PDF.Résumé |
La comparaison automatique de génomes biaisés, tel que celui de lʼagent du paludisme Plasmodium falciparum (82 % adénosine + thymidine), avec des génomes de composition moyenne, est limitée. En effet, les outils populaires, tels que BLAST, imposent que les distributions en amino acides des séquences comparées soient proches. Or le génome de P. falciparum est tellement biaisé que six aminoacides constituent plus de 50 % de la composition protéique. Une cause de lʼéchec des méthodes de comparaison est de ne pas tenir compte de ces différences de distributions entre protéomes « requête » et « sujet », en particulier au niveau de la matrice de substitution des aminoacides. Cette note présente une méthode pour dériver les matrices de substitution, en particulier BLOSUM 62, dans le cadre de la théorie de lʼinformation. Il est ainsi possible de construire des matrices non symétriques, tenant compte de la non-symétrie des distributions en amino acides. La famille dirAtPf de matrices permettant de comparer Arabidopsis thaliana et Plasmodium falciparum est proposée comme exemple. Cette note présente, de plus, une analyse de ces matrices dans le cadre de la théorie de lʼinformation, soutenant théoriquement le gain de discrimination quʼelles peuvent apporter. Pour citer cet article : O. Bastien et al., C. R. Biologies 328 (2005).
Le texte complet de cet article est disponible en PDF.Keywords : Substitution matrix, BLOSUM, Biased genome, Plasmodium falciparum, Information theory, Mutual information
Mots-clés : Matrice de substitution, BLOSUM, Génome biaisé, Plasmodium falciparum, Théorie de lʼinformation, Information mutuelle
Plan
Vol 328 - N° 5
P. 445-453 - mai 2005 Retour au numéroBienvenue sur EM-consulte, la référence des professionnels de santé.
L’accès au texte intégral de cet article nécessite un abonnement.
Bienvenue sur EM-consulte, la référence des professionnels de santé.
L’achat d’article à l’unité est indisponible à l’heure actuelle.
Déjà abonné à cette revue ?