mardi 14 août 2007, par TaxxorbaK
Message du
13/08/07
traduit du site du projet SIMAP :
SIMAP a
commencé à
fournir mensuellement des similarités pour les
protéines à grande échelle et
des données caractéristiques pour le projet Gene3D.
Le projet Gene3D
a pour but de
caractériser la distribution des domaines structurels des
protéines dans la
nature et d’utiliser cette information pour accomplir des
recherches sur
l’évolution et la fonction des
protéines. Les protéines des cellules vivantes,
codées par l’ADN, constituent les
entités fonctionnelles. Elles ont à la fois
la fonction de catalyseur, d’où le soutien du
métabolisme cellulaire, et celle
d’unités structurelles, fournissant structure et
organisation aux cellules.
Pratiquement toutes les protéines sont faites d’un
domaine ou plus. Ces
domaines sont des séquences secondaires
semi-indépendantes qui forment ce qu’on
appelle les pliures, dont on pense qu’il en existe seulement
quelques milliers
avec 20 « superpliures » dominant
la majeure partie des structures de
domaine.
La base de
données
jumelle de Gene3D,
CATH,
utilise une
suite d’outils logiciels combinée à une
analyse experte pour déterminer les
limites des pliures des données structurelles 3D –
comme celles produites par
la diffraction de rayons-X à travers un cristal –
et hiérarchiser les pliures
selon leurs caractéristiques structurelles et leur
probabilité d’associations
évolutives. Gene3D
prend ensuite les séquences (les protéines sont
composées de chaines d’acides
aminés) et les utilise pour construire des
modèles – connus sous le nom de
Hidden Markov Models (HMMs ou Modèles Cachés de
Markov en Français) – des
domaines. Ces modèles identifient spécialement
les séquences susceptibles
d’évoluer en rapport avec les domaines de base de CATH.
De là, nous
pouvons en conclure qu’elles formeront les mêmes
structures.
Il y a
actuellement
plus de 6000 modèles HMMs dans la bibliothèque CATH-Gene3D.
Ces modèles
sont confrontés à toutes les séquences
de protéines connues (plus de 7
millions) et utilisés pour déterminer leur
domaine de composition. Cela
représente un gros volume de calcul et est normalement
seulement faisable sur
un parc informatique important. La comparaison des domaines
d’architecture
aussi bien que l’analyse directe des similarités
des domaines de séquences nous
permet de transférer des connaissances issues de
l’expérimentation des très
petits nombres des protéines décrites aux grands
nombres déduits du
séquencement ADN (i.e the Human Genome Project –
Le Projet de Génome Humain)
En outre, il
est
possible de déduire directement les relations fonctionnelles
par
l’identification des subtiles évolutions des
signaux, comme pour la
co-évolution utilisant le profilage
phylogénétique ; en pratique, il y a
une myriade d’applications. En conséquence, de
nombreuses recherches basées sur
CATH
& Gene3D,
et plus encore
sur les structures de protéines en
général, ont eu un retentissement sur notre
compréhension des stades des maladies ainsi que sur le
développement de
nouveaux médicaments.