Boinc - Equipe de la Science

Site de la miniteam Equipe de la Science composante de L’Alliance Francophone sur la grille de calcul partagé et bénévole BOINC.
  • Article

  Rosetta@home

dimanche 26 novembre 2006, par Popolito

Modélisations de protéines.
Site Officiel
Equipe de la Science > projet > rosetta@home 1/2

 

 

 

Contre quoi rosetta@home lutte-t-il ?

 

Malaria : La malaria est provoquée par un parasite qui dépense une partie de son cycle de vie à l'intérieur du moustique, et qui se transmet ensuite aux humains par des piqure de moustique. L'idée derrière le projet est de rendre des moustiques résistants au parasite en éliminant des gènes exigés dans le moustique pour que le parasite vive. Rosetta@home simulera les nouvelles enzymes qui spécifiquement viseront et inactiveront ces gènes.

 

Anthrax : Nous employons ROSETTA pour aider le groupe de recherche de John Collier à Harvard à établir les modèles de la toxine d'anthrax qui devraient contribuer au développement de traitement contre cette toxine. Vous pouvez lire l'extrait d'un article décrivant une partie de ce travail sur http://www.pnas.org/cgi/content/abstract/102/45/16409.

 

VIH : Une des raisons pour laquelle le VIH ( sida) est un virus si mortel est qu'il a évolué pour duper le système immunitaire. Nous collaborons avec des chercheurs à Seattle et au NIH pour essayer de développer un vaccin pour le VIH. Notre rôle dans ce projet est central nous employons ROSETTA@home pour concevoir les petites protéines qui montrent le nombre de régions critiques de la protéine de manteau VIH d'une manière ou le système immunitaire peut facilement identifier et produire des anticorps. Notre but est de créer les petits vaccins stables de protéine qui peuvent être faits à très bon marché et être embarqués partout dans le monde.

 

D'autres virus : Nous avions collaboré avec le laboratoire de PAM Bjorkman à la technologie de calorie pour employer la méthodologie d'amarrage de protéine-protéine de ROSETTA pour établir des modèles des protéines recto de virus d'herpès avec d'autres protéines humaines.

 

La maladie d'Alzheimer : Alzheimer et beaucoup d'autres maladies sont susceptibles d'être provoqués par des protéines se pliant pour former une structure appelée amyloïdes . Une grande avance a été faite récemment par le groupe de recherche de David Eisenberg's à UCLA en résolvant la première structure d'une amyloïde. Nous collaborons avec leur groupe de recherche pour employer la structure pour prévoir quelles parties des protéines sont susceptibles de former les amyloïdes, qui seront une première étape à bloquer la formation et si tout va bien la maladie amyloïdes.

 

Cancer : Le Cancer peut être provoqué par des mutations dans les gènes principaux qui perturbent des procédés cellulaires normaux de commande. Nous développons des méthodes pour couper l'ADN aux emplacements spécifiques dans le génome, et nous viserons les emplacements qui sont impliqués dans le cancer. Après que ces emplacements soient coupés, ils devraient être réparés par la cellule en utilisant une seconde mutation de gène et la cellule ne devrait plus être cancéreuse.

 

Cancer de Prostate : Le récepteur d'androgène (AR) lie la testostérone et est responsable du développement masculin normal. Quand l'AR devient hypersensible à la testostérone, le cancer de prostate survient. Le traitement courant pour le cancer de prostate, appelé la "thérapie d'hormone", implique d'abaisser la quantité de testostérone disponible (parfois par castration). Beaucoup de tumeurs malignes sont résistantes à cette thérapie, cependant, ainsi nous appliquons notre méthodologie de conception de protéine pour trouver différents moyens d'empêcher l'AR et donc de traiter le cancer de prostate. Spécifiquement, nous essayons de concevoir les protéines qui neutraliseront l'AR même en présence de la testostérone. Nous faisons ceci en concevant les protéines qui empêcheront l'AR d'écrire le noyau de la cellule, et en les empêchant également de lier l'ADN et d'activer les gènes tumeur-spécifiques même si elle entre dans le noyau.

 

 

Prediction et représentation des Structures Macromolléculaires et interactions:

Introduction

Représentation de la Structure des Proteines

Représentation des Interactions entre protéines

Prediction de la structure des Proteines

Prediction des Interactions entre proteines

dévelloppement du modèle physique

plans pour le Futur

 

Introduction:

Le but de notre recherche actuelle est le développement d'un modèle d'interaction intra et intermoleculaire amélioré, et d'utiliser ce modèle pour imaginer et concevoir des structures macromoléculaires et leurs interactions. Ces applications de prévision et de conception, lesquels peuvent avoir de fait un grand intérêt en biologie, mais aussi fournir des tests rigoureux et objectifs qui améliorent le modèle et accroissent la compréhention fondamentale. Nous utilisons un programme informatique appelé Rosetta pour exectuter les calculs des protéines et leur visualisation. Au coeur de Rosetta, il y a de nombreuses fonctions pour le calcul des énergies d'interaction à l'intérieur et entre les macromolécules, ainsi que des méthodes pour trouver la plus petite strucutre d'énergie pour une séquence d'acide aminé (prédiction de strucutre protéinaire) ou un complexe protéine-protéine., et la plus petite séquence énergétique d'acide aminé pour une protéine ou un complexe protéine-protéine (conception d'une protéine). La réaction à partir des tests de prévision et de conception était continuellement utilisé pour améliorer les fonctions de calcul et la recherche d'algorithmes. Le déveploppement d'un programme de calcul qui contrarient ces divers problèmes était un avantage considérable : Premièrement, les différentes applications fournissent des tests complémentaires pour le modèle physique de sous-couche ( La physique/chimie physique fondamentale est, bien sûr, la même dans tous les cas); Deusièmement, Beaucoup de problèmes d'actualité, comme la représentation de la colonne protéinaire flexible et l'arrimage protéine-protéine avec la flexibilité de la colonne, entraine une combinaison de différentes méthodes d'optimisation.

 

 

Représentation de la strucutre des protéines:

Il y a quelques années, nous avons utilisé notre méthode de conception de protéines informatisé pour stabiliser de façon critique quelques petites protéines en redessinant chaque élément de leurs séquences, pour retracer la conformation de la chaine principale des protéines, pour convertir une protéine monomèrique vers une variante par translocation de brins, et pour thermostabiliser une enzyme. un point culminant fut le retraçage du cheminement de la pliure de la protéine G, une petite protéine contenant deux béta-hairpins (épingle à cheveux) séparées par une alpha-helix (hélice). Dans la présente protéine naturelle, la première épingle est interrompue et la seconde est formée à l'étape du taux limite de pliage. Dans une variante retracée dans laquelle la première épingle est stabilisée de façon significative et la seconde déstabilisée, l'odre des évènements est renversé : La pemière épingle est formée est la seconde interrompue dans l'état de transition du pliage. La capacité de redessiner convenablement les cheminements des pliures des protéines montre que notre compréhention des déterminantes des pliures de protéines a avancé considérablement.

 

à gauche, Tanja Kortemme. a droite, Gautam Dantas.

Figure 1: Traçage de protéines et d'interactions protéines-protéines avec une précision haute résolution. Comparaison de traçage de modèles et de structure en cristal entre (à gauche) une interface 'novel' représentant une endonuclease avec les nouvelles spécifications des clivages ADN, et (à droite) le 'de novo' représentant la protéine TOP7.

 

Récemment, une création particulièrement intéressante de protéines originales avec des strucutres tri-dimentionnelles arbitrairement choisies a été établie. Nous avons développé une stratégie générale de calcul pour créer ces structures de protéine qui incorpore la flexibilité de la chaine principale dans l'optimisation de la séquence spirallée. Ceci a été accompli par intégration ab initio de prédiction des structure des protéines, le raffinement de l'énergie au niveau atomique, et le traçage des séquences dans Rosetta. La procédure a été utilisée pour dessiner une portéine de 93 éléments appelée TOP7 avec une séquence et une topologie originales. TOP7 fut trouvé comme étant monomèrique et plié, et la structure en cristal aux rayons X de TOP7 est extraordonairement similaire (RMSD = 1,2 Amgström; Voir la partie droite de la figure 1) au modèle traçé. La représentation d'un nouveau pli de protéine globulaire, et la correspondance intime de la structure du cristal avec le modèle tracé a de grandes implications pour la visualisation de protéine et la prédiction de structure de protéines, et ouvre la porte à l'exploration de larges territoires de l'univers de protéines non encore observées dans la nature.

 

 

Représentation des Interactions Protéine-Protéine

Pour étendre ces méthodes aux interactions protéine-protéine, et particulièrement pour le retraçage des spécificités d'interaction, nous avons choisi le complexe de haute affinité entre colicin E7 DNase et ces inhibiteur d'immunité des protéines analogues comme un programme modèle. Nous avons utilisé le modèle physique décrit ci-dessus et une modification de notre stratégie de calcul de traçage basé sur la recherche de rotamères pour générer une paire inhibiteur DNase de protéines originales, prévue pour interagir etroitement avec une autre, mais pas avec des protéines de type délirant. Les protéines complexes désignées ont des affinités subnanomolaires, sont fonctionnelles et spécifiquement in vivo, et ont plus d'un ordre d'ampleur de différence d'affinité entre les paires analogues et non analogues in vitro. Cette approche doit être appicable pour la représentation des paires de protéines interactives avec des spécificités originales pour esquisser et réinventer les réseaux d'interaction des protéines dans les cellules vivantes.

En collaboration avec les groupes de recherche de Barry Stoddart et Ray Monnat ( Fred Hutchinson Cancer Research Center), nous avons généré un endonucléase artificiel et hautement spécifique par fusion de domaines d'hébergement d'endonucléases I-DmoI et I-CreI à travers l'optimisation de calcul d'une nouvelle interface domaine-domaine entre ces protéines normalement non interactives. L'enzyme résultante, l'E-DreI? (Engineered I-DmoI/I-CreI), relie une longue et chimérique zone ciblée ADN avec des affinités nanomolaire, le séparant de façon précise à un taux équivalent de ses parents naturels. Nous sommes à présent en train d'essayer de générer de nouvelles endonucléases par extention de notre méthodologie de représentation des interfaces acide nucléique-protéine pour retracer l'interface ADN-protéine.

Dans ces deux systèmes, il a été possible de déterminer les structures en cristal aux rayons X des complexes désignés. Comme dans le cas TOP7, les structures actuelles sont trés proches des modèles représentés (figure 1, côté gauche), ce qui valide la précision de notre approche du modelage haute résolution.

Prediction de la structure des Proteines:

L'image de pliage de protéines qui a motivée notre approche pour la prédiction des structures tertiaires des protéines ab initio, c'est celle d'interactions locales influencant des séquences en faveur de maillons de la chaine pour échantillonner des ensembles distincts de structures locale, et celles d'interactions non locales qui selectionnent les plus basses structures tertiaires d'énergie libre à partir de beaucoup de conformations compatibles avec ces influences locales. En implémentant la stratégie suggérée par cette image, nous utilisons différents modèles pour traiter les interactions locales et non locales. Plutôt que de tenter un modèle physique pour les relations séquence-structure locales, nous nous tournons vers la base de données des protéines et utilisons la répartition des structures adoptées par séquences courtes (moins de 10 éléments en longueur) dans les structures tri-dimentionnelles connues comme une approximation de la répartition des structures echantillonnées par peptides isolés avec les séquences correspondantes. Les interactions non locales primaires considérées sont mortellement hydrophobes, électrostatiques, liés à l'hydrogène par la chaine principale, et d'un volume exclusif. Les structures qui ont une concordance simultanée avec à la fois la séquence de structure locale influente et les interactions non locales, sont générées en utilisant la recuite simulée pour minimiser l'énergie d'interaction non local dans l'espace défini par les répartitions des structure locales.

 

 

Figure 2: Prédictions de structure aveugle de CASP3 et CASP4.

A : A gauche, structure en crital de la transcription du facteur lié à l'ADN 'MarA' ; a droite, notre meilleur modèle moumis dans CASP3. Malgrès beaucoup de détails incorrect, la pliure globale est prédite avec suffisemment d'exactitude pour permettre des apercus à l'intérieur du mode de liaison de l'ADN.

B : A gauche, la structure en cristal du bacteriocine AS-48 ; au milieu, notre meilleur modèle soumis dans CASP4 ; à droite, une protéine apparentée à une autre structurée et fonctionnelle (NK-lysin) identifiée en utilisant ce modèle dans une recherche basée sur la structure de la banque de donnée des protéines (PDB). La similarité structurelle et fonctionnelle n'est pas reconnaissable en utilisant les méthodes de comparaison séquentielles (l'identification entre les deux séquences est seulement de 5 pour cent).

C : A gauche, une structure en cristal du second domaine de MutS ; au milieu, notre meilleur modèle pour ce domaine soumis dans CASP4 ; à droite, une protéine structurellement proche (RuvC) avec une fonction apparentée reconnue en utilisant le modèle d'une recherche basée sur la structure issu de la PDB. La similitude n'était pas reconnus en utilisant les méthodes de comparaison séquentielle ou de reconnaissance de pliure.

Image: Rich Bonneau

 

 

Rosetta a été testé aux expériences bisannuelles du CASP (Assises Critiques de la Prédiction de Strucutures) dans lesquelles les prédicteurs ? sont mis au défi de prédéterminer "à l'aveugle" les structures adoptées par les séquences de protéines, celles-ci ayant été définies mais pas encore publiées.Depuis CASP3 en 1998, Rosetta a continuellement été la meilleure méthode de calculs pour les prédictions ab initio comme cela a été rapporté par des observateurs indépendants. Dans l'expérience CASP4, par exemple, Rosetta a été testé sur 21 protéines. Les prédictions pour ces protéines, dont les similitudes dans les lacunes de séquence détectables avec des protéines avec une structure déterminée précédement , furent d'une précision et cohérence encore sans précédent. (Quelques exemples sont présentés Figure 2.) D'excellentes prédictions ont aussi été faites lors des expériences de CASP5 et CASP6. Encouragés par ces resultats prometteurs, nous avons généré des modèles pour toutes les famille de macro-proteines dont la longueur est composées de moins de 150 acides aminés.

Figure 3: La première finalisation d’une résolution de niveau atomique d’une prédiction aveugle de structure ab initio – CASP6 T281. La méthodologie de raffinement haute résolution décrite dans le texte a produit un modèle à 1,5 Angström RMSD près de la structure en cristal (à gauche), avec les aspects du paquetage de la chaine latérale originelle (à droite).

Image: Phil Bradley

 

Un des points forts de CASP6 était la prédiction du premier 'de novo' aveugle qu'a utilisé notre méthodologie d'amélioration haute résolution pour atteindre une exactitude proche de la haute résolution. La séquence relativement courte (76 éléments) nous permet d'appliquer notre méthodologie d'amélioration atome par atome non seulement pour les séquences originelles, mais aussi pour les séquneces de beaucoup homologues. Le centre du groupe d'énergie le plus bas des structures se déplace pour être remarquablement fermé pour les structures natives (1,5 Angström, Figure 3). Le protocole d'amélioration haute résolution réduit le RMSD de 2,2 à 1,5 Angström, et le jeu de chaines latérales dans un comportement assez ressemblant à un l'original dans le centre des protéines (Figure 3, partie droite).

Nous avons étendu la stratégie de prédiction ab initio de structure de Rosetta au problème de l'utilisation de données expérimentales limitées pour de générer des modèles de protéines. Par incorporation de déplacement chimique, d'informations NOE, et plus récemment d'informations dipolaire couplées dans la procédure de génération de structure de Rosetta, nous avons été cappable de générer bien plus de modèles exacts qu'avec la seule prédiction ab initio de structure, ou lors de l'utilisation des mêmes données limitées avec la méthodologie de génération de structure par résonnance magnétique nucléaire (NMR) conventionnelle. c'est développement récent passionnant que la procédure de Rosetta puisse alors exploiter des données NMR non attribuées et de là contourner la difficulté et l'étape fastidieuse de l'affectation du spectre NMR.

La méthode de prediction de structure ab initio de Rosetta, Celle de détermination de structure NMR basée sur Rosetta, et la nouvelle pour la représentation comparative qui utilise l'approche de novo de Rosetta, afin de modéliser une partie d'une structure (Longues boucles primaires) qui ne pouvait pas l'être à partir d'une base précise sur un modèle de structure analogue, ont toutes été implémentées dans un serveur public appelé Robetta. Ce serveur, qui a un constant d'utilisateurs à travers le monde, était l'un des meilleurs serveurs à la ronde entièrement automatisé de prédiction de structure dans les tests CASP5 et CASP6.

 

 

Prédiction des Interactions Protéine-Protéine:

Depuis de nombreuses années nous avons travaillé sur le perfectionnement de la structure protéique, un vrai défi du fait d'un grand nombre de degrés de liberté. Nous avons été intéressés par l'arrimage entre les protéines parce que, en admettant que les deux partenaires ne subissent pas de changement de configuration de façon significative durant l'arimage, l'espace à chercher -les six degrés de liberté de l'axe protéique en plus des degrés de liberté de la chaine latérale- est beaucoup plus petit. Bien qu'important en lui même, ce problème est une bonne marche à gravir vers un plus épineux problème qu'est le perfectionnement de la structure.

Nous avons développé une nouvelle méthode afin de prévoir les complexes protéiques à partir de coordonnées de composants monomères non liés. Cette méthode utilise une recherche à Monte Carlo en basse résolution et corps rigides, suivie par une optimisation simultanée du déplacement de la chaine principale et des conformations des chaines latérales, avec la procedure de minimisation de Monte Carlo et le modèle physique utilisé dans notre travail de prédiction des structures en haute résolution. L'optimisation simultanée des chaines latérales et des degrés de liberté des corps rigides contraste avec la plupart des autre approches actuelles,lesquels modèlilsent d'assemblage protéine-protéine comme un problème de corps rigide de forme identique, avec les chaines latérales tenu fixées. Nous avons récemment amélioré la méthode (RosettaDock) en déveploppant l'algotihme qui alloue un échantillonnage efficace aux conformations des chaines latérales hors rotamères durant l'assemblage.

 

Figure 4: Résultats d'assemblage protéine-protéine avec CAPRI (Evaluation judicieuse des interactions prédites). Superposition des structures compexes de protéine prédites (en bleu) et aux rayons X (en rouge et orange). En vert, une chaine latérale pour laquelle la conformation a été correctement prédite pour transformer la formation du complexe. Dans la partie du haut, le complexe entier. Dans la partie du bas, des détails de l'interface. En plus de l'orientation du corps rigide, les conformations de la plupart des chaines latérales sont correctement prédites.

Image: Ora Furman

 

La puissance RosettaDock a été mis en valeur dans le récent assemblage protéine-protéine aveugle de CAPRI, qui fut trouvé en décembre 2004. Dans CAPRI, les predicteurs ont donné les structures de deux protéines connues pour former un complexe, et pariés qu'ils allaient prédirent la structure de ce complexe. Les prédictions de RosettaDock pour les cibles sans conformation de chaine principale significative furent frappantes, comme montré dans la figure 4. Non seulement les orientation du corps rigide de deux partenaires furent proche de la perfection, mais également presque toute l'interface des chaines latérales fut modélisée trés précisemment. Ces modèles corrects ressorent clairement comme d'énergie moindre que tous les autres modèles que nous avons générés, ce qui suggère que la fonction potentielle est suffisemment précis. Ces résultats prometteurs suggèrent que la méthode devrait bientôt être utilisable pour générer de modèles d'importants complexes biologiques à partir des structures des composants isolés, et suggérer plus généralement que la modélisation haute résolution de structures et interactions est de portée infèrieure. Un but clair pour notre travail de prédiction de structure monomérique est d'approcher le niveau de précision de ces modèles.

 

Améliorations du modèle physique:

Notre approche courante pour améliorer les fonctions d'énergie implique une combinaison de calculs de chimie quantique sur des modèles simples de composants, de méthodes issues des la mécanique moléculaire traditionelle, et de l'analyse structurelles de proteine. Nous avons utilisé une telle approche pour développer une liaison hydrogène améliorée. Un résultat particulièrement notable est que la dépendance de l'orientation de la liaison hydrogène en chimie quantique des dimères formamide est remarquablement similaire à celle visible dans les liaisons hydrogène de type chaine latérale-chaine latérale des structures des protéines mais différente de celle des champs de force de la mécanique moléculaire courante, laquelle néglige le caractère covalent de la liaison hydrogène. Le retour d'informations provenant des prédictions et des calculs de conception ont insuflé un élan continu et montré la direction pour améliorer la fonction d'énergie; par exemple, des inadéquations dans notre traitement des intéractions protéine-protéine ont amené au développement récemment d'un modèle des rotamères pour les liaisons hydrogènes en solution aqueuse.

 

Plans pour le futur:

Nos méthodes de prédiction et de représentation ont maintenant abouties au point où ils peuvent être appliqués à d'importants problèmes biologiques. Après des années de travail en modélisation haute résolution, les prédictions rigoureuses de résolution atomique de structures de complexes dans CAPRI (figure 4), les prédictions de 1,5 Angstrôm de novo dans CASP6 (figure 3), et les accords étroits entre TOP7 (figure 1 , à droite) et l'interface de représentation de modèle protéine-protéine avec les structures en cristal par rayon X sont particulièrement encourageant. Ces résultats suggèrent que la modélisantion haute résolution commence à fonctionner.

Dans les quelques années à venir, Nous avons pour but d'améliorer et d'étendre nos méthodes. Nous sommes particulièrement focalisés sur l'amélioration de la précision des prédiction de structure haute résolution (Lesquelles sernt demandées si les modèles deviennent utilisées de façon générale). Pour accomplir ceci, nous travaillerons à l'amélioration du modèle de sous couche physique et de la méthodologie d'échantillonnage. Nous sommes donc en train de développer les méthodes pour prédire et représenter les spécificités d'interaction ADN-protéines, et d'étendre notre méthodologie de représentation des protéines pour le traçage des enzymes qui catalisent les réactions qui ne le sont pas présentement par les protéines naturelles.

 

Visitez notre site officiel http://www.bakerlab.org pour plus d'informations incluant la liste de nos publications d'activités. (en anglais)