Boinc - Equipe de la Science

Site de la miniteam Equipe de la Science composante de L’Alliance Francophone sur la grille de calcul partagé et bénévole BOINC.
  • Article

  Lattice Project

vendredi 22 juin 2007, par pas93

Lattice est une grille multi-projet de l’Université du Maryland

Le projet actuel (HMMPfam) a pour but d’analyser l’alignement multiple des séquences biologiques à l’aide d’HMMER.

INSCRIPTION

URL du projet : http://boinc.umiacs.umd.edu/

Systèmes d'exploitation : Linux, Mac OS ( Intel, PowerPC), Windows

Liens du Projet
L'Alliance Francophone
Statistiques

 

Sommaire :

 

Introduction

Une communauté de chercheurs, de scientifiques, et le personnel enseignant de l'université du Maryland travaillent pour intégrer et déployer des ressources informatiques, des grilles intergicielles, des applications scientifiques spécialisées et des services web sémantiques dans une grille complète pour l'analyse scientifique. Nous appelons cet effort le projet Lattice. Les directeurs de recherche sont :

Un large éventail de recherches dans le domaine des sciences de la vie tireront partie de l'accès accru à d'importantes ressources informatiques. Aujourd'hui, plusieurs domaines de la recherche scientifique du vivant ont besoin d'une grande puissance de calcul.

  • L'analyse quantitative dans le domaine de la biologie expérimentale. La nature même d'un nombre important des recherches sur le vivant impliquent des tests d'hypothèses et déductifs qui exigent une puissance de calcul.
  • L'augmentation croissante de la taille et du nombre d'analyses informatiques notamment pour les bases de données, les tests , et les expériences.
  • La complexité croissante des modèles analytiques et l'augmentation concomitante de l'espace des solutions possibles. Un maximum de calculs de probabilités, de Monte Carlo et d'autres méthodes stochastiques de simulation exigent de plus en plus de paramètres. Alors que de tels modèles peuvent contribuer à améliorer notre compéhension des processus naturels fondamentaux étudiés, dans la plupart des cas ils entrainent une augmentation exponentielle du nombre des solutions possibles.

Malgré celà, les réponses promettrices qui s'adressent individuellement à ces questions, l'environnement informatique dans lequel beaucoup de scientifiques du vivant évoluent reste substantiellement déficient, entrainant un frein matériel aux progrès dans un certain nombre de domaines. C'est notre but de mettre en place les ressources informatiques suffisantes et de les rendre disponibles à une communauté active de chercheurs.

Le projet Lattice développe un système de grille communautaire qui intègre les technologies de grilles intergicielles et de grille élargie pour l'utilisation dans le domaine des sciences de la vie. Ce système est basé sur une architecture en grille novatrice qui englobe des grappes de serveurs et des processeurs d'ordinateurs de bureau. Nous sommes fortement attentifs aux principes de développement de logiciels au code source accessible, et nous avons l'intention de partager tout les logiciels en tant que code source librement accessible à l'exception de très infimes cas où l'utilisation est commerciale.

 

L'Architecture du projet

Le projet Lattice est une technologie hybride entre une grille au sens premier du terme et des composants personnalisés. Une grille modèle est basée sur une grappe de serveurs conventionnelle où les noeuds reçoivent le travail grâce à un noeud principal. Ce prototype a tiré avantage des importants développements pour s'occuper de la gestion des unités, le transfert des données, et la sécurité. Pour ces raisons, la trousse à outils Globus est l'épine dorsale de notre grille. Elle fournit une mise en oeuvre libre de droit d'un certain nombre de services et protocoles de grille. Notre système utilise actuellement le service Grid Resource Allocation and Management (GRAM - Manageur de l'allocation des ressources d'une grille), le service Reliable File Transfer (RFT - transfert de fichiers fiable), la Grid Security Infrastructure (GSI - sécurité de l'infrastrucutre de la grille), et le Monitoring and Discovery Service (MDS), pour n'en citer que quelques uns. Dans de nombreux cas, le logiciel d'ordonnancement Condor vérifie les ressources autorisés que Globus répartie.

Une autre approche du calcul en grille est la grille d'ordinateur de bureau (DGrid), dans laquelle les cycles processeurs inexploités sont recupérés sur un grand nombre de ressources hétérogènes et distribuées puis utilisé pour les calculs scientifiques à grande échelle et fortement parallèle. Un des premiers projets à avoir été lancé fut SETI@home, qui continue à utiliser la capacité de traitement d'un grand nombre de machines dans sa recherche d'une intelligence extraterrestre. L'architecture principale d'un DGrid se compose d'un serveur qui coordonne, distribue et effectue un suivie des travaux sur un large parc de machines pouvant être potentiellement imprévisibles et non sûre. Nous employons l'infrastructure ouverte de Berkeley pour le calcul en réseau, ou BOINC, pour y intégrer les ressources de calcul public de notre grille. Intégrer BOINC en tant que ressource accessible pour Globus est l'une de nos plus belle réussite.

Ce shéma fournis une vue d'ensemble de ce processus

 

Recherches

Voici certains des projets et études fonctionnant sur Lattice :

Le laboratoire Edwards utilise HMMPfam pour calculer une collection d'alignements multiples des séquences de protéines issues de toutes les bactéries, plasmides, et virus à l'aide des bases de données Swiss-Prot, TrEMBL, GenBank, RefSeq, et TIGR's CMR, en y incluant une série de toutes les prévisions réalisées à l'aide du programme de prévision Glimmer sur le génome des bactéries de la base de données RefSeq. Ces séquences de protéine, et leurs tâches de Pfam, sont employés dans la base de données rapide d'identification de micro-organisme (www.RMIDb.org). Le service HMMPfam est également utilisé comme modèle pour des applications bio-informatiques « donnée-lourdes » sur la grille Lattice, une collaboration entre les laboratoires Cummings et Edwards.

Le laboratoire Cummings utilise gsi pour évaluer la représentativité des statistiques dans une variété de situations.

Maile Neel et Joanna Grand utilisent Marxan pour mesurer les effets de données de faible qualité et incomplètes sur la capacité à comprendre la diversité biologique dans les réserves naturelles.

Le laboratoire de David Fushman fait tourner "protein"  : un algorithme de liaison moléculaire entre protéines sur Lattice. En s'appuyant sur des contraintes expérimentalement, ce projet aidera à la modélisation des structures de grands complexes multi-protéiques, et aux interactions de ces protéines avec divers ligands. CNS est le service de la grille réservé à ce projet.

Floyd Reed et Holly Mortensen du Laboratoire de Sarah Tishkoff ont fait tourné les simulations MDIV et IM sur le projet Lattice. Ce sont des études sur la génétique moléculaire des populations qui cherche à utiliser le polymorphisme de la séquence nucléotidique de l'ADN pour estimer les dates de divergence et les taux de migration nette parmi la diversité ethnique des populations africaines.

 

HMMPfam

hmmpfam fait partie du paquet HMMER. HMMER consiste en la mise en oeuvre des modèles de Markov cachés (profil HMMs) pour l'analyse de séquences biologiques. Les profils HMMs permettent la construction de modèles statistiques à partir des alignements multiples des séquences. Ils capturent des informations sur la façon dont se présentent chaque colonne de l'alignement, et les probabilités des résidus sont estimées. Pour plus d'information, visiter le site internet de HMMER (en anglais).

 

Les recherches du laboratoire Edwards

La majeure partie de mon travail de recherche se concentre dans le domaine de la protéomique, déterminer par l'utilisation de la spectrométrie de masse quelles protéines, et combien d'entre elles, sont présentes dans un échantillon biologique donné. Travaillant en collaboration avec le laboratoire Fenselau, j'espère aider à ce que la protéomique basée sur la spectrométrie de masse tienne toutes ses promesses, en construisant un protocole bio-formatique fiable rendant possible l'expression d'un gène, la détermination de son génotype et son séquençage.

Je travaille actuellement sur la construction d'une base de donnée des séquences d'acides aminés qui refléterait mieux les séquences de peptides observés dans le déroulement des opérations d'identification des peptides. La spectrométrie de masse en tandem résiste à l'identification par les moteurs de recherche des bases de données de séquences pour plusieurs raisons, une des raisons est que les bases de données actuelles ne contiennent pas les séquences de tout les peptides observés de façon expérimentale. Ma recherche aborde ce problème en intégrant des séquences putatives de peptide dans les sources des données génomiques et en compressant les séquences en résultant de sorte que la durée de recherche demeure réaliste. Voir les bases de données sur les séquence de peptides pour plus d'information.

Je travaille également sur la mise au point d'outils bio-informatiques pour l'identification rapide de micro-organismes par la spectrométrie de masse. En collaboration avec Fernando Pineda, de l'Ecole publique de la santé John's Hopkins Bloomberg, je fais fonctionner Rapid Microorganism Identification DataBase (RMIDB - base de donnée pour l'identification rapide des micro-organismes), qui regroupe des protéines et des peptides issus des séquences du génome des bactéries en les liants aux pics de la spectrométrie de masse. RMIDB permet aux utilisateurs de définir arbitrairement les sous-ensembles du monde des protéines bactériennes correspondant aux protéines connues comme étant naturellement abondantes, ou de les sélectionner pour la préparation d'un échantillon. RMIDB indique la famille des protéines Pfam et TIGRFAM ; espèces, genre, des notes sur l'organisme, le mot-clé UniProt ; et les modifications de post-traductionnels liés à la perte initiale de methionine pour chaque biomarqueur. Les protéines intactes et les biomarqueurs tryptiques des peptides sont supportés. L'accès au prototype actuel est limité au campus de l'université du Maryland par défaut, mais l'accès de personnes issues d'autre campus est accepté sur simple demande.

 

Téléchargements

Ici, vous pouvez télécharger les versions les plus récentes de notre logiciel de grille.

Grid Services Base Library (GSBL)

Grid Services Base Library (GSBL) est une trousse à outils en Java qui vise à réduire la complexité de l'écriture de services pour les grilles en utilisant la boite à outil Globus (version 4) GSBL fournit la classification de base à partir de laquelle les clients et les services peuvent être étendus ; De plus, il fournit les outils pour faire fonctionner et gérer les travaux et les transferts de fichiers à distance. Comme cette trousse à outils possède un certain nombre de méthodes qui sont utilisés particulièrement par notre système de grille, nous espérons que d'autres personnes pourront adapter une partie ou la totalité de ce code pour leurs propres recherches

Nouveau ! Télécharger GSBL-GT4 version 0.9.5. La documentation Java est également disponible (en anglais)

Veuillez noter que cette distribution GSBL contiens un module en Perl , GSBL ::Client, qui doit être installé afin que le language en Perl du client aient produit Grid Services Generator puisse fonctionner.

cd [unpacked_GSBL_directory]/GSBL/Client

perl Makefile.PL

make install

Grid Services Generator (GSG)

Comme complément à la bibliothèque GSBL, Grid Services Generator (GSG) accélère le développement du service distribué en créant automatiquement l'ossature des dossiers exigés par un service GSBL. Ceci inclus les dossiers WSDL, dossiers de Java, dossiers de configuration Globus, et d'autres. Voir le dossier README inclus dans la distribution pour plus de documentation.

Nouveau ! Télécharger GSG-GT4 version 0.9.5 .

Ce programme est libre , vous pouvez le redistribuer et/ou le modifier selon les termes de la Licence Publique Générale GNU telle que publiée par la Free Software Foundation ; soit la version 2 de cette licence, soit (à vous de voir...) toute autre version ultérieure.