Boinc - Equipe de la Science

Site de la miniteam Equipe de la Science composante de L’Alliance Francophone sur la grille de calcul partagé et bénévole BOINC.
  • Article

  Depspid

mercredi 13 juin 2007, par pas93

Robot d’indexation partagé qui rassemblera des données statistiques relatives à la structure d’internet.

Le but est de construire une "carthographie" de "la toile".

Toute les informations collectées par Spider seront rendues publiques.

Télécharger Boinc (tutorial)

URL du projet : http://www.depspid.net

Rejoindre l'Alliance Francophone

OS supportées : Windows

Liens du Projet
L'Alliance Francophone
Statistiques

 

  • Phase du projet : Alpha test

Ce projet est différent des autres projet Boinc puisque durant la première phase du projet, votre processeur ne sera pas utilisé. Le projet utilise juste un peu de votre bande passante internet.

Les inscriptions ne sont pas ouvertes, pour pouvoir participer il faut se pré-enregistrer

N'oubliez pas une fois votre inscription validée de rejoindre l'Alliance Francophone

 

DepSpid est toujours en cours de développement, de même que PerlBOINC (PerlBOINC est une tentative de mettre en place un système de serveur BOINC dans le langage de programmation Perl). L'application DepSpid ne fonctionne actuellement que sous Windows. Il pourrait y avoir une application linux mais ce n'est pas encore sûr.

DepSpid est une sorte de robot d' indexation et de recherche d'information sur la toile (semblable à celui utilisé par les moteurs de recherche), mais avec une recherche partargé grâce à Boinc.

Le projet a 2 buts principaux :

  1. Construire une base de données sur les dépendances entre les sites internet individuels et les sites internet groupés.
  2. Rassembler des données statistiques sur la structure d'internet.

Toute les informations collectées par Spider seront rendues publiques.

 

Sur quel base le projet s'appuye pour distribuer les points

Les points sont attribués de la façon suivante :

Pour le temps processeur utilisé (qui devrait être faible pour la plupart des tâches), DepSpid accordera les points selon la méthode classique. Pour éviter la fraude, il y aura une valeur maximale pré-définie pour chaque unité qui sera basée sur le nombre de tâches qui la compose.

Pour l'utilisation du réseau (plus ou moins intensive), DepSpid accorde actuellement 1 point pour 10Mo transférés. Ceci inclut le trafic pour les en-têtes HTTP car la plupart des requêtes de DepSpid sont des requêtes HEAD et se compose donc uniquement des en-têtes HTTP. Le trafic entrant est évalué de la même manière que le trafic sortant. La fraude est ici inutile car chaque unité est construite sur un taux d'utilisation du réseau maximum, et personne ne pourra obtenir plus de point que ce qui est indiqué par la limite.

Un des buts de l'alpha test a été de déterminer si le système d'attribution des points fonctionnait correctement ou si il avait besoin d'ajustements.

 

1ère phase

Pendant cette phase qui n'utilise pas votre processeur, l'araignée de DepSpid balayera un ensemble de pages internet et stockera les résultats dans une base de données provisoire qui sera traité plus tard durant la phase 2.

Une unité DepSpid se décompose en plusieurs tâches. Le nombre exact de tâches par unité peut varier mais sera compris entre 10 et 50. Une tâche est normalement un domaine, sous domaine ou l'annuaire d'un domaine. Durant la première phase, les cycles de l'araignée de DepSpid limiteront la charge des serveurs qu'ils visiteront.

Chaque tâche commencera par télécharger la page principale du domaine/sous domaine et le fichier robots.txt lui correspondant (si disponible). La page téléchargée sera alors balayée pour trouver des liens. Chacun de ces liens sera validé par une requête HTTP HEAD. La dépendance entre la page et ses liens sera stockée dans une base de données provisoire. L'araignée suivra chaque lien qui appartient au domaine de départ. Des liens qui pointent en dehors du domaine de départ seront marqués en tant que liens externes et ne seront pas traités par cette tâche

Une tâche se terminera quand il n'y aura plus aucun lien à visiter ou quand une des limites prédéfinies sera atteinte. Les limites sont le niveau (profondeur), le nombre de liens visités et la quantité d'octets transférés.

La phase une n'utilise pas votre processeur mais emploiera plus ou moins de votre bande passante. Si vous êtes déconnecté d'internet la phase réseau sera suspendue jusqu'à ce que vous vous reconnectiez à internet. Normalement, la phase une prendra seulement quelques secondes ou minutes pour chaque unité mais peut durer plusieurs heures ou jours selon la vitesse de votre raccordement Internet et les temps de réponse du serveur visité.

 

2ème phase

Pour cette phase il n'y aura pas besoin d'être connecté à internet mais le projet aura besoin d'un peu de votre puissance de calcul. Comme BOINC ne peux pas commuter d'une phase de non utilisation du processeur à une phase de calcul, cette phase sera considéré comme non utilisatrice de la puissance de calcul. Ceci signifie qu'il fonctionnera de manière permanente et non de façon périodique comme les projets Boinc classiques peuvent le faire. Cependant, DepSpid respectera vos options de partage du temps de calcul. Il calculera la relation entre le temps d'utilisation processeur et le temps d'exécution pour savoir lorsque le projet devra être mis en pause pour respecter vos options de partage du temps de calcul

Note : Le respect de vos préférences fonctionnera seulement de cette façon avec BOINC 5.5.6 et les versions supérieures. Des manager Boinc plus anciens pourront participer mais emploieront une part fixe de ressources qui pourra être éloigné de vos préférences

La phase 2 utilisera les données collectées lors de la phase 1 et calculera les dépendance entre toutes les pages. Un exemple sur la façon dont celà fonctionnera sera bientôt posté sur le forum

Une fois que toutes les dépendances auront été calculées, les dépendances aux liens externes qui rencontrent un seuil prédéfini seront rapportées au serveur du projet et fusionnées dans sa base de données principale.