Fouille de données et calcul

Utiliser les données

Le CTIG apporte aux équipe de recherche en génétique animale des moyens pour valoriser leurs données, celles qui leurs sont confiées et celles gérées par le CTIG. Ils disposent d'un large éventail d'outils d'exploration en proximité des dépôts ainsi constitués, de suites statistiques et d'outils de calcul dans leur champ d'activité.

Choix et organisation 

L'infrastructure permet aux ingénieurs et chercheurs de préparer puis exécuter des traitements en proximité directe des bases de données hébergées au CTIG : 

  • Les performances associées sont au bon niveau grâce notamment à un panel de serveurs qui sont placés dans la même infrastructure que les espaces de stockage (fichiers, bases de données).
  • Il n'est pas nécessaire de "sortir" les données qui ne sont pour la plupart pas propriété du CTIG ou des équipes de recherche.
  • Un accent particulier est mis sur la mutualisation des moyens et des solutions : les utilisateurs peuvent ainsi développer à long terme des outils, pipelines etc...  et les partager à leur communauté. Ces tâches sont favorisées par la forge logicielle du département Génétique Animale.

Ces choix, issus de l'histoire multi-décennale du CTIG, sont toujours d'actualité. Les utilisateurs trouvent au CTIG une partie des réponses à leurs besoins informatiques et des moyens de communiquer rapidement avec d'autres plateformes selon leurs choix et les contraintes qu'il doivent respecter. 

Principaux services  

  • Une infrastructure de fouille de données et de calcul basée, d'une part sur des serveurs d'interactivité Linux (dont deux sont généralistes et un troisième est plutôt dédié à l'écosystème R/Python), d'autre part sur un cluster de calcul HPC (80 nœuds) sous Linux. Dans les deux cas les utilisateurs peuvent utiliser les outils libres de droits ou dont ils ont acquitté la licence.
  • Des espaces de stockage de données et de bases de données performants, sauvegardés, accessibles depuis les serveurs de l'infrastructure.
  • Des suites logicielles de statistiques et de gestion de données (SAS, R), des environnements de développement (Fortran avec les librairies NAG, Python, Perl …), des logiciels d'ordonnancement.
  • Des logiciels "sur étagère" du domaine de la génétique (ASREML, FImpute, Wombat, Pest …) 
  • Des logiciels développés en commun par les équipes de recherche et qui sont regroupés dans une Boite A Outils (ou BAO). Un de principaux est HSSGBLUP, le logiciel d'évaluation "Single Step" d'INRAE.

Tous ces outils sont accessibles sans contrainte depuis les réseaux d'INRAE et de ses partenaires ou via une passerelle dédiée. 

L'ensemble de ces dispositifs est largement disponible pour le volet informatique / bioinformatique des projets de recherche.