L'atelier BigData

100 heures / 12 ECTS

 

Les données de séquençage à haut-débit

Le séquençage à haut-débit a d'ores et déjà révolutionné la biologie moderne et s'étend à des champs disciplinaires de plus en plus vastes (médecine, environnement, écologie...).

 

Il est désormais nécessaire aux biologistes, aux écologues et aux médecins d'acquérir les bases de la manipulation de ces données BigData.

L'atelier Big Data s'adresse à des biologistes et médecins n'ayant jamais traité ce type de données. Grâce à cet atelier, les étudiants vont acquérir les bases de la manipulation, du traitement et des tests statistiques leur permettant d'analyser en autonomie les données de séquençage à haut-débit.

Les applications en sciences appliquées: Génotypage à grande échelle des populations (23andMe, myHeritage, criminalistique, sciences forensiques ...), médecine personnalisée (génotype des tumeurs, caractérisation des maladies génétiques), environnement et adaptation, ...

Les applications en sciences fondamentales: Génomique (DNA-seq) transcriptomique (RNA-seq), épigénomique (ChIP-seq, ATAC-seq...), analyses 3D des génomes (4C-seq, Hi-C) ...

À l'heure actuelle, grâce aux développements technologiques d'isolement cellulaire et et des nouvelles méthodes de séquençage se développe avec une grande ampleur l'analyse de cellule unique. Cette nouvelle révolution remet en avant les méthodologies de génétique des populations et requiert des analyses statistiques particulières. 

Atelier BigData

Actuellement, la plupart des domaines de recherche traitant de génétique, génomique et d’évolution sont confrontés au traitement de jeux de données très importants issus des nouvelles techniques d’analyses (génomique, transcriptomique, protéomique, métabolomique). L’objectif de ce cours pratique, qui se déroulera sur 3 semaines, sera de familiariser les étudiants à la manipulation et à l’exploitation de ce type de données. Dans un premier temps, une présentation des outils les plus couramment utilisés sera faite. Ensuite, le jeu de données sur lequel les étudiants auront à travailler pendant le reste du stage sera introduit lors d’une conférence. Cela permettra de définir le contexte général de l’analyse et de préciser les méthodes utilisées pour obtenir les données ainsi que les questions posées. Le second temps de ce stage sera consacré à la prise en main de ces données et au choix de deux questions qui seront traitées. Enfin, la dernière partie du stage sera réservée à l’analyse des données incluant le choix des tests statistiques les plus pertinents. En parallèle, deux conférences centrées sur les informations que l’on peut tirer de ce type de données (étude du polymorphisme, du fonctionnement des génomes …) seront programmées. De plus, un temps de réflexion collectif sous forme d’un forum (sur les méthodes, les interprétations, le potentiel de ces approches...), sera prévu.

Description of the course

The Big Data workshop is dedicated to biology and medicine students who wants to acquire skills in NGS data manipulation, treatment and statical analysis.


This training is for beginners, no previous training in computer required.

Through this workshop, students will gain the basics of manipulation, processing, and statistical testing to independently analyze high-throughput sequencing data.

 During this course, students will be able to:

  • Describe the experimental techniques to achieve ChIP-seq experiments

  • Manipulate high-throughput sequencing files. Choose, set parameters for, and execute software packages for data analysis. Perform sequence alignments, filtering, normalization and quality control.

  • Master the different steps of the differential analysis of RNA-Seq data to sort out differentially expressed genes.

  • Analyse ChIp-Seq data and perform peak-calling

  •  Computerize and concatenate bioinformatics tools to create workflows

  •  Choose the apropriate statiscal model and the R package to analyse and correlate the data sets, according to their structure

  •  Execute clustering of the data (hierarchical clustering, PCA...)

  •  Analyze and interpret the experimental results, formulate conclusions or hypotheses from these data. Discuss biases, limitations and errors 

  • Choose the appropriate graphs, and draw figures to visualize high-throughput data

Les  résultats de ChIP-seq seront analysés lors de l'atelier BigData

Les animateurs :

  • Antoine BRANCA

  • Christine DILLMANN

  • Pierre GROGNET

  • Judith LEGRAND

  • Gaëlle LELANDAIS

  • Élodie MARCHADIER

  • Benoit MOINDROT

Responsables de l'atelier :

  • Pierre CAPY

  • Cécile FAIRHEAD

Planning Big Data - 2019.jpg

Les  résultats de ChIP-seq seront analysés lors de l'atelier BigData