L'atelier BigData
Logo_GenE2_V4_avec texte.jpg
big-data_words.jpg

110 heures / 12 ECTS

 

Les données de séquençage à haut-débit

Le séquençage à haut-débit a d'ores et déjà révolutionné la biologie moderne et s'étend à des champs disciplinaires de plus en plus vastes (médecine, environnement, écologie...).

 

Il est désormais nécessaire aux biologistes, aux écologues et aux médecins d'acquérir les bases de la manipulation de ces données BigData.

L'atelier Big Data s'adresse à des biologistes et médecins n'ayant jamais traité ce type de données. Grâce à cet atelier, les étudiants vont acquérir les bases de la manipulation, du traitement et des tests statistiques leur permettant d'analyser en autonomie les données de séquençage à haut-débit.

Les applications en sciences appliquées: Génotypage à grande échelle des populations (23andMe, myHeritage, criminalistique, sciences forensiques ...), médecine personnalisée (génotype des tumeurs, caractérisation des maladies génétiques), environnement et adaptation, ...

Les applications en sciences fondamentales: Génomique (DNA-seq) transcriptomique (RNA-seq), épigénomique (ChIP-seq, ATAC-seq...), analyses 3D des génomes (4C-seq, Hi-C) ...

À l'heure actuelle, grâce aux développements technologiques d'isolement cellulaire et et des nouvelles méthodes de séquençage se développe avec une grande ampleur l'analyse de cellule unique. Cette nouvelle révolution remet en avant les méthodologies de génétique des populations et requiert des analyses statistiques particulières. 

Atelier BigData

Actuellement, la plupart des domaines de recherche traitant de génétique, génomique et d’évolution sont confrontés au traitement de jeux de données très importants issus des nouvelles techniques d’analyses (génomique, transcriptomique, protéomique, métabolomique). L’objectif de ce cours pratique, qui se déroulera sur 3 semaines, sera de familiariser les étudiants à la manipulation et à l’exploitation de ce type de données. Dans un premier temps, une présentation des outils les plus couramment utilisés sera faite. Ensuite, le jeu de données sur lequel les étudiants auront à travailler pendant le reste du stage sera introduit lors d’une conférence. Cela permettra de définir le contexte général de l’analyse et de préciser les méthodes utilisées pour obtenir les données ainsi que les questions posées. Le second temps de ce stage sera consacré à la prise en main de ces données et au choix de deux questions qui seront traitées. Enfin, la dernière partie du stage sera réservée à l’analyse des données incluant le choix des tests statistiques les plus pertinents. En parallèle, deux conférences centrées sur les informations que l’on peut tirer de ce type de données (étude du polymorphisme, du fonctionnement des génomes …) seront programmées. De plus, un temps de réflexion collectif sous forme d’un forum (sur les méthodes, les interprétations, le potentiel de ces approches...), sera prévu.

Description du cours

 

L'atelier Big Data est dédié aux étudiants en biologie et en médecine qui souhaitent acquérir des compétences en matière de manipulation, de traitement et d'analyse statique des données NGS.

 

Cette formation est destinée aux débutants, aucune formation préalable en informatique n'est requise.

 

Grâce à cet atelier, les étudiants acquerront les bases de la manipulation, du traitement et des tests statistiques pour analyser de manière indépendante les données de séquençage à haut débit.

 

Durant de ce cours, les étudiants seront en mesure de :

  • Décrire les techniques expérimentales pour réaliser des expériences de ChIP-seq.

  • Manipuler des fichiers de séquençage à haut débit. Choisir, paramétrer et exécuter des logiciels pour l'analyse des données. Réaliser des alignements de séquences, des filtrages, des normalisations et des contrôles de qualité.

  • Maîtriser les différentes étapes de l'analyse différentielle des données RNA-Seq pour trier les gènes différentiellement exprimés.

  • Analyser les données ChIp-Seq et effectuer le peak-calling.

  • Informatiser et concaténer les outils bioinformatiques pour créer des flux de travail ("Pipelines").

  • Choisir le modèle statistique approprié et le paquet R pour analyser et corréler les ensembles de données, en fonction de leur structure.

  • Exécuter le clustering des données (clustering hiérarchique, PCA...)

  • Analyser et interpréter les résultats expérimentaux, formuler des conclusions ou des hypothèses à partir de ces données. Discutez des biais, des limites et des erreurs 

  • Choisir les graphiques appropriés et dessiner des figures pour visualiser les données à haut débit.

Les  résultats de ChIP-seq seront analysés lors de l'atelier BigData

Les animateurs :

  • Antoine BRANCA

  • Christine DILLMANN

  • Pierre GROGNET

  • Judith LEGRAND

  • Gaëlle LELANDAIS

  • Élodie MARCHADIER

  • Benoit MOINDROT

Responsables de l'atelier :

  • Gaëlle LELANDAIS

  • Élodie MARCHADIER