Formations au coeur des technologies

Essayer, tester, échanger les bonnes pratiques, partager les retours d'expériences, ...
toutes nos formations sont disponibles à distance (classes virtuelles) et en centre de formation (présentiel), au choix.
Vous pouvez même changer de modalité en cours de formation, si vous avez des contraintes : par exemple, commencer en présentiel et continuer les jours suivants à distance.
Les outils pédagogiques et l'infrastructure de travaux pratiques mis à disposition sont accessibles depuis nos locaux, ou depuis votre entreprise ou votre lieu de télétravail, à volonté
N'hésitez pas à tester nos formations et nos serious games !

Formation : Hadoop : développement

Durée2 jours
Code coursCB033
Dates3 au 4 octobre
19 au 20 décembre

(cliquez sur une date pour vous inscrire)

Public:

Développeurs, Chefs de projets, data-scientists, architectes, ...

Objectifs:

A l’issue de la formation, le stagiaire sera capable de développer des applications compatibles avec la plateforme Hadoop d'Apache pour traiter des données Big Data.

Connaissances préalables nécessaires:

Avoir la connaissance d'un langage de programmation objet comme Java et du scripting

Objectifs pédagogiques:

  • Comprendre l’écosystème Hadoop Cloudera/Hortonworks
  • Présenter les principes du Framework Hadoop
  • Mettre en oeuvre des tâches Hadoop pour extraire des éléments pertinents d'ensembles de données volumineux et variés
  • Développer des algorithmes parallèles efficaces avec MapReduce
  • Charger des données non structurées des systèmes HDFS et HBase

Déroulé pédagogique


Comprendre l’écosystème Hadoop
Durée : 3h
Méthodes pédagogiques : alternance de théorie et de travaux pratiques
Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux
Les fonctionnalités du framework Hadoop. Les différentes versions.
Distributions : Apache, Cloudera, Hortonworks, EMR, MapR, DSE.
Spécificités de chaque distribution.
Architecture et principe de fonctionnement. Zoom sur la distribution Cloudera/Hortonworks
Terminologie : NameNode, DataNode, ResourceManager, NodeManager. Rôle des différents composants. Le projet et les modules : Hadoop Common, HDFS, YARN, Spark, MapReduce, Hue, Oozie, Pig, Hive, HBase, Zeppelin, ...
Atelier : Manipulations de base sur la console Hadoop


Présenter les principes du Framework Hadoop
Durée : 3h
Méthodes pédagogiques : alternance de théorie et de travaux pratiques
Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux
Le projet et les modules : Hadoop Common, HDFS, YARN, Spark, MapReduce
Utilisation de yarn pour piloter les jobs map/reduce.
Infrastructure/mise en oeuvre : Avro, Ambari, Zookeeper, Pig, Tez, Oozie. Vue d'ensemble. Gestion des données. Exemple de sqoop.
Restitution : webhdfs, hive, Hawq, Mahout, ElasticSearch, ...
Outils complémentaires de traitement : Spark, SparkQL, SparkR, Spark/ML, Storm, BigTop ; outils de développement : Cascading, Scalding, Flink; outils d'analyse : RHadoop, Hama, Chukwa, kafka
Atelier : exécution de jobs sur la ferme Hadoop


Mettre en oeuvre des tâches Hadoop pour extraire des éléments pertinents d'ensembles de données volumineux et variés
Durée : 2h30
Méthodes pédagogiques : alternance de théorie et de travaux pratiques
Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux
Lac de données. Construction et utilisation. Exploitation des données du lac.
Les différents outils : Yarn, MapReduce, Spark, Hive, Pig
Différentes solutions : calculs en mode batch, ou en temps réel,sur des flux de données ou des données statiques.
Principe de map/reduce et exemples d'implémentations, langages et sur-couches.
Découpage des travaux (jobs) avec stockage intermédiaire. Le format parquet.
Atelier : développement d'un extracteur de données et qualification de la donnée.


Développer des algorithmes parallèles efficaces avec MapReduce
Durée : 2h30
Méthodes pédagogiques : alternance de théorie et de travaux pratiques
Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux
Principe et objectifs du modèle de programmation map/reduce.
Configuration des jobs, notion de configuration.
Les interfaces principales : mapper, reducer, fonctions map() et reduce(). Couples (clés, valeurs).
Implémentation par le framework Hadoop.
Etude de la collection d'exemples.
Atelier : Réduction de la donnée extraite précedemment. Recherche et scores.


Charger des données non structurées des systèmes HDFS et HBase
Durée : 3h30
Méthodes pédagogiques : alternance de théorie et de travaux pratiques
Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux
Format des données : texte, json, csv, parquet, ...
Format des entrées et sorties d'un job map/reduce : InputFormat et OutputFormat.
Atelier : type personnalisés : création d'un writable spécifique. Utilisation. Contraintes.


Accès à des systèmes externes : S3, hdfs, har, hbase, ...
Outils d'interfaçage entre les différents composants
Atelier : Ecriture d'un ETL HDFS vers HBase



Retour au descriptif
Modalités et délais d'accès
Méthodes mobilisées