Formation : BigData : intégration SQL, Hive, SparkDataFrames

Durée	2 jours
Code cours	CB045
Inscription

Public:

Experts en bases de données, chefs de projet et toute personne souhaitant comprendre le fonctionnement et les apports des bases NoSQL.

Objectifs:

Comprendre les connexions existantes entre les mondes relationnels et NoSQL en environnement Big Data. Savoir mettre en oeuvre Hive, Impala, Phoenix, les Spark Dataframes.

Connaissances préalables nécessaires:

Connaissance générale des systèmes d'informations et des bases de données.

Déroulé pédagogique


	Présentation
Durée : 1h30 Méthodes pédagogiques : exposé/échanges Matériels et moyens : video-projecteur en présentiel, tableau partagé en classe virtuelle	Besoin. Adéquation entre les objectifs et les outils. Faciliter la manipulation de gros volumes de données en conservant une approche utilisateurs. Rappels sur le stockage : HDFS, Cassandra, HBase et les formats de données : parquet, orc, raw, clés/valeurs Les outils : Hive, Impala, Tez, Presto, Drill, Phoenix, Spark-sql, Spark Dataframe

	Hive
Durée : 2h30 Méthodes pédagogiques : alternance de théorie et de travaux pratiques Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux	Présentation Hive. Mode de fonctionnement. Rappel sur map/reduce. Hive : le langage HiveQL. La surcouche Tez. Atelier : création de tables, requêtage, connexion avec Hbase.

	Impala et Phoenix
Durée : 3h30 Méthodes pédagogiques : alternance de théorie et de travaux pratiques Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux	Présentation Impala. Cadre d'utilisation. Contraintes. Liaison avec le métastore Hive. Atelier : mise en évidence des performances. Présentation Phoenix. Cadre d'utilisation. Contraintes. Atelier : connexion et requêtage sur une table Hbase.

	Presto
Durée : 2h Méthodes pédagogiques : alternance de théorie et de travaux pratiques Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux	Cadre d'utilisation. Sources de données utilisables. Atelier : mise en oeuvre d'une requête s'appuyant sur Cassandra et PostgreSQL.

	Spark-sql et Spark DataFrame
Durée : 2h Méthodes pédagogiques : alternance de théorie et de travaux pratiques Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux	Les différentes approches. Syntaxe Spark-sql, Spark/scala, pyspark. APIs QL. Utilisation du métastore Hive. Atelier : mise en oeuvre d'une requête s'appusant sur une table HBase et sur HDFS. Requêtage en spark-sql sur un fichier csv.

	Drill
Durée : 2h Méthodes pédagogiques : alternance de théorie et de travaux pratiques Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux	Utilisation d'APIs JDBC, ODBC. Indépendance Hadoop. Contraintes d'utilisation. Performances. Atelier : lecture de fichiers Parquets dans du HDFS, jointures, connexion et requêtage sur une table Hbase.

	Comparatifs
Durée : 1h Méthodes pédagogiques : exposé/échanges Matériels et moyens : video-projecteur en présentiel, tableau partagé en classe virtuelle	Compatibilité ANSI/SQL. Approches des différents produits. Critères de choix.

Retour au descriptif
Modalités et délais d'accès
Méthodes mobilisées

Pythagore-F.D.

01 55 33 52 10
pfd@pythagore-fd.fr

Calendrier
Code cours : CB045

Contenu de la formation
BigData : intégration SQL, Hive, SparkDataFrames:

Présentation
Hive
Impala et Phoenix
Presto
Spark-sql et Spark DataFrame
Drill
Comparatifs

Accès à la liste des cours

Vous pouvez bien entendu composer votre programme personnel à partir de nos descriptifs de cours

Note moyenne des participants à la formation BigData : intégration SQL, Hive, SparkDataFrames

4.5/5

Version du document : Ra08
Date de mise à jour du document : 2024/11/08

Formations au coeur des technologies