Formations au coeur des technologies

Essayer, tester, échanger les bonnes pratiques, partager les retours d'expériences, ...
toutes nos formations sont disponibles à distance (classes virtuelles) et en centre de formation (présentiel), au choix.
Vous pouvez même changer de modalité en cours de formation, si vous avez des contraintes : par exemple, commencer en présentiel et continuer les jours suivants à distance.
Les outils pédagogiques et l'infrastructure de travaux pratiques mis à disposition sont accessibles depuis nos locaux, ou depuis votre entreprise ou votre lieu de télétravail, à volonté
N'hésitez pas à tester nos formations et nos serious games !

Formation : BigData : intégration SQL, Hive, SparkDataFrames

Durée2 jours
Code coursCB045
Inscription

Public:

Experts en bases de données, chefs de projet et toute personne souhaitant comprendre le fonctionnement et les apports des bases NoSQL.

Objectifs:

Comprendre les connexions existantes entre les mondes relationnels et NoSQL en environnement Big Data. Savoir mettre en oeuvre Hive, Impala, Phoenix, les Spark Dataframes.

Connaissances préalables nécessaires:

Connaissance générale des systèmes d'informations et des bases de données.

Déroulé pédagogique


Présentation
Durée : 1h30
Méthodes pédagogiques : exposé/échanges
Matériels et moyens : video-projecteur en présentiel, tableau partagé en classe virtuelle
Besoin. Adéquation entre les objectifs et les outils.
Faciliter la manipulation de gros volumes de données en conservant une approche utilisateurs.
Rappels sur le stockage : HDFS, Cassandra, HBase
et les formats de données : parquet, orc, raw, clés/valeurs
Les outils : Hive, Impala, Tez, Presto, Drill, Phoenix, Spark-sql, Spark Dataframe
Hive
Durée : 2h30
Méthodes pédagogiques : alternance de théorie et de travaux pratiques
Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux
Présentation Hive. Mode de fonctionnement. Rappel sur map/reduce.
Hive : le langage HiveQL. La surcouche Tez.
Atelier : création de tables, requêtage, connexion avec Hbase.


Impala et Phoenix
Durée : 3h30
Méthodes pédagogiques : alternance de théorie et de travaux pratiques
Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux
Présentation Impala. Cadre d'utilisation. Contraintes. Liaison avec le métastore Hive.
Atelier : mise en évidence des performances.


Présentation Phoenix. Cadre d'utilisation. Contraintes.
Atelier : connexion et requêtage sur une table Hbase.


Presto
Durée : 2h
Méthodes pédagogiques : alternance de théorie et de travaux pratiques
Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux
Cadre d'utilisation. Sources de données utilisables.
Atelier : mise en oeuvre d'une requête s'appuyant sur Cassandra et PostgreSQL.


Spark-sql et Spark DataFrame
Durée : 2h
Méthodes pédagogiques : alternance de théorie et de travaux pratiques
Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux
Les différentes approches. Syntaxe Spark-sql, Spark/scala, pyspark. APIs QL.
Utilisation du métastore Hive.
Atelier : mise en oeuvre d'une requête s'appusant sur une table HBase et sur HDFS. Requêtage en spark-sql sur un fichier csv.


Drill
Durée : 2h
Méthodes pédagogiques : alternance de théorie et de travaux pratiques
Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux
Utilisation d'APIs JDBC, ODBC. Indépendance Hadoop. Contraintes d'utilisation. Performances.
Atelier : lecture de fichiers Parquets dans du HDFS, jointures, connexion et requêtage sur une table Hbase.


Comparatifs
Durée : 1h
Méthodes pédagogiques : exposé/échanges
Matériels et moyens : video-projecteur en présentiel, tableau partagé en classe virtuelle
Compatibilité ANSI/SQL. Approches des différents produits.
Critères de choix.

Retour au descriptif
Modalités et délais d'accès
Méthodes mobilisées

Pythagore-F.D.

01 55 33 52 10
pfd@pythagore-fd.fr
Calendrier
Code cours : CB045

Contenu de la formation
BigData : intégration SQL, Hive, SparkDataFrames:

Accès à la liste des cours



Vous pouvez bien entendu composer votre programme personnel à partir de nos descriptifs de cours

Note moyenne des participants à la formation BigData : intégration SQL, Hive, SparkDataFrames

4.5/5




Version du document : Ra08
Date de mise à jour du document : 2024/11/08