Formations au coeur des technologies

Essayer, tester, échanger les bonnes pratiques, partager les retours d'expériences, ...
toutes nos formations sont disponibles à distance (classes virtuelles) et en centre de formation (présentiel), au choix.
Vous pouvez même changer de modalité en cours de formation, si vous avez des contraintes : par exemple, commencer en présentiel et continuer les jours suivants à distance.
Les outils pédagogiques et l'infrastructure de travaux pratiques mis à disposition sont accessibles depuis nos locaux, ou depuis votre entreprise ou votre lieu de télétravail, à volonté
N'hésitez pas à tester nos formations et nos serious games !

Formation : BigData : intégration SQL, Hive, SparkDataFrames

Durée	2 jours
Prix	1 570 €
Code cours	CB045
Inscription

Public:

Experts en bases de données, chefs de projet et toute personne souhaitant comprendre le fonctionnement et les apports des bases NoSQL.

Objectifs:

Comprendre les connexions existantes entre les mondes relationnels et NoSQL en environnement Big Data. Savoir mettre en oeuvre Hive, Impala, Phoenix, les Spark Dataframes.

Connaissances préalables nécessaires:

Connaissance générale des systèmes d'informations et des bases de données.

Pour tester vos connaissances actuelles sur le sujet : Validation des pré-requis
Pour nous préciser vos attentes : Validation des attentes

Programme détaillé de la formation

(

Téléchargez le programme) :

Présentation

Besoin. Adéquation entre les objectifs et les outils.
Faciliter la manipulation de gros volumes de données en conservant une approche utilisateurs.
Rappels sur le stockage : HDFS, Cassandra, HBase
et les formats de données : parquet, orc, raw, clés/valeurs
Les outils : Hive, Impala, Tez, Presto, Drill, Phoenix, Spark-sql, Spark Dataframe

Hive

Présentation Hive. Mode de fonctionnement. Rappel sur map/reduce.
Hive : le langage HiveQL. La surcouche Tez.

Atelier : création de tables, requêtage, connexion avec Hbase.

Impala et Phoenix

Présentation Impala. Cadre d'utilisation. Contraintes. Liaison avec le métastore Hive.

Atelier : mise en évidence des performances.

Présentation Phoenix. Cadre d'utilisation. Contraintes.

Atelier : connexion et requêtage sur une table Hbase.

Presto

Cadre d'utilisation. Sources de données utilisables.

Atelier : mise en oeuvre d'une requête s'appuyant sur Cassandra et PostgreSQL.

Spark-sql et Spark DataFrame

Les différentes approches. Syntaxe Spark-sql, Spark/scala, pyspark. APIs QL.
Utilisation du métastore Hive.

Atelier : mise en oeuvre d'une requête s'appusant sur une table HBase et sur HDFS. Requêtage en spark-sql sur un fichier csv.

Drill

Utilisation d'APIs JDBC, ODBC. Indépendance Hadoop. Contraintes d'utilisation. Performances.

Atelier : lecture de fichiers Parquets dans du HDFS, jointures, connexion et requêtage sur une table Hbase.

Comparatifs

Compatibilité ANSI/SQL. Approches des différents produits.
Critères de choix.

Déroulé pédagogique
Modalités et délais d'accès
Méthodes mobilisées

Pythagore-F.D.

01 55 33 52 10
pfd@pythagore-fd.fr

Calendrier
Code cours : CB045

Contenu de la formation
BigData : intégration SQL, Hive, SparkDataFrames:

Présentation
Hive
Impala et Phoenix
Presto
Spark-sql et Spark DataFrame
Drill
Comparatifs

Accès à la liste des cours

Vous pouvez bien entendu composer votre programme personnel à partir de nos descriptifs de cours

Note moyenne des participants à la formation BigData : intégration SQL, Hive, SparkDataFrames

4.5/5

Version du document : Ra08
Date de mise à jour du document : 2024/11/08