Chefs de projet, Data Scientists, Développeurs, Architectes...
Bases de la programmation python.
|
| Introduction |
Durée : 2h Méthodes pédagogiques : exposé/échanges Matériels et moyens : video-projecteur en présentiel, tableau partagé en classe virtuelle | Présentation de Dask, fonctionnalités, apports.Comparaison avec d'autres environnements : yarn, spark. Calculs parallèles en environnements distribués, ou sur un seul serveur. Les composants de Dask : scheduler, collections BigData.
|
|
| Premiers pas avec Dask |
Durée : 3h30 Méthodes pédagogiques : alternance de théorie et de travaux pratiques Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux | Différentes méthodes d'installation : Anaconda, pip, depuis les sources Atelier : installation, et création d'objets Dask,
choix des méthodes et tâches, visualisation des graphes d'exécution. exécution par le scheduler
|
|
| Elements de base |
Durée : 6h30 Méthodes pédagogiques : alternance de théorie et de travaux pratiques Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux | Array: cas d'usages, compatibilité NumPy, définition de chunks, exemples, bonnes pratiques Atelier : création, stockage de Dask Array
Bag : définition, limitesAtelier : exemple de création, stockage, calcul sur des Dask Bags
Dask Dataframes : regroupement de dataframes pandas, stockage sur disque ou dans un cluster, critères de choix par rapport aux dataframes pandas, bonne pratiques, compatibilité avec Parquet, intégration de tables SQLAtelier : mise en oeuvre de dask.dataframes et comparaison avec pandas
Delayed ou Futures : une exécution stockée dans un graphe d'actions, ou en temps réel, critères de choix
|
|
| Fonctionnement avancé |
Durée : 3h30 Méthodes pédagogiques : alternance de théorie et de travaux pratiques Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux | Gesion des performances Configuration du scheduler Les graphes d'exécution Utilisation du dashboard Outils de debuggingAtelier : tests de performances et debugging
|
|
| Dask.distributed |
Durée : 3h Méthodes pédagogiques : alternance de théorie et de travaux pratiques Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux | Fonctionnalités : exécution dans un environnement distribué ou en local, outils de diagnostic et de suivi des performances, utilisation de l'API Futures pour des calculs en temps réel Architecture : dask-scheduler et dask-workerAtelier : mise en oeuvre de dask.distributed : installation, configuration, initialisation d'un client.
Présentation du dashboard Analyse des performances Limites de Dask.distributed Bonnes pratiques
|
|
| Dask-ML |
Durée : 3h Méthodes pédagogiques : alternance de théorie et de travaux pratiques Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux | Apports : utiliser les outils classiques de machine learning comme scikit-learn dans un environnement Dask Exemples d'utilisation : modèles complexes, volumes de données importants Présentation de Dask-ML et principe de fonctionnement Intégration scikit-learn, PyTorch, Keras / TensorflowAtelier : Installation et exemples avec scikit-learn
|