Savoir installer, configurer, Dataiku DSS, l'utiliser depuis l'interface web ou des API.
Connaissance des principes de la manipulation de données et du machine learning.
|
Présentation, concepts DSS |
Fonctionnalités : Mise à disposition des méthodes et outils de data-sciences à partir d'une interface graphique ou de langages de requêtage ou de programmation (Python, SQL, R), principe de "Self Service Analytics" Cluster DSS : Design, Deployer, Api, Automation et Govern Nodes Notions de projet, data, dataset, recipes Outils collaboratif : Wiki, tags, discussions... Premiers pas avec Dataiku DSS : exemples
|
|
Connexion aux données |
Connecteurs disponibles, formats de fichiers, formats spécifiques Hadoop/Spark Chargement des fichiers, emplacement des fichiers, Système de fichiers, HDFS, Amazon S3, stockage Google Cloud, etc ... FTP, connexion ssh, connexion aux bases de données SQL Autres stockages : Cassandra, MongoDB, Elasticsearch, ...
|
|
Préparation des données |
Scripts de préparation, échantillonnage, exécution, les différents moteurs d'exécution: DSS, Spark, base de données SQL
|
|
Graphiques et statistiques |
Présentation des types de graphiques disponibles et configuration Echantillonnage et exécution, graphiques de base, tables, nuages de points, visualisation cartographique, etc ... Réalisation d'exercices pratiques. Fonctionnalités statistiques disponibles, démonstrations
|
|
Machine learning |
Le laboratoire Fonctionnalités disponibles: apprentissage supervisé et non supervisé, algorithmes utilisés, scoring, deep learning... Evaluation, optimisation, compréhension du modèle Déploiement et cycle de vie du modèle
|
|
Flow/Recipes |
Interface graphique de gestion des cycles de traitement,des datasets, des traitements,paramètrage de l'exécution en parallèle, des données géographiques, export en format pdf ou images, etc ... Travaux pratiques
|
|
Interfaces de programmation |
Présentation des différentes interfaces : SQL, Python, R Exemples d'interrogations SQL et Python Interfaçage avec Spark
|