Essayer, tester, échanger les bonnes pratiques, partager les retours d'expériences, ...
toutes nos formations sont disponibles à distance (classes virtuelles) et en centre de formation (présentiel), au choix.
Vous pouvez même changer de modalité en cours de formation, si vous avez des contraintes : par exemple, commencer en présentiel et continuer les jours suivants à distance.
Les outils pédagogiques et l'infrastructure de travaux pratiques mis à disposition sont accessibles depuis nos locaux, ou depuis votre entreprise ou votre lieu de télétravail, à volonté
N'hésitez pas à tester nos formations et nos serious games !
Analyse de données
Lorsque le volume de données est faible et que le temps de traitement n'est pas une contrainte forte, l'analyse peut se faire facilement à partir du couple python/pandas. pandas permet de manipuler facilement des données : recherches, tris, jointures, ... pyarrow est un autre produit de manipulation de données. Plus rapide que pandas mais moins intuitif.
Au delà de la manipulation de données, le produit scikit-learn permet d'exploiter des algorithmes d'apprentissage automatiques en python : forêts aléatoires, régressions logistiques, k-moyennes, ...
Pour passer à de gros traitements, il est efficace de distribuer la donnée et de géolocaliser le calcul par rapport à la données.
Systèmes de stockage distribués : Hadoop, Cassandra, HBase, ...
Systèmes de calculs distribués : Spark, Dask, Storm, ...
Ces produits sont généralement exploitables en python. Scala et python sont parmi les langages les plus adaptés à ce type d'applications. Scala en tant que langage fonctionnel et Python par sa bibliothèque existante.
matplotlib, seaborn, bokeh, plotly, ...