Prérequis
- Connaissance d'au moins un langage de programmation.
- Quelques notions de base de données: Table, Ligne, Colonne.
Fonctionnalités
- Une formation qui accorde une large place à la pratique : de nombreux exercices seront réalisés tout au long de la formation.
- Des retours d'expérience et conseils de consultants experts du domaine.
Public ciblé
- Data Engineer, Data Scientist, Data Analyst & Data Architectes
DESCRIPTION DU COURS
Apache Spark est un moteur unifié conçu pour le traitement de données distribué à grande échelle, on-premises ou dans le cloud. Spark fournit un stockage en mémoire pour les calculs intermédiaires, ce qui le rend beaucoup plus rapide que Hadoop MapReduce.
Il intègre des librairies avec des API pour l’apprentissage automatique MLlib, SQL pour les requêtes interactives : Spark SQL, le traitement en temps réel : Structured Streaming pour interagir avec des données en temps réel et le traitement de graphes GraphX.
Cette formation présente l’historique de Spark, couvre les parties essentielles du moteur de calcul et met l’accent sur la partie performance de Spark tels que le cache, le broadcasting et les partitions.
CERTIFICATION
DataTips Learning vous délivre un certificat de complétion.
Aussi on vous aide à préparer un certificat officiel Spark: certificat Databricks ou certificat Cloudera.
NOUS ABORDERONS LES SUJETS SUIVANTS
Le plan complet de la formation est bien décrit dans la partie détails, ou vous pouvez le télécharger aussi.
Essentiellement on va aborder les sujets suivants:
- Présentation du moteur de calcul Spark.
- Apprendre à installer Spark et à utiliser Databricks.
- Comprendre l’architecture de Spark et le rôle de SparkSession.
- Apprendre a lire et écrire des données avec Spark.
- Comprendre Spark SQL, les transformations et les actions.
- Comprendre les DataFrames et les DataSets et comment les utiliser.
- Apprendre à utiliser Spark Streaming & Spark Graphe.
- Comprendre l’optimisation de Spark et comment débugger.
- Présenter SparkUI et ses avantages.
- Apprendre à configurer un cluster.
Course Features
- Lectures 23
- Quizzes 1
- Duration 3 jours
- Skill level Tous niveaux
- Language Anglais/Français
- Students 60
- Assessments Yes