Prérequis
- Une solide connaissance de Spark
Fonctionnalités
- Une formation qui accorde une large place à la pratique : de nombreux exercices seront réalisés tout au long de la formation.
- Des retours d'expérience et conseils de consultants experts du domaine.
Public ciblé
- Data Engineer, Data Scientist, Data Analyst & Data Architectes
DESCRIPTION DU COURS
Grâce à ses capacités, rapide et facile à utiliser, Apache Spark aide les entreprises à traiter les données plus rapidement, résolvant rapidement les problèmes de données complexes.
La partie la plus difficile consiste à optimiser le système pour obtenir les meilleures performances et un débit de traitement plus rapide. L’optimisation se fait par des compromis qui n’auront pas d’impact significatif sur l’objectif final du système par rapport à ceux qui ne sont pas négociables.
Les performances des applications Spark peuvent être améliorées de plusieurs manières. Le réglage des performances de Spark est un processus visant à améliorer les performances des applications Spark en optimisant les ressources système (CPU cores & mémoire).
CERTIFICATION
DataTips Learning vous délivre un certificat de complétion.
Aussi on vous aide à préparer un certificat officiel Spark: certificat Databricks ou certificat Cloudera.
NOUS ABORDERONS LES SUJETS SUIVANTS
Le plan complet de la formation est bien décrit dans la partie détails, ou vous pouvez le télécharger aussi.
Essentiellement on va aborder les sujets suivants:
- Définir les composants principaux: core, mémoire, executor, stage, task, …
- Les types de jointure, et la différence entre eux.
- La cache des données .
- Adaptive Query Execution AQE.
- La sérialisation: Java et Kryo .
- Les niveaux de parallélisme.
- Executor Dynamic Allocation.
- Les UDFs et UDAFs.
Course Features
- Lectures 38
- Quizzes 1
- Duration 2 jours
- Skill level Tous niveaux
- Language Anglais/Français
- Students 46
- Assessments Yes