Prérequis
- Connaissance d'au moins un langage de programmation
- Quelques notions de base de données: Table, Ligne, Colonne
Fonctionnalités
- Une formation qui accorde une large place à la pratique : de nombreux exercices seront réalisés tout au long de la formation.
- Des retours d'expérience et conseils de consultants experts du domaine.
- Un projet simulation prod
Public ciblé
- Data Engineer, Data Scientist, Data Analyst & Data Architectes
DESCRIPTION DU COURS
Le Big Data est un terme utilisé pour décrire une collection de données de grande taille et qui croît de façon exponentielle avec le temps.
Pour traiter une garante volumétrie de données, l’écosystème Hadoop est fait parfaitement pour ça. Hadoop ou Apache Hadoop est un Framework libre et open source écrit en Java destiné à faciliter la création d’applications distribuées et permettant de traiter aisément des pétaoctets de données.
On peut ainsi dire qu’Hadoop est tout un écosystème ou un ensemble de plusieurs services qui permettent l’ingestion, le stockage et l’analyse de gros volumes de données. Essentiellement l’écosystème Hadoop est composé des éléments suivants : HDFS, le système de fichier distribué d’Apache Hadoop, YARN le gestionnaire de ressources et des tâches dans un cluster Hadoop et MapReduce un Framework pour le traitement de grands ensembles de données en parallèle, et supporte d’autres outils même plus puissant tels que Apache Spark, Pig, Oozie et HBase.
CERTIFICATION
DataTips Learning vous délivre un certificat de complétion..
Aussi on vous aide à préparer un certificat officiel Apache Hadoop: certificat Cloudera.
NOUS ABORDERONS LES SUJETS SUIVANTS
Le plan complet de la formation est bien décrit dans la partie détails, ou vous pouvez le télécharger aussi.
Essentiellement on va aborder les sujets suivants:
- Comprendre le Big Data.
- Quels sont les 5V.
- HDFS présentation & architecture.
- YARN présentation & architecture.
- Stratégie de réplication, balancer et modes.
- Analyse de données avec MapReduce.
- Les types de fichier et les algorithmes de compression.
- Utiliser l’entrepôt de données Apache Hive.
- Développer une base de données NoSQL HBase.
- Comparer MapReduce et Spark.
Course Features
- Lectures 153
- Quizzes 1
- Duration 4 jours
- Skill level Tous niveaux
- Language Anglais/Français
- Students 60
- Assessments Yes