BIG DATA - Ecole Superieure en Informatique 08-MAI-1945 SIDI BEL ABBES

Département

Second cycle

Année d étude

3éme Année ISI

Semestre

Crédit

Coefficient

Module

Optionnel

Enseignants du module

MALKI ABDELHAMID

Annuaire enseignants

Pré requis :

Bases de données avancées ; Réseaux avancées

OBJECTIFS :

Depuis de nombreuses années, des données structurées, typiquement stockées dans des bases de données relationnelles, ont été analysées avec des technologies d’entreposage de données au profit de la prise de décision marketing et financière. Le développement rapide des réseaux sociaux et l’omniprésence de l’informatique dans la vie quotidienne ont conduit à la création de gros volumes de données (Big Data), principalement non structurés: journaux web, vidéos, fichiers audio, photos, courriels, tweets, etc. En même temps, suivant la loi de Moore, la puissance du processeur a augmenté et l’espace de stockage est devenu moins cher.
Aujourd’hui, nous avons la possibilité de stocker des quantités fiable de données pour un coût presque négligeable. Ces données peuvent être efficacement analysées pour extraire des idées utiles pour la vie économique et sociale.
Ce cours présente des techniques pour manipuler, stocker et analyser de grands volumes de données (Hadoop, outils d’accès aux données non structurées Pig and Hive, bases de données NoSQL et techniques d’exploration de données ainsi que leur implémentation pour Big Data).

CONTENU DU MODULE :

1. Data Introduction au Big Data (3h)

– Big data: definition et taxonomie
– Importance du Big data dans les enterprises
– Préparation de l’environnement de Démo
– Premier pas avec l’écosystème Hadoop

2. L’écosystem Hadoop (3h)

-Introduction au Hadoop
-Eléments du Hadoop : MapReduce/Pig/Hive/HBase
-Chargement des données dans le Hadoop
-Manipulation des fichiers dans le Hadoop
-Récuperation des données à partir du Hadoop

3 . Requètes big data avec Hive (6h)

-Introduction au language SQL
-Introduction à HIVE et HIVEQL
-Utilisation de Hive pour appliquer des requètes aux fichiers Hadoop

4. Analyse du texte et flots de données (Streams) (3h)

Cloud et Big Data

Consultez les ressources disponibles concernant ce module sur le moteur de recherche de la bibliothèque, ou accédez directement au cours de vos enseignants via la plateforme de téléenseignement de l’école « e-learn ».

e-Bibliothéque e-Learning