Bases de données avancées.
Le big data fait référence à des ensemble de données trop volumineux et complexes pour les applications traditionnelles de traitement et de management des datas. Ce terme est devenu populaire grâce à l’essor de la technologie mobile, de l’IoT (Internet of things ou Internet des objets en français) et de l’IA :
Se familiariser avec les outils de Bigdata pour la gestion des données massives.
Conception et du développement de solutions Big Data, à l’aide des techniques et les technologies les plus récentes ( Hadoop,Spark,Kafka, Presto, Mapreduce,…).
Traitement à large échelle et distribution des calculs.
a. Caractéristiques des environnements Big Data
b. Modèle de programmation parallèle MapReduce
c. Ecosystème Hadoop : HDFS, YARN, etc
a. Introduction à Spark
b. RDD: Resilient Distributed Dataset
c. Transformation & Action
d. Spark SQL
e. Spark Avancé: Cluster Configuration, Tuning, Job Scheduling,etc
a. Spark MLib: Machine Learning distribué
b. Deep Learning Pipelines: Deep Learning distribué
c. Spark GraphX: Graph Analysis
a. Introduction au Data Streaming & Stream Processing
b. Apache Kafka
c. Apache Avro: data serialization system
d. KSQL
e. Spark Streaming: Streaming DataFrames
Consultez les ressources disponibles concernant ce module sur le moteur de recherche de la bibliothèque, ou accédez directement au cours de vos enseignants via la plateforme de téléenseignement de l’école « e-learn ».