Asma DHAOUADI

Doctorante, LISTIC, USMB

Contact

Courriel : asma.dhaouadi@univ-smb.fr

Téléphone : +33(0) 765228805

Bureau : A221-A222

Adresse 1 : LISTIC – Polytech Annecy-Chambery, BP 80439, 74944 Annecy le Vieux Cedex, France

Thèse

Groupe : LISTIC -Equipe ReGaRD

Thème : Modélisation du Data Warehousing dans le contexte du Big Data

Sujet : CONTRIBUTION À L’ENTREPOSAGE DES DONNÉES MASSIVES : ARCHITECTURE GÉNÉRIQUE, MÉTHODOLOGIE ET MISE EN ŒUVRE

Résumé :

Les Entrepôts de Données (Data Warehouse en anglais) sont indispensables pour tous les systèmes d’informations car ils jouent un rôle clé dans la prise de décision. L’architecture typique d’un ED est principalement composée de quatre parties : sources de données, préparation de données, stockage de données cible, et l’accès et l’analyse de ces données. Au cœur de cette architecture se situe le processus ETL pour l’Extraction, la Transformation et le Chargement de données dans la base de données cible, pour des fins de visualisation, de reporting, d’analyse et de prise de décision. A l’ère de Big Data, l’enjeu majeur de la communauté est de faire évoluer les ED d’architectures traditionnelles, et en particulier le processus ETL classique pour supporter les exigences de . L’état de l’art mené révèle deux limitations. La première concerne les approches Big Data reposant sur différentes technologies dédiées, tels que l’écosystème d’Hadoop, Flink, Kafka, Kibana, etc. Ces dernières évoluent rapidement, au point que les architectures des ED deviennent obsolètes par rapport aux technologies les plus récentes. La deuxième repose sur le fait qu’il n’existe aucun modèle standard pour la représentation et la conception des processus ETL. Malgré les apports des travaux menées sur la modélisation du processus ETL dans la littérature, la conception d’un modèle ETL générique capable d’homogénéiser les différentes approches contemporaines reste toujours d’actualité. Pour ces raisons, en s’appuyant sur l’ingénierie dirigée par les modèles (MDE) comme cadre générique et sur l’architecture dirigée par les modèles (MDA) comme cadre spécifique, nous cherchons dans cette thèse à proposer un nouveau modèle ETL générique et une nouvelle architecture générique pour l’entreposage de données massives supportant ce modèle. Cette architecture pourrait être instanciée selon des technologies précises en fonction du domaine d’application. De plus, nous proposons aussi une méthodologie pour accompagner l’expert à mettre en œuvre une architecture répondant aux spécificités de son entreprise à partir de l’architecture générique. Finalement, nous validons tous les travaux de recherche menés sur un cas pratique touchant comme à titre d’exemple le domaine médical (Pandémie covid-19) ou autres applications.

Mots clés : Data Warehouse, ETL Process Modeling, Data Warehousing Architectures, Knowledge Discovery, Meta-Model, Generic Methodology
Publications :
A Multi-Layer Modeling for the Generation of New Architectures for Big Data Warehousing — https://hal.archives-ouvertes.fr/hal-03537854
A Two Level Architecture for Data Warehousing and OLAP Over Big Data — https://www.archives-ouvertes.fr/hal-02382486

Encadrant : Sébastien Monnet & Mohamed Mohsen Gammoudi

Co-encadrant : Khadija Arfaoui

Début de la thèse : Janvier 2021