Doctoral student, Université Savoie Mont Blanc
__________________________________________________________________________________
Informations personnelles
Office / Bureau : A221
Address / Adresse : LISTIC, 5 chemin de bellevue, CS80439, 74 944 Annecy Cedex
Reaserch team/ Group : ReGaRD
__________________________________________________________________________________
Informations sur la thèse
Sujet : « Vers une IA résiliente et soutenable : Plateformes d’apprentissage automatique distribuées, frugales et soucieuses de l’énergie » / « Towards sustainable and resilient AI: frugal and energy-aware distributed machine learning platforms »
Mots-clefs / Keywords : Apprentissage distribué, ordonnancement, optimisation d’énergie, résilience – Distributed learning, scheduling, energy optimization, resilience
__________________________________________________________________________________________________________
Résumé / Abstract :
Aujourd’hui, l’intelligence artificielle (IA) transforme l’informatique et notre vie quotidienne. Dans le cadre des méthodes d’apprentissage automatique pour l’IA, la quantité considérable de données et de calculs requis ne peut plus être gérée par un seul ordinateur. L’apprentissage automatique est donc souvent distribué sur de nombreuses machines. Toutefois, ce type d’apprentissage consomme beaucoup d’énergie. Cette thèse s’attachera à explorer différentes stratégies de répartition des tâches et à étudier leur impact sur la consommation d’énergie et la résilience du système dans son ensemble, le but étant de proposer des approches à la fois frugales et résilientes. De nombreux paramètres seront pris en compte dans ces stratégies, comme le modèle d’allocation de tâches, la topologie du réseau ou du degré de synchronisation. Nous prévoyons également d’anticiper les consommations d’énergie futures et de privilégier, lorsque cela est possible, l’utilisation d’énergie renouvelable.
Nowadays, artificial intelligence brings a revolution in computer science and in everyone’s daily life. While using machine learning (ML) techniques, the huge amount of data and computation required can no longer be managed by a single computer. Machine learning is therefore often distributed across many computers. However, this type of learning consumes a lot of energy. This thesis will explore different task distribution strategies and study their impact on energy consumption and the system’s resilience. Our goal is to propose approaches that are both frugal and resilient. Many parameters will be considered in these strategies, such as the task allocation model, the network topology or the synchronization level. We also plan to anticipate future energy consumption and, where possible, to favour the use of renewable energy.
__________________________________________________________________________________________________________
Encadrantes / Supervisors : Stéphan Plassart, Sébastien Monnet (LISTIC)
Début de la thèse / Start of the thesis : Octobre 2024
Ecole doctorale / Doctoral school : Sciences, Ingénierie, Environnement (SIE)
Bibliography :
- Y. Djebrouni et al. Characterizing distributed machine learning workloads on apache spark: (experimentation and deployment paper). In Middleware, pp. 151–164. ACM, 2023
- Q. Yang et al. Federated machine learning: Concept and applications. ACM Transactions on Intelligent
Systems and Technology (TIST), 10(2):1–19, 2019 - Xinchi Qiu, Titouan Parcollet, Javier Fernández-Marqués, Pedro P. B. de Gusmao, Yan Gao, Daniel J. Beutel, Taner Topal, Akhil Mathur, Nicholas D. Lane: A First Look into the Carbon Footprint of Federated Learning.
- Discover, model and combine energy leverages for large scale energy efficient infrastructures. (Découvrir, modéliser et combiner des leviers énergétiques pour des infrastructures de calculs basse consommation). University of Lyon, France, 2018
- S. Plassart, Online optimization in dynamic real-time systems. Grenoble Alpes University, France, 2020
- Henri Casanova, Arnaud Giersch, Arnaud Legrand, Martin Quinson, Frédéric Suter: SimGrid: a Sustained Effort for the Versatile Simulation of Large Scale Distributed Systems, 2013 (Simgrid)
- Grid’5000
- Jean Zay
- Etienne Mauffret, Flavien Vernier, Sébastien Monnet. The burden of time on a large-scale data management service. AINA-2023, Mar 2023, Juiz de Fora, Brazil.
- Etienne Mauffret, Flavien Vernier, Sébastien Monnet. CAnDoR: Consistency Aware Dynamic data Replication. NCA 2019 – 18th IEEE International Symposium on Network Computing and Applications, Sep 2019, Cambridge, MA, United States. pp.1-5, (IEEE NCA 2019)
- Wen Sun, Véronique Simon, Sébastien Monnet, Philippe Robert, Pierre Sens. Analysis of a Stochastic Model of Replication in Large Distributed Storage Systems: A Mean-Field Approach. ACM Sigmetrics 2017- International Conference on Measurement and Modeling of Computer Systems, Jun 2017, Urbana-Champaign, Illinois, United States. ACM, pp.51–51, 2017, (ACM SIGMETRICS 2017). (10.1145/3078505.3078531)
- Prospective de la consommation électrique des TIC en 2030
- EVALUATION DE L’IMPACT ENVIRONNEMENTAL DU NUMERIQUE EN FRANCE ET ANALYSE PROSPECTIVE