Comment gérer un cluster Hadoop de 2 800 noeuds et 150 M de conteneurs en production ?
Mettre en oeuvre un cluster de plus de 2800 noeuds, 150 millions de conteneurs yarn par jour nécessite de mettre en oeuvre des principes d’architecture pour scaler, des techniques d’investigation live de la production, de fabriquer (et faire scaler) des outils de monitoring pour comprendre ce qui tourne dans le cluster. Il faut prendre des décisions de capacity planning et aider les utilisateurs a tuner leur jobs. William nous proposera un survol de ce qui est fait chez Criteo pour addresser ces problématiques.
Apres quelques années passées sur les problématiques de scalabilité et de resilience de Voyages-SNCF.com, William est site reliability engineer chez Criteo. Avec son equipe, il maintient, met a jour les clusters hadoop de Criteo et construit des outils de monitoring spécifiques a destination des développeurs.
Inscriptions : PerfUG Meetup