Certification
Expert infrastructure et traitement des données massives
La certification « Expert infrastructure et traitement des données massives » vise à former des professionnels capables de concevoir, déployer et piloter des infrastructures de données massives au service des usages analytiques et des projets d’intelligence artificielle. Elle s’inscrit dans un contexte de transformation numérique marqué par l’augmentation rapide des volumes de données, la généralisation des architectures cloud et le développement des projets data et IA dans l’ensemble des secteurs économiques. Dans ce contexte, les organisations ont besoin de profils capables d’industrialiser la chaîne de traitement des données : collecte, stockage, traitement distribué, fiabilisation et mise à disposition des données pour l’analyse et la prise de décision.
Cette certification vise ainsi à développer des compétences couvrant l’ensemble du cycle de l’ingénierie des données, tout en intégrant les enjeux organisationnels, juridiques et éthiques liés à l’exploitation des données (gouvernance, protection des données personnelles, sécurité et responsabilité des usages). Elle prépare les titulaires à intervenir sur l’ensemble de la chaîne de valeur des infrastructures data et à accompagner les organisations dans la valorisation et la sécurisation de leurs données.
Pré-requis pour accéder au dispositif de certification
- Titres certifiés niveau 6 ou diplômes et/ou grades universitaires niveau 6 en informatique, sciences de l’ingénieur, mathématiques, statistiques, sciences physiques, sciences économiques et de gestion
Métiers et fonctions visés par la certification
- Expert infrastructure et traitement de données massives
- Data Engineer / Ingénieur de données / Ingénieur développement Big Data
- Chief Data officer
- Consultant Big Data
- Data manager / Data Analyst
- Architecte de données
- Responsable Applications Data
- Business Data Analyst
Les compétences visées par la certification « Expert infrastructure et traitement des données massives » ont pour objectif de maîtriser l’univers métiers des données, d’assurer la collecte, le stockage et le maintien des plateformes de traitements de données massives ainsi qu’adapter les flux de données aux besoins métiers et anticiper les besoins de gestion et d’analyse pour la data science et l’intelligence artificielle.
A ces compétences « Cœur de métier », il est indispensable d’ajouter les capacités de conduite de l’ingénierie projet Data et d’intégrer les considérations juridiques et éthiques des données et les enjeux d’accessibilité numérique et de situations de handicap.
Chaque bloc de compétence est certifié, il donne lieu à une évaluation et une validation.
Le bloc de compétences constitue le format idéal pour développer votre employabilité. En effet, ce système permet de construire votre parcours professionnel par étapes. Une formation longue peut être compliquée à concilier avec la vie professionnelle, alors que valider des blocs indépendamment est plus « digeste » et gérable. C’est aussi une façon de certifier vos compétences dans un domaine en particulier sans forcément viser le diplôme global, avec une meilleure reconnaissance qu’une formation ponctuelle qui ne conduirait qu’à une simple attestation.
BLOC N° 1 : Définir les usages et les applications du Big Data dans les organisations et les considérations juridiques et éthiques des données et les enjeux d'accessibilité numérique et de situation de handicap
- Identifier les méthodes et les technologies relatives à l’utilisation des données massives dans les organisations en caractérisant les pratiques existantes de Big Data, en structurant une analyse des tendances du marché à partir d’une veille technologique, réglementaire et sectorielle, et en identifiant les architectures, modes d’industrialisation et exigences de sécurité et de conformité réellement déployés sur des projets comparables, pour répondre à une problématique métier.
- Analyser les usages et enjeux du Big Data dans les organisations, en mobilisant une veille économique recensant, qualifiant et priorisant les cas d’usage, en estimant la valeur attendue et les impacts, et en identifiant les contraintes de mise en œuvre en matière de sécurité, de conformité, de sobriété numérique et d’accessibilité, afin de détecter les opportunités de projets data au sein de l’organisation.
- Définir les méthodes et les outils à appliquer liés au masquage et à l’intégrité des données, en établissant les règles d’accessibilité numérique, de qualité et de maitrise des données, et en assurant la conformité avec la réglementation en vigueur et les référentiels éthiques afin de garantir des usages responsables, inclusifs et conformes des données.
- Analyser les risques juridiques et éthiques liés à la gestion des données en analysant la réglementation en vigueur et les référentiels éthiques applicables au contexte spécifique de l’organisation y compris les risques liés à la prévention santé-sécurité, à l’accessibilité numérique et à l’inclusion des personnes en situation de handicap lorsque les usages data y exposent l’organisation, afin de contribuer à la mise en œuvre d’une politique de protection de données efficace.
Modalités d’évaluation :
- Etude de cas : A partir d’une documentation complète présentant un cas d’usage du Big Data dans une organisation mise à disposition par l’organisme de formation, le / la candidat(e) doit identifier les technologies et méthodes de Big Data en lien avec une problématique métier. Le/la candidat doit ensuite proposer les technologies et les méthodes adaptées à l’utilisation optimale du Big Data dans l’organisation.
- Etude de cas: A partir d’une étude de cas d’une organisation détaillant ses objectifs stratégiques, son secteur d’activité et ses enjeux futurs, le/la candidat(e) doit identifier les possibles usages du Big Data au sein de l’organisation. En s’appuyant sur la réalisation d’une veille de l’écosystème, il propose différentes options pour l’usage de la Data au sein de l’organisation.
- Etude de cas pratique: A partir d’un cas de création ou de développement d’un projet Data en entreprise, le/la candidat(e) devra cerner et identifier les problématiques potentielles liées à la sécurisation et la protection des données personnelles ainsi que les risques de non-accessibilité numérique ou d’exclusion liés aux usages data. Ensuite, le candidat doit proposer des méthodes et des outils adéquats à la réglementation en vigueur.
- Etude de cas pratique: A partir d’une étude de cas d’une organisation détaillant son activité, ses données collectées et utilisées et ses systèmes et moyens techniques et informatiques, le/la candidat(e) devra réaliser une analyse complète des risques juridiques et éthiques liés à la gestion des données, incluant l’analyse des impacts potentiels sur l’accessibilité des systèmes et la prise en compte des situations de handicap.
BLOC N° 2 : Concevoir, déployer et maintenir une architecture d’entrepôt de données
- Mettre en œuvre une architecture d’entrepôt de données, en concevant et en déployant des solutions relationnelles ou non relationnelles, en sélectionnant les outils et les technologies appropriés, et en intégrant les ressources et les contraintes relatives à l’activité de l’entreprise et ses besoins métiers, ainsi que les exigences de sécurité, de traçabilité, de durabilité et d’accessibilité, pour assurer le stockage et l’exploitation des données.
- Exploiter un entrepôt de données en administrant et en gérant les composants de la plateforme, en utilisant les technologies des données massives et les outils du Cloud appropriés, et en assurant la disponibilité, la performance, la supervision et la maîtrise des accès, pour exploiter efficacement les données répondant aux problématiques métier de l’organisation.
- Alimenter un entrepôt de données en extrayant, en transformant et en chargeant des données hétérogènes au regard des besoins métiers, en s’appuyant sur la technologie ETL et en appliquant des règles de qualité, d’intégrité et de traçabilité des transformations dans le respect des contraintes légales et des principes de responsabilité et d’éthique, en appliquant la minimisation et les mesures de protection adaptées, et en intégrant les exigences d’accessibilité, afin d’assurer des synchronisations fiables de vastes ensembles de données.
- Sécuriser des pipelines de données en créant et en gérant des chaînes de traitement issues de sources hétérogènes, internes et externes à l’entreprise en mettant en œuvre des contrôles d’intégrité et en limitant l’empreinte des traitements par l’optimisation des flux et des ressources, afin de permettre l’exploitation et le stockage des données dans des conditions maîtrisées, afin de les exploiter et de les stocker.
- Optimiser la collecte et la gestion des flux de données, en sélectionnant et en mettant en place des outils de traitement adaptés à la complexité, aux catégories et à la qualité des données, en intégrant des critères de sobriété numérique, de sécurité, et d’accessibilité lorsque les flux alimentent des services destinés aux utilisateurs, afin d’assurer une collecte efficiente et robuste.
- Adapter le volume et la vitesse des différents flux de données conformément aux contraintes de performance technique prévues, en s’appuyant sur des outils de streaming et de supervision des données exploitées, pour répondre aux besoins métiers.
Modalités d’évaluation :
- Mise en situation professionnelle : A partir d’un jeu de données brutes provenant de différentes sources et d’une problématique métier, le/la candidat(e) devra déterminer et justifier une solution de stockage adaptée aux types de données utilisées par une entreprise. Le/la candidat(e) devra concevoir un entrepôt de données en sélectionnant les outils et technologies appropriés pour améliorer les performances, réaliser des économies et faciliter la gestion des entrepôts de données. Ensuite, le candidat devra choisir les technologies Big Data et les outils du Cloud permettant la gestion des entrepôts de données.
- Mise en situation professionnelle reconstituée : A partir d’un jeu de données brutes provenant de différentes sources et d’une problématique métier, le/la candidat(e) devra extraire, transformer et charger les données dans un entrepôt de données (data warehouse) en utilisant les solutions ETL de son choix, et en veillant au respect des contraintes légales, de sécurité et du cadre éthique. Le/la candidat(e) devra créer un pipeline de données sécurisé à l’aide de différents outils d’extraction et de transformation de données identifiés et justifiés
- Mise en situation professionnelle : A partir d’une technologie ETL permettant de collecter des données en provenance de différentes sources, le/la candidat(e) devra spécifier et exécuter un outil approprié à la gestion des flux de données pour en réduire la latence, la durée des traitements et les coûts.
- Mise en situation professionnelle : A partir de critères de performance technique des flux de données définis, le/la candidat(e) devra proposer une adaptation du volume et de la vitesse de la gestion des flux de données.
BLOC N° 3 : Traiter et analyser des volumes importants de données
- Préparer des données structurées, semi-structurées et non structurées, en analysant et en prétraitant les jeux de données, en réalisant le nettoyage des données, en assurant le respect des contraintes légales et des valeurs de responsabilité et d’éthique, en intégrant la minimisation et les mesures de protection adaptées, afin de fournir aux spécialistes de la science des données les données adéquates à analyser.
- Réaliser une réduction de la dimensionnalité des données de grandes dimensions, en utilisant des méthodes d’optimisation des temps de calcul, en arbitrant entre précision, explicabilité et consommation de ressources, afin d’avoir une meilleure modélisation des données.
- Réaliser une analyse exploratoire en s’appuyant sur des solutions de visualisation de données, en représentant graphiquement les données de manière claire et pertinente, et en respectant les règles d’accessibilité numérique, afin de faciliter l’interprétation et la compréhension des résultats.
- Améliorer les performances du traitement des données massives de manière simultanée en s’appuyant sur les outils d’optimisation, et en intégrant des objectifs de sobriété numérique et de maîtrise des ressources, afin de permettre une analyse adéquate de volumes importants de données.
- Produire des analyses et des modèles à partir de volumes importants de données en analysant et en modélisant les jeux de données, en mobilisant des outils analytiques et de programmation appropriés, et en intégrant des exigences de traçabilité, de sécurité et de conformité des traitements, afin d’extraire des informations opérationnelles pour la prise de décision répondant aux enjeux métiers.
Modalités d’évaluation :
- Mise en situation professionnelle reconstituée: En se basant sur un jeu de données brutes émanant de multiples sources, le/la candidat(e) devra les analyser et les nettoyer afin d’améliorer la qualité des données.
- Mise en situation professionnelle reconstituée: En se basant sur un jeu de données brutes émanant de multiples sources, le/la candidat(e) devra réduire la dimensionnalité de ces données en réduisant le nombre de variables prédictives.
- Mise en situation professionnelle reconstituée: En se basant sur un jeu de données brutes émanant de multiples sources et une fois que ces données sont combinées et structurées en données propres, le/la candidat(e) devra représenter graphiquement ces données à l’aide d’éléments visuels.
- Mise en situation professionnelle reconstituée : En se basant sur un jeu de données brutes émanant de multiples sources, le/la candidat€ devra mettre en œuvre et orchestrer des calculs distribués de façon optimale permettant de tirer profit des données massives.
- Mise en situation professionnelle reconstituée : En se basant sur un jeu de données brutes émanant de multiples sources, le/la candidat€ devra proposer et sélectionner des outils analytiques de traitement de données massives permettant de répondre à un problème métier.
BLOC N° 4 : Conduire l’ingénierie d’un projet Big Data et accompagner le changement des acteurs
- Cadrer un projet data en analysant le besoin exprimé par l’entreprise, en utilisant les données disponibles et les technologies Big Data existantes, et en définissant une méthode de conduite de projet adaptée dans le respect des contraintes légales et les valeurs de responsabilité et d’éthique, afin d’assurer la faisabilité et la pertinence du projet.
- Définir les spécifications fonctionnelles et techniques du projet en s’appuyant sur des méthodes et des outils adaptés au contexte de l’entreprise et à la nature du projet, et en traduisant les exigences de conformité, de traçabilité et d’accessibilité en critères non fonctionnels, afin d’assurer sa conduite dans le respect des délais et des contraintes techniques et financières.
- Définir le plan de transition et de renforcement de la stratégie data de l’entreprise, en identifiant les métiers concernés et en définissant les différents jalons, indicateurs et modalités de gouvernance, afin de permettre une mise en œuvre réussie du projet par les différents acteurs et utilisateurs.
- Superviser le déploiement d’un projet Big Data en assurant une communication et une supervision continues entre développement et opérations, et en mettant en place des mécanismes de contrôle, de sécurisation et de traçabilité compatibles avec les exigences réglementaires et éthiques, afin d’accélérer la mise en production dans des conditions maîtrisées.
- Piloter une équipe projet lié à un projet Big Data, en animant des groupes de travail interdisciplinaires, en aidant les acteurs impliqués dans le projet Big Data dans l’appropriation de la solution en aidant à son intégration dans leurs pratiques métierset en intégrant la prise en compte des situations de handicap dans les modalités de déploiement et de sensibilisation, ainsi que la prévention des risques liés à l’organisation du travail, afin de transformer durablement les pratiques.
Modalités d’évaluation :
- Etude de cas: A partir d’une documentation complète présentant un cas d’usage data dans une organisation, le / la candidat(e) devra réaliser une analyse du projet data et proposer une méthodologie de gestion de projet permettant de répondre à la problématique métier.
- Étude de cas pratique: A partir d’un projet data réel ou fictif, le/la candidat(e) devra rédiger un cahier des spécifications fonctionnelles et techniques et un plan de transition/renforcement de la stratégie Data (jalons, méthodes d’accompagnement des acteurs, indicateurs de suivi, moyens). Ensuite, il/elle devra les présenter devant le jury d’évaluation.
- Etude de cas: A partir d’une présentation détaillée d’un projet Big Data d’entreprise réel ou fictif, le/la candidat(e) devra réaliser une analyse critique des méthodes de suivi mises en œuvre durant l’ensemble du processus de développement du projet.
- Mise en situation professionnelle réelle: Dans le cadre d’une mission confiée par une entreprise portant sur la mise en œuvre d’un projet de Data Engineering, le/la candidat(e) devra participer au sein d’une équipe projet au pilotage et à l’accompagnement au changement des acteurs directement concernés par le projet.
L’obtention de la certification est conditionnée à :
- La validation des 4 blocs de compétences.
- La réalisation d’une mission en entreprise (le candidat participe au pilotage d’un projet data dans le cadre d’une mission entreprise (stage, alternance, contrat de travail, immersion, conseil…) d’une durée minimale de 3 mois, réalise un rapport de stage et une soutenance orale devant le jury d’évaluation composé de professeurs et d’experts).
Le jury de certification, seule autorité autorisée à délivrer la certification professionnelle, se base pour prendre sa décision d’attribution de la certification sur les critères suivants :
- Les candidats n’ayant pas obtenu une notre inférieure à 7/20 pour une ou plusieurs compétences du référentiel.
- Les candidats ayant obtenu un résultat supérieur ou égal à 10/20 pour chacun des blocs de compétences mentionnés dans le référentiel de certification professionnelle.
- Les candidats qui ont validé leur rapport de mission par une note globale (rapport + soutenance) supérieur ou égale à 10/20.
- Les candidats à qui le Jury de certification n’a pas refusé à l’unanimité la certification ET motivé son refus dans un procès-verbal de refus de certification signé par chacun des membres du Jury de certification.
Ces conditions sont cumulatives.
Les modalités d’évaluation peuvent être adaptées aux personnes en situation de handicap.
Par la voie de la VAE
Le jury VAE procède à l’évaluation des compétences professionnelles du candidat acquises par l’expérience sur la base d’un dossier de recevabilité (Livret 1), d’un entretien de faisabilité-orientation approfondi et la constitution d’un portefeuille de preuves (Livret 2).
VAE
La certification sera accessible par la validation des acquis de l’expérience.