Certification
Expert infrastructure et traitement des données massives
La certification vise à préparer au métier d’Expert infrastructure et traitement des données massives et répond à un besoin grandissant des entreprises en France et à travers le monde.
En effet, l’explosion des données est le socle sur lequel s’appuie la transformation digitale de l’économie et des services au niveau mondial. Elle constitue un bouleversement majeur de ce siècle.
L’importance de former des spécialistes de la donnée est attesté par le marché au niveau mondial où l’offre en Data ingénieurs est particulièrement élevée. Une mauvaise prise en compte des données est généralement considérée comme l’une des raisons majeures de l’échec des projets en Intelligence artificielle.
En France également et selon une étude (2020) de l’APEC sur les métiers de la donnée, la demande en Experts Data a augmenté de 76% entre 2017 et 2019, et sur l’ensemble des métiers de la donnée, les experts infrastructure et traitement Big Data concentraient en 2019 près de 27 % des offres d’emplois.
Cette certification vise ainsi, non seulement à maitriser tout le cycle de l’ingénierie des données (acquisition, architecture, conservation, nettoyage, tri, structuration, sécurisation et analyse), en utilisant les meilleures technologies mais aussi de comprendre leurs enjeux dans les organisations (aide à la prise de décision, business models de la donnée, relation clients/usagers, compréhension des processus métiers…) ainsi que leurs implications juridiques, éthiques et sociétales (Gouvernance des données, respect des données personnelles, neutralité, biais, équité, diversité, transparence…).
Pré-requis pour accéder au dispositif de certification
- Titres certifiés niveau 6 ou diplômes et/ou grades universitaires bac+3 en informatique, sciences de l’ingénieur, mathématiques, statistiques, sciences physiques, sciences économiques et de gestion
Métiers et fonctions visés par la certification
- Expert infrastructure et traitement de données massives
- Data Engineer / Ingénieur de données / Ingénieur développement Big Data
- Chief Data officer
- Consultant Big Data
- Data manager / Data Analyst
(dans une entreprise privée ou dans un organisme public)
Le marché de l’emploi est en plein essor sur ces métiers offrant ainsi de nombreuses perspectives dans le secteur Internet et logiciels ou dans les organisations qui souhaitent exploiter le potentiel de leurs données pour créer de la valeur ainsi que dans le secteur public ou dans les laboratoires de recherche et développement… (Cf. Etude aivancity 2021 sur les métiers de la Data et de l’IA).
Les compétences visées par la certification «Expert infrastructure et traitement des données massives » ont pour objectif de maîtriser l’univers métiers des données, d’assurer la collecte, le stockage et le maintien des plateformes de traitements de données massives ainsi qu’adapter les flux de données aux besoins métiers et anticiper les besoins de gestion et d’analyse pour la data science et l’intelligence artificielle.
A ces compétences « Cœur de métier », il est indispensable d’ajouter les capacités de conduite de l’ingénierie projet Data et d’intégrer les considérations juridiques et éthiques.
Chaque bloc de compétence est certifié, il donne lieu à une évaluation et une validation.
Le bloc de compétences constitue le format idéal pour développer votre employabilité. En effet, ce système permet de construire votre parcours professionnel par étapes. Une formation longue peut être compliquée à concilier avec la vie professionnelle, alors que valider des blocs indépendamment est plus « digeste » et gérable. C’est aussi une façon de certifier vos compétences dans un domaine en particulier sans forcément viser le diplôme global, avec une meilleure reconnaissance qu’une formation ponctuelle qui ne conduirait qu’à une simple attestation.
BLOC N° 1 : Définir les usages et les applications du Big Data dans les organisations et les considérations juridiques et éthiques des données
- Identifier les méthodes et les technologies relatives à l’utilisation des données massives dans les organisations.
- Analyser les usages et enjeux du Big Data dans les organisations.
- Appliquer les méthodes et les outils liés au masquage et à l’intégrité des données ainsi que les règles d’accessibilité numérique.
- Analyser les risques juridiques et éthiques liés à la gestion des données.
Modalités d’évaluation :
- Etude de cas : A partir d’une documentation complète présentant un cas d’usage du Big Data dans une organisation mise à disposition par l’organisme de formation, le / la candidat(e) doit identifier les technologies et méthodes de Big Data en lien avec une problématique métier. Le/la candidat doit ensuite proposer les technologies et les méthodes adaptées à l’utilisation optimale du Big Data dans l’organisation.
- Etude de cas : A partir d’une étude de cas d’une organisation détaillant ses objectifs stratégiques, son secteur d’activité et ses enjeux futurs, le/la candidat(e) doit identifier les possibles usages du Big Data au sein de l’organisation. En s’appuyant sur la réalisation d’une veille de l’écosystème, il propose différentes options pour l’usage de la Data au sein de l’organisation.
- Etude de cas pratique : A partir d’un cas de création ou de développement d’un projet Data en entreprise, le/la candidat(e) devra cerner et identifier les problématiques potentielles liées à la sécurisation et la protection des données personnelles. Ensuite, le candidat doit proposer des méthodes et des outils adéquats à la réglementation en vigueur pour une meilleure protection des données.
- Etude de cas pratique : A partir d’une étude de cas d’une organisation détaillant son activité, ses données collectées et utilisées et ses systèmes et moyens techniques et informatiques, le/la candidat(e) devra réaliser une analyse complète des risques juridiques et éthiques liés à la gestion des données.
BLOC N° 2 : Concevoir, déployer et maintenir une architecture d’entrepôt de données
- Concevoir et déployer des entrepôts de données en s’appuyant sur les outils et les technologies appropriés.
- Administrer et gérer les entrepôts des données en utilisant les technologies des données massives et les outils du Cloud appropriés.
- Extraire, transformer et charger différentes sortes de données en lien avec les besoins métiers.
- Créer et gérer des pipelines de données issues de sources hétérogènes, internes et externes à l’entreprise et ceci de façon sécurisée.
- Sélectionner et mettre en place les outils de traitement des flux de données en fonction de la complexité, des catégories et de la qualité de données
- Adapter le volume et la vitesse des différents flux de données conformément aux contraintes de performance technique prévues et des données exploitées.
Modalités d’évaluation :
- Mise en situation professionnelle : A partir d’un jeu de données brutes provenant de différentes sources et d’une problématique métier, le/la candidat(e) devra déterminer et justifier une solution de stockage adaptée aux types de données utilisées par une entreprise. Le/la candidat(e) devra :
- concevoir un entrepôt de données en sélectionnant les outils et technologies appropriés pour améliorer les performances, réaliser des économies et faciliter la gestion des entrepôts de données. Ensuite, le candidat devra choisir les technologies Big Data et les outils du Cloud permettant la gestion des entrepôts de données.
- extraire, transformer et charger les données dans un entrepôt de données (data warehouse) en utilisant les solutions ETL de son choix, et en veillant au respect des contraintes légales, de sécurité et du cadre éthique. Le/la candidat(e) devra créer un pipeline de données sécurisé à l’aide de différents outils d’extraction et de transformation de données identifiés et justifiés.
- Mise en situation professionnelle : A partir d’une technologie ETL permettant de collecter des données en provenance de différentes sources, le/la candidat(e) devra spécifier et exécuter un outil approprié à la gestion des flux de données pour en réduire la latence, la durée des traitements et les coûts.
- Mise en situation professionnelle : A partir de critères de performance technique des flux de données définis, le/la candidat(e) devra proposer une adaptation du volume et de la vitesse de la gestion des flux de données.
BLOC N° 3 : Traiter et analyser des volumes importants de données
- Analyser et prétraiter des données structurées, semi-structurées et non structurées en s’appuyant sur le nettoyage des données réalisé.
- Réaliser une réduction de la dimensionnalité des données de grandes dimensions en utilisant des méthodes d’optimisation des temps de calcul.
- Réaliser une analyse exploratoire en s’appuyant sur des solutions de visualisation de données en s’appuyant sur les outils d’optimisation.
- Améliorer les performances du traitement des données de manière simultanée.
- Analyser et modéliser de volumes importants de données en s’appuyant sur les outils analytiques et de programmation appropriés.
Modalités d’évaluation :
Mises en situations professionnelles reconstituées : En se basant sur un jeu de données brutes émanant de multiples sources, le/la candidat(e) :
- devra les analyser et les nettoyer afin d’améliorer la qualité des données
- réduire la dimensionnalité de ces données en réduisant le nombre de variables prédictives
- représenter graphiquement ces données à l’aide d’éléments visuels
- mettre en œuvre et orchestrer des calculs distribués de façon optimale permettant de tirer profit des données massives
- proposer et sélectionner des outils analytiques de traitement de données massives permettant de répondre à un problème métier.
BLOC N° 4 : Conduire l’ingénierie d’un projet Big Data et accompagner le changement
- Analyser le besoin du projet data défini par l’entreprise en utilisant les données disponibles et les technologies Big Data existantes.
- Définir les spécifications fonctionnelles et techniques du projet en s’appuyant sur des méthodes et des outils adaptés au contexte de l’entreprise et à la nature du projet.
- Définir le plan de transition/renforcement de la stratégie data de l’entreprise, en identifiant les métiers concernés et en définissant les différents jalons et indicateurs
- Déployer un projet Big Data en assurant une communication et une supervision permanentes entre les développeurs et les opérations tout au long du cycle de vie du projet.
- Piloter une équipe projet avec des groupes de travail interdisciplinaires et aider les acteurs impliqués dans le projet Big Data dans l’appropriation de la solution en aidant à son intégration dans leurs pratiques métiers.
Modalités d’évaluation :
- Etude de cas : A partir d’une documentation complète présentant un cas d’usage data dans une organisation, le / la candidat(e) devra réaliser une analyse du projet data et proposer une méthodologie de gestion de projet permettant de répondre à la problématique métier.
- Étude de cas pratique : partir d’un projet data réel ou fictif, le/la candidat(e) devra rédiger un cahier des spécifications fonctionnelles et techniques et un plan de transition/renforcement de la stratégie Data. Ensuite, il/elle devra le présenter devant le jury d’évaluation.
- Etude de cas : A partir d’une présentation détaillée d’un projet Big Data d’entreprise réel ou fictif, le/la candidat(e) devra réaliser une analyse critique des méthodes de suivi mises en œuvre durant l’ensemble du processus de développement du projet.
- Mise en situation professionnelle réelle : Dans le cadre d’une mission confiée par une entreprise portant sur la mise en œuvre d’un projet de Data Engineering, le/la candidat(e) devra participer au sein d’une équipe projet au pilotage et à l’accompagnement au changement des acteurs directement concernés par le projet.
L’obtention de la certification est conditionnée à :
- La validation des 4 blocs de compétences.
- La réalisation d’une mission en entreprise : le/la candidat(e) participe au pilotage d’un projet data dans le cadre d’une mission entreprise (stage, alternance, contrat de travail, immersion, conseil…) d’une durée minimale de 3 mois, réalise un rapport de stage et une soutenance orale devant le jury d’évaluation composé de professeurs et d’experts.
Le jury de certification, seule autorité autorisée à délivrer la certification professionnelle, se base pour prendre sa décision d’attribution de la certification sur les critères suivants :
- Les candidats n’ayant pas obtenu une notre inférieure à 7/20 pour une ou plusieurs compétences du référentiel.
- Les candidats ayant obtenu un résultat supérieur ou égal à 10/20 pour chacun des blocs de compétences mentionnées dans le référentiel de certification professionnelle.
- Les candidats qui ont validé leur rapport de mission par une note globale (rapport + soutenance) supérieur ou égale à 10/20.
- Les candidats à qui le Jury de certification n’a pas refusé à l’unanimité la certification ET motivé son refus dans un procès-verbal de refus de certification signé par chacun des membres du Jury de certification.
Ces conditions sont cumulatives.
Les modalités d’évaluation peuvent être adaptées aux personnes en situation de handicap.
Par la voie de la VAE
Le jury VAE procède à l’évaluation des compétences professionnelles du candidat acquises par l’expérience sur la base d’un dossier de recevabilité (Livret 1), d’un entretien de faisabilité-orientation approfondi et la constitution d’un portefeuille de preuves (Livret 2).
VAE
La certification sera accessible par la validation des acquis de l’expérience.