
Microsoft - DP 203: Data Engineering on Microsoft Azure
Need to adapt this training to your needs?
Do not hesitate to contact us for a customised quote!
Training created on 8/4/22.
Programme version: 1
Training programme
Les ingénieurs de données de Azure intègrent, transforment et consolident les données provenant de divers systèmes de données structurées et non structurées dans des structures qui conviennent à l'élaboration de solutions analytiques. Cette formation vous aidera pour y parvenir en adoptant les meilleurs pratiques.
Objectives of the training
- Concevoir une structure de stockage de données
- Concevoir une stratégie de partition
- Concevoir et mettre en oeuvre des couches de service
- Mettre en oeuvre des structures de stockage de données physique et de données logique
- Intégrer et transformer des données
- Concevoir et développer des solutions de traitement par lot et par flux
- Gérer les lots et les pipelines
- Concevoir la politique de sécurité des données
- Mettre en oeuvre la sécurité des données
- Surveiller le stockage et le traitement des données
- Optimiser et dépanner le stockage et le traitement des données
Profile of beneficiaries
For whom
- Data Engineers, Data Scientists
Requirements
- Les candidats doivent avoir une expertise en matière d’intégration, de transformation et doivent savoir consolider divers systèmes de données structurés et non structurés dans un outils adapté à la création de solutions d’analyses. Il faut également une bonne connaissance des langages tels que SQL, Python ou Scala et comprendre l’architecture des données
- Les candidats doivent avoir suivi la formation AZ-900 Azure Fundamentals et DP-900 Data Fundamentals ou avoir un niveau d’expérience équivalent.
Training content
-
Concevoir une structure de stockage de données
- Concevoir une solution Azure Data Lake
- Recommander des types de fichiers pour le stockage
- Recommander des types de fichiers pour les requêtes analytiques
- Conception pour une interrogation efficace et pour l'élagage des données
- Concevoir une structure de dossiers qui représente les niveaux de transformation des données
- Concevoir une stratégie de distribution concevoir une solution d'archivage de données
-
Concevoir une stratégie de partition
- Concevoir une stratégie de partition pour les fichiers
- Concevoir une stratégie de partition pour les charges de travail analytiques
- Concevoir une stratégie de partition pour l ’efficacité
- Concevoir une stratégie de partition pour Azure Synapse Analytics
- Identifier quand le partitionnement est nécessaire dans Azure Data Lake Storage Gen2
-
Concevoir la couche de service
- Concevoir des schémas en étoile
- Concevoir des dimensions qui changent lentement
- Concevoir une hiérarchie dimensionnelle
- Concevoir une solution pour les données temporelles
- Conception pour chargement incrémentiel
- Concevoir des magasins analytiques
- Concevoir des métastores dans Azure Synapse Analytics et Azure Databricks
-
Mettre en oeuvre des structures de stockage de données physiques
- Mettre en oeuvre la compression
- Implémenter le partitionnement et le sharding
- Implémenter différentes géométries de table avec les pools Azure Synapse Analytics
- Mettre en oeuvre la redondance des données
- Mettre en oeuvre des distributions
- Mettre en oeuvre l’archivage des données
-
Mettre en oeuvre des structures de données logiques
- Construire une solution de données temporelles
- Construire une dimension qui change lentement
- Construire une structure de dossiers logique
- Créer des tables externes
- Implémenter des structures de fichiers et de dossiers pour une interrogation et un élagage des données efficaces
-
Mettre en oeuvre la couche de diffusion
- Fournir des données dans un schéma relationnel en étoile
- Fournir des données dans des fichiers Parquet
- Maintenir les métadonnées
- Mettre en oeuvre une hiérarchie dimensionnelle
-
Ingérer et transformer des données
- Transformer les données à l'aide d'Apache Spark
- Transformer les données à l'aide de Transact-SQL
- Transformer les données à l'aide de Data Factory
- Transformer les données à l'aide des pipelines Azure Synapse
- Transformer les données à l'aide de Scala
- Transformer les données à l'aide de Stream Analytics
- Nettoyer les données
- Données fractionnées
- Déchiqueter JSON
- Encoder et décoder les données
- Configurer la gestion des erreurs pour la transformation
- Normaliser et dénormaliser les valeurs
- Effectuer une analyse exploratoire des données
-
Concevoir et développer une solution de traitement par lots
- Développer des solutions de traitement par lots en utilisant Data Factory, Data Lake, Spark, Azure Pipelines Synapse, PolyBase et Azure Databricks
- Créer des pipelines de données
- Concevoir et mettre en oeuvre des charges de données incrémentielles
- Concevoir et développer des dimensions qui changent lentement
- Gérer les exigences de sécurité et de conformité
- Mettre à l'échelle les ressources
- Configurer la taille du lot
- Concevoir et créer des tests pour les pipelines de données
- Intégrer les notebooks Jupyter / IPython dans un pipeline de données
- Gérer les données en double, manquantes ou arrivées tardivement
- Régresser à un état antérieur
- Concevoir et configurer la gestion des exceptions
- Configurer la rétention des lots
- Concevoir une solution de traitement par lots
- Déboguer les tâches Spark à l'aide de l'interface utilisateur Spark
-
Gérer les lots et les pipelines
- Déclencher des lots
- Gérer des lots en échecs
- Valider des lots
- Gérer des pipelines de données dans Data Factory
- Planifier des pipelines de données avec Data Factory
- Mettre en place la gestion des sources
-
Concevoir et développer une solution de traitement de flux
- Développer une solution de traitement de flux en utilisant Stream Analytics, Azure Databricks et Azure Event Hubs Traiter les données à l'aide du streaming structuré Spark
- Surveiller les performances et les régressions fonctionnelles
- Concevoir et créer des agrégats fenêtrés
- Gérer la dérive de schéma
- Traiter les données de séries chronologiques
- Processus à travers les partitions
- Traiter dans une partition
- Configurer les points de contrôle / le filigrane pendant le traitement
- Mettre à l'échelle les ressources
- Concevoir et créer des tests pour les pipelines de données
- Optimiser les pipelines à des fins analytiques ou transactionnelles
- Gérer les interruptions
- Concevoir et configurer la gestion des exceptions
- Relire les données de flux archivées
- Concevoir une solution de traitement de flux
-
Concevoir la politique de sécurité des données
- Concevoir le cryptage pour les données au repos et en transit
- Concevoir une stratégie d'audit des données et concevoir une stratégie de masquage des données
- Concevoir une politique de conservation et de confidentialité des données
- Créer une purger des données en fonction des besoins de l'entreprise
- Concevoir le contrôle d'accès basé sur les rôles Azure (Azure RBAC) et la liste de contrôle d'accès de type POSIX (ACL) pour Data Lake Storage Gen2
- Conception de la sécurité au niveau des lignes et des colonnes
-
Mettre en oeuvre la sécurité des données
- Masquer, crypter des données.
- Implémenter des terminaux sécurisé et la sécurité au niveau des lignes et des colonnes
- Implémenter Azure RBAC et des ACL de type POSIX pour Data Lake Storake Gen2
- Mettre en oeuvre une politique de conservation et d’audit des données
- Gérer les identités, clé et secrets sur différentes plates-formes de données
- Charger un DataFrame avec des informations sensibles et gérer les informations sensibles
- Ecrire des données chiffrées dans des tables ou fichiers Parquet
-
Surveiller le stockage et le traitement des données
- Implémenter la journalisation utilisée par Azure Monitor
- Configurer les services de surveillance et mesurer les performances du mouvement des données
- Surveiller et mettre à jour les statistiques sur les données d'un système
- Surveiller les performances du pipeline de données et du cluster
- Mesurer les performances des requêtes
- Comprendre les options de journalisation personnalisées et planifier et surveiller les tests de pipeline
- Interpréter les métriques et les journaux Azure Monitor
-
Optimiser et dépanner le stockage et le traitement des données
- Réécrire les fonctions définies par l'utilisateur (UDF)
- Gérer le biais dans les données et le déversement de données
- Régler les partitions de manière aléatoire et les requêtes à l'aide d'indexeurs et du cache
- Trouver la lecture aléatoire dans un pipeline
- Optimiser la gestion des ressources
- Optimiser les pipelines à des fins analytiques ou transactionnelles et pour les charges de travail descriptives par rapport aux charges de travail analytiques
- Dépanner un travail ou une exécution ayant échoué
Monitoring of implementation and evaluation of results
- Feuilles de présence.
- Questions orales ou écrites (QCM).
- Mises en situation.
- Formulaires d'évaluation de la formation.
- Certificat de réalisation de l’action de formation.
Technical and educational resources
- Accueil des apprenants dans une salle dédiée à la formation.
- Documents supports de formation projetés.
- Exposés théoriques
- Etude de cas concrets
- Quiz en salle
- Mise à disposition en ligne de documents supports à la suite de la formation.
Certification procedures
Certification details
- Cette formation ouvre la porte à la certification Microsoft « DP-203 – Data Engineering on Microsoft Azure ».
Reception capacity
Between 3 and 10 learners