Training centre logo

Découvrez notre catalogue de formations

Training representation : Microsoft - DP 203: Data Engineering on Microsoft Azure

Microsoft - DP 203: Data Engineering on Microsoft Azure

Distance learning
Duration: 28 hours (4 days)
Duration:28 hours (4 days)
This training is free.
Sign-up
Duration:28 hours (4 days)
This training is free.
Sign-up
Duration:28 hours (4 days)
This training is free.
Sign-up

Need to adapt this training to your needs?

Do not hesitate to contact us for a customised quote!

Training created on 8/4/22.

Programme version: 1

Training programme

Les ingénieurs de données de Azure intègrent, transforment et consolident les données provenant de divers systèmes de données structurées et non structurées dans des structures qui conviennent à l'élaboration de solutions analytiques. Cette formation vous aidera pour y parvenir en adoptant les meilleurs pratiques.

Objectives of the training

  • Concevoir une structure de stockage de données
  • Concevoir une stratégie de partition
  • Concevoir et mettre en oeuvre des couches de service
  • Mettre en oeuvre des structures de stockage de données physique et de données logique
  • Intégrer et transformer des données
  • Concevoir et développer des solutions de traitement par lot et par flux
  • Gérer les lots et les pipelines
  • Concevoir la politique de sécurité des données
  • Mettre en oeuvre la sécurité des données
  • Surveiller le stockage et le traitement des données
  • Optimiser et dépanner le stockage et le traitement des données

Profile of beneficiaries

For whom
  • Data Engineers, Data Scientists
Requirements
  • Les candidats doivent avoir une expertise en matière d’intégration, de transformation et doivent savoir consolider divers systèmes de données structurés et non structurés dans un outils adapté à la création de solutions d’analyses. Il faut également une bonne connaissance des langages tels que SQL, Python ou Scala et comprendre l’architecture des données
  • Les candidats doivent avoir suivi la formation AZ-900 Azure Fundamentals et DP-900 Data Fundamentals ou avoir un niveau d’expérience équivalent.

Training content

  • Concevoir une structure de stockage de données
    • Concevoir une solution Azure Data Lake
    • Recommander des types de fichiers pour le stockage
    • Recommander des types de fichiers pour les requêtes analytiques
    • Conception pour une interrogation efficace et pour l'élagage des données
    • Concevoir une structure de dossiers qui représente les niveaux de transformation des données
    • Concevoir une stratégie de distribution concevoir une solution d'archivage de données
  • Concevoir une stratégie de partition
    • Concevoir une stratégie de partition pour les fichiers
    • Concevoir une stratégie de partition pour les charges de travail analytiques
    • Concevoir une stratégie de partition pour l ’efficacité
    • Concevoir une stratégie de partition pour Azure Synapse Analytics
    • Identifier quand le partitionnement est nécessaire dans Azure Data Lake Storage Gen2
  • Concevoir la couche de service
    • Concevoir des schémas en étoile
    • Concevoir des dimensions qui changent lentement
    • Concevoir une hiérarchie dimensionnelle
    • Concevoir une solution pour les données temporelles
    • Conception pour chargement incrémentiel
    • Concevoir des magasins analytiques
    • Concevoir des métastores dans Azure Synapse Analytics et Azure Databricks
  • Mettre en oeuvre des structures de stockage de données physiques
    • Mettre en oeuvre la compression
    • Implémenter le partitionnement et le sharding
    • Implémenter différentes géométries de table avec les pools Azure Synapse Analytics
    • Mettre en oeuvre la redondance des données
    • Mettre en oeuvre des distributions
    • Mettre en oeuvre l’archivage des données
  • Mettre en oeuvre des structures de données logiques
    • Construire une solution de données temporelles
    • Construire une dimension qui change lentement
    • Construire une structure de dossiers logique
    • Créer des tables externes
    • Implémenter des structures de fichiers et de dossiers pour une interrogation et un élagage des données efficaces
  • Mettre en oeuvre la couche de diffusion
    • Fournir des données dans un schéma relationnel en étoile
    • Fournir des données dans des fichiers Parquet
    • Maintenir les métadonnées
    • Mettre en oeuvre une hiérarchie dimensionnelle
  • Ingérer et transformer des données
    • Transformer les données à l'aide d'Apache Spark
    • Transformer les données à l'aide de Transact-SQL
    • Transformer les données à l'aide de Data Factory
    • Transformer les données à l'aide des pipelines Azure Synapse
    • Transformer les données à l'aide de Scala
    • Transformer les données à l'aide de Stream Analytics
    • Nettoyer les données
    • Données fractionnées
    • Déchiqueter JSON
    • Encoder et décoder les données
    • Configurer la gestion des erreurs pour la transformation
    • Normaliser et dénormaliser les valeurs
    • Effectuer une analyse exploratoire des données
  • Concevoir et développer une solution de traitement par lots
    • Développer des solutions de traitement par lots en utilisant Data Factory, Data Lake, Spark, Azure Pipelines Synapse, PolyBase et Azure Databricks
    • Créer des pipelines de données
    • Concevoir et mettre en oeuvre des charges de données incrémentielles
    • Concevoir et développer des dimensions qui changent lentement
    • Gérer les exigences de sécurité et de conformité
    • Mettre à l'échelle les ressources
    • Configurer la taille du lot
    • Concevoir et créer des tests pour les pipelines de données
    • Intégrer les notebooks Jupyter / IPython dans un pipeline de données
    • Gérer les données en double, manquantes ou arrivées tardivement
    • Régresser à un état antérieur
    • Concevoir et configurer la gestion des exceptions
    • Configurer la rétention des lots
    • Concevoir une solution de traitement par lots
    • Déboguer les tâches Spark à l'aide de l'interface utilisateur Spark
  • Gérer les lots et les pipelines
    • Déclencher des lots
    • Gérer des lots en échecs
    • Valider des lots
    • Gérer des pipelines de données dans Data Factory
    • Planifier des pipelines de données avec Data Factory
    • Mettre en place la gestion des sources
  • Concevoir et développer une solution de traitement de flux
    • Développer une solution de traitement de flux en utilisant Stream Analytics, Azure Databricks et Azure Event Hubs Traiter les données à l'aide du streaming structuré Spark
    • Surveiller les performances et les régressions fonctionnelles
    • Concevoir et créer des agrégats fenêtrés
    • Gérer la dérive de schéma
    • Traiter les données de séries chronologiques
    • Processus à travers les partitions
    • Traiter dans une partition
    • Configurer les points de contrôle / le filigrane pendant le traitement
    • Mettre à l'échelle les ressources
    • Concevoir et créer des tests pour les pipelines de données
    • Optimiser les pipelines à des fins analytiques ou transactionnelles
    • Gérer les interruptions
    • Concevoir et configurer la gestion des exceptions
    • Relire les données de flux archivées
    • Concevoir une solution de traitement de flux
  • Concevoir la politique de sécurité des données
    • Concevoir le cryptage pour les données au repos et en transit
    • Concevoir une stratégie d'audit des données et concevoir une stratégie de masquage des données
    • Concevoir une politique de conservation et de confidentialité des données
    • Créer une purger des données en fonction des besoins de l'entreprise
    • Concevoir le contrôle d'accès basé sur les rôles Azure (Azure RBAC) et la liste de contrôle d'accès de type POSIX (ACL) pour Data Lake Storage Gen2
    • Conception de la sécurité au niveau des lignes et des colonnes
  • Mettre en oeuvre la sécurité des données
    • Masquer, crypter des données.
    • Implémenter des terminaux sécurisé et la sécurité au niveau des lignes et des colonnes
    • Implémenter Azure RBAC et des ACL de type POSIX pour Data Lake Storake Gen2
    • Mettre en oeuvre une politique de conservation et d’audit des données
    • Gérer les identités, clé et secrets sur différentes plates-formes de données
    • Charger un DataFrame avec des informations sensibles et gérer les informations sensibles
    • Ecrire des données chiffrées dans des tables ou fichiers Parquet
  • Surveiller le stockage et le traitement des données
    • Implémenter la journalisation utilisée par Azure Monitor
    • Configurer les services de surveillance et mesurer les performances du mouvement des données
    • Surveiller et mettre à jour les statistiques sur les données d'un système
    • Surveiller les performances du pipeline de données et du cluster
    • Mesurer les performances des requêtes
    • Comprendre les options de journalisation personnalisées et planifier et surveiller les tests de pipeline
    • Interpréter les métriques et les journaux Azure Monitor
  • Optimiser et dépanner le stockage et le traitement des données
    • Réécrire les fonctions définies par l'utilisateur (UDF)
    • Gérer le biais dans les données et le déversement de données
    • Régler les partitions de manière aléatoire et les requêtes à l'aide d'indexeurs et du cache
    • Trouver la lecture aléatoire dans un pipeline
    • Optimiser la gestion des ressources
    • Optimiser les pipelines à des fins analytiques ou transactionnelles et pour les charges de travail descriptives par rapport aux charges de travail analytiques
    • Dépanner un travail ou une exécution ayant échoué
Monitoring of implementation and evaluation of results
  • Feuilles de présence.
  • Questions orales ou écrites (QCM).
  • Mises en situation.
  • Formulaires d'évaluation de la formation.
  • Certificat de réalisation de l’action de formation.
Technical and educational resources
  • Accueil des apprenants dans une salle dédiée à la formation.
  • Documents supports de formation projetés.
  • Exposés théoriques
  • Etude de cas concrets
  • Quiz en salle
  • Mise à disposition en ligne de documents supports à la suite de la formation.

Certification procedures

Certification details
  • Cette formation ouvre la porte à la certification Microsoft « DP-203 – Data Engineering on Microsoft Azure ».

Reception capacity

Between 3 and 10 learners