Data Engineer
La formation d’ingénieur en données est conçu comme un cours orienté vers l’emploi pour les rôles d’ingénieur en données. L’ingénierie des données est la base du flux de travail de la science des données, couvrant la collecte, la manipulation, le traitement et la transformation des données pour les préparer à d’autres processus de science des données. La formation d’ingénieur en données couvre non seulement les concepts clés de l’ingénierie des données, mais aussi le langage Python, les statistiques et les cadres populaires du Big Data.
Le cours d’ingénieur de données est assorti d’un mentorat de projet et d’un stage.
Qu'est-ce que l'ingénierie des données ?
L’ingénierie des données est le processus de développement et de construction de systèmes de collecte, de stockage et d’analyse de données à grande échelle. Il s’agit d’un domaine très vaste qui trouve des applications dans presque tous les secteurs d’activité.
Comment devenir ingénieur en données ?
Pour devenir ingénieur des données, la première étape, et la plus importante, consiste à suivre une formation appropriée dans ce domaine. Obtenir une compréhension approfondie du domaine de la science des données et de l’ingénierie des données par le biais d’un cours de certification et ainsi renforcer les talents est indispensable pour décrocher un emploi dans ce domaine.

Pourquoi devrais-je suivre une formation d'ingénieur en données ?
Le cours d’ingénieur en données est celui qu’il vous faut suivre si vous voulez travailler dans le secteur, car il vous certifie en tant qu’expert dans le domaine de la science des données. Après avoir terminé notre programme complet, vous aurez les compétences nécessaires pour réussir en tant qu’ingénieur de données, ainsi qu’un portefeuille prêt à l’emploi à présenter lors du processus d’entretien.
Combien de temps faut-il pour devenir ingénieur en données ?
Suivre des cours d’ingénieur en données, qui peuvent durer de trois à douze mois, peut vous aider à devenir ingénieur en données. Le programme des cours, quant à lui, varie en fonction du diplôme ou de la certification souhaitée. Les cours de trois mois peuvent vous permettre d’acquérir une expérience importante en tant qu’ingénieur des données et d’effectuer des stages, ce qui vous permettra d’accéder à des postes de débutant dans des entreprises de premier plan.
Quels sont les prérequis pour un cours d'ingénieur en données ?
Une licence en informatique, en génie logiciel ou informatique, en mathématiques appliquées, en physique, en statistiques ou dans une discipline connexe est nécessaire pour entrer dans ce domaine. Pour prétendre à la plupart des postes de débutant, vous devrez acquérir une expérience du monde réel, par exemple en effectuant des stages.


Quels sont les rôles professionnels après avoir suivi la formation d'ingénieur en données ?
L’ingénierie des données n’est pas toujours un poste de débutant. De nombreux ingénieurs en données débutent en tant qu’ingénieurs en logiciel ou analystes en informatique décisionnelle. Au fur et à mesure que vous progressez dans votre carrière, vous pouvez accéder à des postes de direction ou devenir architecte de données, architecte de solutions ou ingénieur en apprentissage automatique.
Quelles sont les compétences d'un ingénieur en données ?
Parmi les compétences essentielles d’un ingénieur en données figurent le codage, l’entreposage de données, le système de base de données, l’analyse de données, la pensée critique, la compréhension de l’apprentissage automatique, etc.
La science des données et l'ingénierie des données sont-elles identiques ?
Les ingénieurs des données conçoivent et gèrent les systèmes et les structures qui stockent, récupèrent et organisent les données, tandis que les scientifiques des données analysent ces données pour prédire des modèles, obtenir des informations commerciales et répondre à des questions pertinentes pour l’organisation.
Quel est le rôle de Python dans l'ingénierie des données ?
Le traitement des données, comme le remodelage, l’agrégation et la connexion de sources disparates, l’ETL à petite échelle, l’interaction avec l’API et l’automatisation, font tous partie de Python pour l’ingénierie des données. Python est populaire pour de nombreuses raisons. L’un des avantages les plus significatifs est son accessibilité.


L'ingénierie des données est-elle un bon choix de carrière ?
Dans l’ensemble, le métier d’ingénieur en données est un excellent choix de carrière pour les personnes qui aiment prêter attention aux détails, respecter les exigences techniques et créer des pipelines qui transforment les données brutes en informations utiles. Une profession dans le domaine de l’ingénierie des données offre un bon potentiel de rémunération et la sécurité de l’emploi.
Les ingénieurs en données ont-ils un bel avenir devant eux ?
Une carrière d’ingénieur en données est financièrement gratifiante, stable et physiquement difficile. Le rôle d’un ingénieur des données est crucial pour réaliser le plein potentiel des données dans chaque organisation. Selon un sondage, il s’agit de l’une des professions à la croissance la plus rapide au monde, avec plus de 88,3 % de croissance des offres d’emploi en 2019 et plus de 50 % de croissance d’une année sur l’autre pour de nombreux postes ouverts.
Puis-je obtenir un poste d'ingénieur en données en tant que jeune diplômé ?
Il est conseillé de commencer par un stage avant de postuler à un emploi à temps plein dans le domaine de la science des données. L’ingénierie des données nécessite de la pratique, c’est pourquoi les stages sont indispensables pour acquérir de l’expérience et élargir ses connaissances pratiques avant un emploi à temps plein. Les entreprises sont plus enclines à proposer des stages à des personnes qui n’ont jamais travaillé auparavant. Il vous sera beaucoup plus facile d’obtenir un poste de débutant dans l’organisation après avoir terminé un stage.
Pourquoi la formation d'ingénieur en données est-elle importante ?
Il s’agit également d’une étape importante dans la hiérarchie des exigences de la science des données : sans l’architecture des ingénieurs de données, les analystes et les scientifiques ne seront pas en mesure d’accéder aux données ou de travailler avec elles. En conséquence, les entreprises risquent de perdre l’accès à l’un de leurs actifs les plus précieux. L’ingénierie des données est le poste qui connaîtra la plus forte croissance dans le secteur des technologies en 2019, selon le rapport Dice 2020 Tech Career Report, avec une augmentation de 50 % des emplois accessibles d’une année sur l’autre.

Description
La formation d’ingénieur en données est conçu comme un cours orienté vers l’emploi pour les rôles d’ingénieur en données. L’ingénierie des données est la base du flux de travail de la science des données, couvrant la collecte, la manipulation, le traitement et la transformation des données pour les préparer à d’autres processus de science des données. La formation d’ingénieur en données couvre non seulement les concepts clés de l’ingénierie des données, mais aussi le langage Python, les statistiques et les cadres populaires du Big Data.
Le cours d’ingénieur de données est assorti d’un mentorat de projet et d’un stage.
L’ingénierie des données est le processus de développement et de construction de systèmes de collecte, de stockage et d’analyse de données à grande échelle. Il s’agit d’un domaine très vaste qui trouve des applications dans presque tous les secteurs d’activité.
Pour devenir ingénieur des données, la première étape, et la plus importante, consiste à suivre une formation appropriée dans ce domaine. Obtenir une compréhension approfondie du domaine de la science des données et de l’ingénierie des données par le biais d’un cours de certification et ainsi renforcer les talents est indispensable pour décrocher un emploi dans ce domaine.
Suivre des cours d’ingénieur en données, qui peuvent durer de trois à douze mois, peut vous aider à devenir ingénieur en données. Le programme des cours, quant à lui, varie en fonction du diplôme ou de la certification souhaitée. Les cours de trois mois peuvent vous permettre d’acquérir une expérience importante en tant qu’ingénieur des données et d’effectuer des stages, ce qui vous permettra d’accéder à des postes de débutant dans des entreprises de premier plan.
Le cours d’ingénieur en données est celui qu’il vous faut suivre si vous voulez travailler dans le secteur, car il vous certifie en tant qu’expert dans le domaine de la science des données. Après avoir terminé notre programme complet, vous aurez les compétences nécessaires pour réussir en tant qu’ingénieur de données, ainsi qu’un portefeuille prêt à l’emploi à présenter lors du processus d’entretien.
Une licence en informatique, en génie logiciel ou informatique, en mathématiques appliquées, en physique, en statistiques ou dans une discipline connexe est nécessaire pour entrer dans ce domaine. Pour prétendre à la plupart des postes de débutant, vous devrez acquérir une expérience du monde réel, par exemple en effectuant des stages.
L’ingénierie des données n’est pas toujours un poste de débutant. De nombreux ingénieurs en données débutent en tant qu’ingénieurs en logiciel ou analystes en informatique décisionnelle. Au fur et à mesure que vous progressez dans votre carrière, vous pouvez accéder à des postes de direction ou devenir architecte de données, architecte de solutions ou ingénieur en apprentissage automatique.
Parmi les compétences essentielles d’un ingénieur en données figurent le codage, l’entreposage de données, le système de base de données, l’analyse de données, la pensée critique, la compréhension de l’apprentissage automatique, etc.
Les ingénieurs des données conçoivent et gèrent les systèmes et les structures qui stockent, récupèrent et organisent les données, tandis que les scientifiques des données analysent ces données pour prédire des modèles, obtenir des informations commerciales et répondre à des questions pertinentes pour l’organisation.
Le traitement des données, comme le remodelage, l’agrégation et la connexion de sources disparates, l’ETL à petite échelle, l’interaction avec l’API et l’automatisation, font tous partie de Python pour l’ingénierie des données. Python est populaire pour de nombreuses raisons. L’un des avantages les plus significatifs est son accessibilité.
Dans l’ensemble, le métier d’ingénieur en données est un excellent choix de carrière pour les personnes qui aiment prêter attention aux détails, respecter les exigences techniques et créer des pipelines qui transforment les données brutes en informations utiles. Une profession dans le domaine de l’ingénierie des données offre un bon potentiel de rémunération et la sécurité de l’emploi.
Une carrière d’ingénieur en données est financièrement gratifiante, stable et physiquement difficile. Le rôle d’un ingénieur des données est crucial pour réaliser le plein potentiel des données dans chaque organisation. Selon un sondage, il s’agit de l’une des professions à la croissance la plus rapide au monde, avec plus de 88,3 % de croissance des offres d’emploi en 2019 et plus de 50 % de croissance d’une année sur l’autre pour de nombreux postes ouverts.
Il est conseillé de commencer par un stage avant de postuler à un emploi à temps plein dans le domaine de la science des données. L’ingénierie des données nécessite de la pratique, c’est pourquoi les stages sont indispensables pour acquérir de l’expérience et élargir ses connaissances pratiques avant un emploi à temps plein. Les entreprises sont plus enclines à proposer des stages à des personnes qui n’ont jamais travaillé auparavant. Il vous sera beaucoup plus facile d’obtenir un poste de débutant dans l’organisation après avoir terminé un stage.
Il s’agit également d’une étape importante dans la hiérarchie des exigences de la science des données : sans l’architecture des ingénieurs de données, les analystes et les scientifiques ne seront pas en mesure d’accéder aux données ou de travailler avec elles. En conséquence, les entreprises risquent de perdre l’accès à l’un de leurs actifs les plus précieux. L’ingénierie des données est le poste qui connaîtra la plus forte croissance dans le secteur des technologies en 2019, selon le rapport Dice 2020 Tech Career Report, avec une augmentation de 50 % des emplois accessibles d’une année sur l’autre.
Programme d'études
MODULE 1 : INTRODUCTION À L’INGÉNIERIE DES DONNÉES
- Qu’est-ce que l’ingénierie des données ?
- Champ d’application de l’ingénierie des données
- Ecosystème de données, outils et plateformes
- Concepts fondamentaux de l’ingénierie des données
MODULE 2 : SOURCES DE DONNÉES ET IMPORTATION DE DONNÉES
- Types de sources de données
- Bases de données : Bases de données SQL et documentaires
- Connexion à diverses sources de données
- Importer des données avec SQL
- Gestion du Big Data
MODULE 3 : TRAITEMENT DES DONNÉES
- Introduction du package NumPy de Python
- Structure de données des tableaux, opérations
- Introduction au package Python Pandas
- Traitement des données avec Pandas
- Gestion de grands ensembles de données avec Pandas
- Structures de données : Séries et DataFrame
- Importer des données dans Pandas DataFrame
- Traitement des données avec Pandas
MODULE 4 : PROJET D’INGÉNIERIE DES DONNÉES
- Définition de l’environnement du projet
- Ingestion de données par les méthodes Pandas
- Travaux pratiques : Ingestion, transformation des données et chargement des données
MODULE 1 : PRINCIPES DE BASE DE PYTHON
- Introduction à Python
- Installation de Python et de l’IDE
- Objets Python
- Types de données de base de Python
- Nombre et booléens, chaînes de caractères
- Opérateurs arithmétiques
- Opérateurs de comparaison
- Opérateurs d’affectation
- Précédence et associativité des opérateurs
MODULE 2 : INSTRUCTIONS DE CONTRÔLE PYTHON
- Instruction conditionnelle IF
- IF-ELSE
- IF NESTÉ
- Les bases des boucles Python
- Déclaration WHILE
- Instructions FOR
- Les instructions BREAK et CONTINUE
MODULE 3 : STRUCTURES DE DONNÉES EN PYTHON
- Structure de données de base en Python
- Les bases de l’objet String et les méthodes intégrées
- Liste : Objet, méthodes, compréhensions
- Tuple : Objet, méthodes, compréhensions
- Ensembles : Objet, méthodes, compréhensions
- Dictionnaire : Objet, méthodes, compréhensions
MODULE 4 : FONCTIONS PYTHON
- Notions de base sur les fonctions
- Passage des paramètres d’une fonction
- Itérateurs
- Fonctions génératrices
- Fonctions lambda
- Fonctions de mappage, de réduction et de filtrage
MODULE 5 : PAQUETAGE PYTHON NUMPY
- Introduction à NumPy
- Tableau – Structure de données
- Fonctions principales de Numpy
- Opérations matricielles
MODULE 6 : PAQUET PYTHON PANDAS
- Fonctions Pandas
- Cadre de données et séries – Structure de données
- Traitement des données avec Pandas
- Imputation et analyse des valeurs aberrantes
MODULE 1 : L’ESSENTIEL DE LA SCIENCE DES DONNÉES
- Introduction à la science des données
- Terminologie de la science des données
- Classifications des analyses
- Déroulement d’un projet de science des données
MODULE 2 : BASES DE L’INGÉNIERIE DES DONNÉES
- Introduction à l’ingénierie des données
- Importance de l’ingénierie des données
- Ecosystèmes d’outils d’ingénierie des données
- Concepts fondamentaux de l’ingénierie des données
MODULE 3 : PYTHON POUR LA SCIENCE DES DONNÉES
- Introduction à Python
- Types de données Python, opérateurs
- Déclarations de contrôle de flux, fonctions
- Données structurées et non structurées
- Introduction du paquetage Python Numpy
- Structures de données en tableau dans Numpy
- Opérations et méthodes sur les tableaux
- Introduction au paquet Python Pandas
- Structures de données : Séries et DataFrame
- Méthodes clés de Pandas DataFrame
MODULE 4 : VISUALISATION AVEC PYTHON
- Paquets de visualisation (Matplotlib)
- Composantes d’un graphe, sous-graphes
- Graphiques de base : Ligne, barre, graphique, nuage de points
- Visualisations de données avancées en Python
MODULE 5 : L’ESSENTIEL DU LANGAGE R
- Installation et configuration de R
- R STUDIO – Env de développement R
- Bases du langage R et structures de données
- Structures de données R, instructions de contrôle
MODULE 6 : STATISTIQUES
- Statistiques descriptives et inférentielles
- Types de données, types d’échantillonnage
- Mesures des tendances centrales
- Variabilité des données : Écart-type
- Z-Score, valeurs aberrantes, distribution normale
- Théorème de la limite centrale
- Histogramme, tests de normalité
- Skewness et Kurtosis
- Comprendre les tests d’hypothèse
- Méthode de la valeur P, types d’erreurs
- Distribution T, test T à un échantillon
- Tests T indépendants et relationnels
- Corrélation directe et indirecte
- Théorie de la régression
MODULE 7 : INTRODUCTION À L’APPRENTISSAGE AUTOMATIQUE
- Introduction à l’apprentissage automatique
- Concepts fondamentaux de l’apprentissage automatique
- Apprentissage non supervisé et supervisé
- Clustering avec K-Means
- Modèles de régression et de classification.
- Algorithme de régression : Régression linéaire
- Évaluation des modèles ML
- Algorithme de classification : Régression logistique
MODULE 1 : INTRODUCTION À L’INGÉNIERIE DES DONNÉES
- Qu’est-ce que l’ingénierie des données ?
- Champ d’application de l’ingénierie des données
- Ecosystème de données, outils et plateformes
- Concepts fondamentaux de l’ingénierie des données
MODULE 2 : BASES DE L’ENTREPÔT DE DONNÉES
- Introduction à l’entrepôt de données
- Base de données vs entrepôt de données
- Architecture de l’entrepôt de données
- ETL (extraction, transformation et chargement)
- ETL vs ELT
- Schéma en étoile et schéma en flocon
- Concepts du Data Mart
- Entrepôt de données vs Data Mart – Connaître la différence
- Introduction au lac de données
- Architecture du lac de données
- Entrepôt de données et lac de données
MODULE 3 : SOURCES DE DONNÉES ET IMPORTATION DE DONNÉES
- Types de sources de données
- Bases de données : Bases de données SQL et documentaires
- Se connecter à différentes sources de données
- Importer des données avec SQL
- Gestion du Big Data
MODULE 4 : TRAITEMENT DES DONNÉES
- Introduction du package NumPy de Python
- Structure de données des tableaux, opérations
- Introduction du package Python Pandas
- Structures de données : Séries et DataFrame
- Importation de données dans Pandas DataFrame
- Traitement des données avec Pandas
MODULE 5 : FONDATION DE DOCKER ET KUBERNETES
- Introduction à Docker
- Docker Vs. VM ordinaire
- Travaux pratiques : Exécution de notre premier conteneur
- Commandes courantes (exécuter, éditer, arrêter et gérer les images)
- Publication de conteneurs sur DockerHub
- Orchestration de conteneurs par Kubernetes
- Construire Docker sur un cluster Kubernetes
MODULE 6 : ORCHESTRATION DES DONNÉES AVEC APACHE AIRFLOW
- Vue d’ensemble de l’orchestration de données
- Introduction à Apache Airflow
- Architecture d’Airflow
- Configuration d’Airflow
- TAG et DAG
- Création d’un workflow Airflow
- Structure modulaire d’Airflow
- Exécution du flux d’air
MODULE 7 : PROJET D’INGENIERIE DES DONNEES
- Définition de l’environnement du projet
- Configuration du pipeline de données
- Travaux pratiques : construire des pipelines de données évolutifs
MODULE 1 : INTRODUCTION À LA BASE DE DONNÉES
- Vue d’ensemble de la base de données
- Concepts clés de la gestion des bases de données
- Opérations CRUD
- Système de gestion de bases de données relationnelles
- RDBMS vs No-SQL (Document DB)
MODULE 2 : BASES SQL
- Introduction aux bases de données
- Introduction à SQL
- Commandes SQL
- Installation de MY SQL workbench
- Commentaires
- importer et exporter des données
MODULE 3 : TYPES DE DONNÉES ET CONTRAINTES
- Type de données numériques, caractères, date et heure
- Clé primaire, Clé étrangère, Non nul
- Unique, Check, default, Auto increment
MODULE 4 : Bases de données et tables (MySQL)
- Créer une base de données
- Supprimer une base de données
- Afficher et utiliser les bases de données
- Créer une table, Renommer une table
- Supprimer une table, Supprimer les enregistrements d’une table
- Créer une nouvelle table à partir de types de données existants
- Insérer dans, Mettre à jour les enregistrements
- Modifier un tableau
MODULE 5 : JOINTS SQL
- Jointure interne
- Jointure externe
- Jointure gauche
- Jointure droite
- Jointure croisée
- Jointure entre soi
MODULE 6 : COMMANDES ET CLAUSES SQL
- Sélection, Sélection distincte
- Alias, clause Where
- Opérateurs relationnels, logiques
- Entre, Ordre par, Dans
- Like, Limit, null/not null, group by
- Avoir, Sous-requêtes
MODULE 7 : BASE DE DONNÉES DE DOCUMENTS/BASE DE DONNÉES NON SQL
- Introduction de Document DB
- Document DB vs SQL DB
- Bases de données documentaires populaires
- Les bases de MongoDB
- Format des données et méthodes clés
- Gestion des données MongoDB
MODULE 1 : FONDEMENTS DE L’ENTREPÔT DE DONNÉES
- Introduction à l’entrepôt de données
- Base de données vs entrepôt de données
- Architecture de l’entrepôt de données
- ETL (Extraction, transformation et chargement)
- ETL vs ELT
- Schéma en étoile et schéma en flocon
- Concepts du Data Mart
- Entrepôt de données vs Data Mart – Connaître la différence
- Introduction au lac de données
- Architecture du lac de données
- Entrepôt de données vs lac de données
MODULE 2 : FONDATION DOCKER
- Introduction à Docker
- Docker vs. VM classique
- Travaux pratiques : Exécution de notre premier conteneur
- Commandes courantes (exécuter, éditer, arrêter et gérer les images)
- Publication de conteneurs sur Docker Hub
- Orchestration de conteneurs par Kubernetes
- Construire Docker sur un cluster Kubernetes
MODULE 3 : ORCHESTRATION DE CONTENEURS KUBERNETES
- Introduction à Kubernetes
- Mise en place de clusters Kubernetes
- Orchestration de conteneurs par Kubernetes
- Construire Docker sur un cluster Kubernetes
MODULE 4 : ORCHESTRATION DES DONNÉES AVEC APACHE AIRFLOW
- Aperçu de l’orchestration de données
- Introduction à Apache Airflow
- Architecture d’Airflow
- Configuration d’Airflow
- TAG et DAG
- Création d’un workflow Airflow
- Structure modulaire d’Airflow
- Exécution du flux d’air
MODULE 5 : PROJET D’INGENIERIE DES DONNEES
- Définition de l’environnement du projet
- Configuration du pipeline de données
- Travaux pratiques : construire des pipelines de données évolutifs
MODULE 1 : INTRODUCTION À GIT
- Objectif du contrôle de version
- Outils populaires de contrôle de version
- Distribution de Git Contrôle de version
- Terminologie
- Flux de travail Git
- Architecture Git
MODULE 2 : REPOSITORY GIT et GitHub
- Introduction à Git Repo
- Créer un nouveau repo avec la commande Init
- Copier un repo existant
- Utilisateur Git et nœud distant
- Statut Git et rebase
- Revue de l’historique du repo
- GitHub Cloud Remote Repo
MODULE 3 : COMMITS, PULL, FETCH ET PUSH
- Commits de code
- Pull, Fetch et résolution de conflits
- Pousser vers Remote Repo
MODULE 4 : BALISAGE, BRANCHEMENT ET FUSION
- Organiser le code avec des branches
- Vérifier la branche
- Fusionner les branches
MODULE 5 : ANNULER LES MODIFICATIONS
- Édition des modifications (Commits)
- Commande Commit Indicateur de modification
- Git reset et revert
MODULE 6 : GIT AVEC GITHUB ET BITBUCKET
- Création d’un compte GitHub
- Repo local et distant
- Collaborer avec d’autres développeurs
- Compte Git Bitbucket
MODULE 1: BIG DATA INTRODUCTION
- Aperçu du Big Data
- Les cinq aspects du Big Data
- Qu’est-ce que le Big Data et Hadoop ?
- Introduction à Hadoop
- Composants de l’écosystème Hadoop
- Introduction à l’analyse des Big Data
MODULE 2 : HDFS ET MAP REDUCE
- HDFS – Stockage des Big Data
- Traitement distribué avec Map Reduce
- Concepts des étapes de mappage et de réduction
- Termes clés : Format de sortie, partitionneurs, combinateurs, mélange et tri
- Travaux pratiques sur Map Reduce
MODULE 3 : FONDATION DE PYSPARK
- Introduction à PySpark
- Configuration de Spark
- Ensembles de données distribués résilients (RDD)
- Travailler avec des RDD dans PySpark
- Agréger des données avec des RDDs en paire
MODULE 4 : SPARK SQL et HADOOP HIVE
- Présentation de Spark SQL
- Spark SQL vs Hadoop Hive
- Travailler avec le langage de requête Spark SQL
MODULE 5 : APPRENTISSAGE AUTOMATIQUE AVEC SPARK ML
- Introduction à MLlib Différents algorithmes ML supportés par Mlib
- Modèle ML avec Spark ML.
- Régression linéaire
- Régression logistique
- Forêt aléatoire
MODULE 6 : KAFKA et Spark
- Architecture de Kafka
- Flux de travail Kafka
- Configuration du cluster Kafka
- Opérations
MODULE 1 : INTRODUCTION À LA VEILLE STRATÉGIQUE
- Qu’est-ce que la Business Intelligence (BI) ?
- Qu’est-ce que la BI au cœur des décisions d’affaires ?
- L’évolution de la BI
- Intelligence d’affaires et analyse d’affaires
- Décisions basées sur les données avec les outils de BI
- La méthodologie Crisp-Dm
MODULE 2 : BI AVEC TABLEAU : INTRODUCTION
- L’interface Tableau
- Le classeur Tableau, les feuilles et les tableaux de bord
- Tableaux filtres, lignes et colonnes
- Dimensions et mesures
- Distribution et publication
MODULE 3 : TABLEAU : CONNEXION AUX SOURCES DE DONNÉES
- Connexion à un fichier de données, à un serveur de base de données
- Gestion des champs
- Gestion des extraits
- Sauvegarde et publication des sources de données
- Préparation des données avec des fichiers texte et Excel
- Types de jointures avec union
- Jointures entre bases de données
- Mélange de données
- Connexion aux fichiers PDF
MODULE 4 : TABLEAU : PERSPECTIVES D’AFFAIRES
- Premiers pas dans l’analyse visuelle
- Exploration et hiérarchies
- Tri et regroupement
- Créer et travailler avec des ensembles
- Utilisation de l’étagère de filtres
- Filtres interactifs
- Paramètres
- Le volet de formatage
- Lignes de tendance et lignes de référence
- Prévision
- Regroupement
MODULE 5 : TABLEAUX DE BORD, HISTOIRES ET PAGES
- Tableaux de bord et histoires Introduction
- Construction d’un tableau de bord
- Objets du tableau de bord
- Formatage du tableau de bord
- Interactivité du tableau de bord à l’aide d’actions
- Points d’histoire
- Animation avec les pages
MODULE 6 : BI AVEC POWER-BI
- Les bases de Power BI
- Visualisations de base
- Perspectives d’affaires avec Power BI
MODULE 1 : INTRODUCTION AUX SERVICES DE DONNÉES AWS
- Vue d’ensemble d’AWS et configuration des comptes
- Utilisateurs, rôles et politiques AWS IAM
- Présentation d’AWS Lamdba
- Présentation d’AWS Glue
- Présentation d’AWS Kinesis
- Aperçu d’AWS Dynamodb
- Aperçu d’AWS Anthena
- Aperçu d’AWS Redshift
MODULE 2 : INGESTION DE DONNÉES AVEC AWS LAMDBA
- Configurer l’environnement de développement local AWS Lamdba
- Déployer le projet dans la console Lamdba
- Configuration du pipeline de données avec Lamdba
- Valider les fichiers de données de manière incrémentale
- Déploiement de la fonction Lamdba
MODULE 3 : PRÉPARATION DES DONNÉES AVEC AWS GLUE
- Composants AWS Glue
- Spark avec les jobs Glue
- Catalogue AWS Glue et APIs Glue Job
- AWS Glue Job Bookmarks
MODULE 4 : APPLICATION SPARK UTILISANT AWS EMR
- Introduction à PySpark
- Présentation et configuration d’AWS EMR
- Déploiement d’une application Spark avec AWS EMR
MODULE 5 : PIPELINE DE DONNÉES AVEC AWS KINESIS
- Présentation et configuration d’AWS Kinesis
- Flux de données avec AWS Kinesis
- Ingestion de données depuis AWS S3 avec AWS Kinesis
MODULE 6 : ENTREPÔT DE DONNÉES AVEC AWS REDSHIFT
- Présentation d’AWS Redshift
- Analyser des données à l’aide d’AWS Redshift à partir d’entrepôts, de lacs de données et de bases de données opérationnelles
- Développer des applications à l’aide d’un cluster AWS Redshift
- Requêtes fédérées et spectre AWS Redshift
MODULE 7 : PROJET D’INGÉNIERIE DES DONNÉES
- Étude de cas pratique d’un projet
- Mise en place de l’environnement de développement du projet
- Organisation des sources de données
- Configuration des services AWS pour l’ingestion des données
- Extraction de données Transformation avec AWS
- Flux de données avec AWS Kinesis
MODULE 1: AZURE DATA SERVICES INTRODUCTION
- Vue d’ensemble d’Azure et configuration du compte
- Stockage Azure
- Lac de données Azure
- Azure Cosmos DB
- Base de données Azure SQL
- Azure Synapse Analytics
- Azure Stream Analytics
- Azure HDInsight
- Azure Data Services
MODULE 2 : STOCKAGE DANS AZURE
- Créer un compte de stockage Azure
- Connecter une application à Azure Storage
- Azure Blog Storage
MODULE 3 : AZURE DATA FACTORY
- Introduction à Azure Data Factory
- Transformation de données avec Data Factory
- Traitement des données avec Data Factory
MODULE 4 : PIPELINE DE DONNEES AVEC AZURE SYNAPSE
- Configuration d’Azure Synapse
- Comprendre le flux de contrôle des données avec ADF
- Pipelines de données avec Azure Synapse
- Préparer et transformer les données avec Azure Synapse Analytics
MODULE 5 : PROJET D’INGENIERIE DES DONNEES AVEC AZURE
- Étude de cas pratique d’un projet
- Configuration de l’environnement de développement du projet
- Organisation des sources de données
- Configuration des services AZURE pour l’ingestion des données
- Transformation de l’extraction des données avec Azure Data Factory et Azure Synapse