INSI

034 72 896 32 – 032 96 640 09

contact@insi.mg

Lot VF 32 Ter Ankazotokana Ambanidia

Data science

La formation en  Data Science ou  science des données regroupent ces 4 disciplines :

  •  1. La programmation
  •  2. Les statistiques
  •  3. L’apprentissage automatique 
  • 4. Connaissance de l’entreprise.
  • Le cours est principalement  sur Python pour la programmation  ainsi que  R.
  • Les statistiques : Moyenne, médiane, régression linéaire 
  • L’apprentissage automatique est le principal outil de la science des données pour prédire la classification ou la régression.
  • Ce cours couvre tous les algorithmes ML .

Objectifs du cours Data Science

Après avoir suivi avec succès cette formation “Data Science”, vous devriez avoir

  • J’ai acquis une meilleure connaissance de l’ensemble du flux de travail d’un projet de science des données.
  • Comprendre les concepts clés des statistiques
  • Acquisition de connaissances pratiques sur les algorithmes d’apprentissage automatique les plus répandus.
  • Connaissance approfondie du Data Mining, Data forecasting, et Data Visualisation.
  • Capable de créer un business case pour un projet de Data Science.
  • Fournir au client un projet de science des données de bout en bout

Pourquoi le cours "Data Science" ?

Ce cours est un ensemble parfait de compétences requises en science des données, y compris la programmation, les statistiques et l’apprentissage automatique. Si vous aspirez à devenir un professionnel de la science des données, ce cours peut immensément vous aider à atteindre votre objectif.

Avantages de la formation "Data science"

La science des données est le domaine le plus en vogue sur le marché à l’heure actuelle. Qu’il s’agisse d’une petite entreprise ou d’une multinationale, elles ont besoin d’un scientifique des données pour gérer leur vaste réservoir de données.

  • Une forte demande en scientifiques des données avec seulement quelques personnes qualifiées qui peuvent être embauchées.
  • Salaires élevés, près de deux fois supérieurs à ceux d’un ingénieur logiciel moyen.
  • Ce cours n’est pas seulement conçu pour vous offrir de nouvelles opportunités de carrière, mais il vous permet également d’appliquer les nouvelles compétences dans votre travail actuel et de devenir précieux dans votre rôle actuel.
  • Soyez assuré que vous entrez dans l’avenir de la science des données beaucoup plus tôt pour saisir les merveilleuses opportunités qui découlent de ce plus grand besoin du monde des affaires.

Qui devrait choisir le cours de Data science ?

Ce cours “Data science” n’est pas limité à un domaine spécifique.

  • Les jeunes diplômés ou les étudiants de toute discipline peuvent choisir ce cours pour obtenir de meilleures opportunités d’emploi dans ce domaine très exigeant de la science des données.
  • Les professionnels en activité qui souhaitent changer de domaine pour s’orienter vers la science des données.
  • Hautement recommandé pour ceux qui aspirent à des emplois qui tournent principalement autour de l’analyse de données et de l’apprentissage automatique.
  • Chefs de projet aspirant à passer à la gestion de projets de Data Science

Description

La formation Data Science est conçue pour fournir un juste mélange des quatre facettes de la science des données.

  • Ces quatre facettes constituent les quatre piliers de la science des données. Il s’agit de 1. La programmation 2. Les statistiques 3. L’apprentissage automatique 4. Connaissance de l’entreprise.
  • Le cours est principalement axé sur Python pour la programmation de base de la science des données ; il comprend également R si nécessaire pour améliorer les professionnels travaillant dans R.
  • Les statistiques sont couvertes comme requis pour un Data Science, vous pouvez trouver le syllabus détaillé dans l’onglet programme d’études.
  • L’apprentissage automatique est le principal outil de la science des données pour prédire la classification ou la régression.
  • Ce cours couvre tous les algorithmes ML populaires comme détaillé dans l’onglet programme d’études.
  • La courbe de demande croissante de professionnels de la science des données pour gérer les vastes ensembles de données dans diverses organisations offre des millions d’opportunités d’emploi sur les marchés mondiaux.
  • Les connaissances acquises grâce à ce cours vous aident sûrement à devenir un professionnel de la science des données.

Ce cours est un ensemble parfait de compétences requises en science des données, y compris la programmation, les statistiques et l’apprentissage automatique. Si vous aspirez à devenir un professionnel de la science des données, ce cours peut immensément vous aider à atteindre votre objectif.

Après avoir suivi avec succès cette formation “Data Science”, vous devriez avoir

  • J’ai acquis une meilleure connaissance de l’ensemble du flux de travail d’un projet de science des données.
  • Comprendre les concepts clés des statistiques
  • Acquisition de connaissances pratiques sur les algorithmes d’apprentissage automatique les plus répandus.
  • Connaissance approfondie du Data Mining, Data forecasting, et Data Visualization.
  • Capable de créer un business case pour un projet de Data Science.
  • Fournir au client un projet de science des données de bout en bout

La science des données est le domaine le plus en vogue sur le marché à l’heure actuelle. Qu’il s’agisse d’une petite entreprise ou d’une multinationale, elles ont besoin d’un scientifique des données pour gérer leur vaste réservoir de données.

  • Une forte demande en scientifiques des données avec seulement quelques personnes qualifiées qui peuvent être embauchées.
  • Salaires élevés, près de deux fois supérieurs à ceux d’un ingénieur logiciel moyen.
  • Ce cours n’est pas seulement conçu pour vous offrir de nouvelles opportunités de carrière, mais il vous permet également d’appliquer les nouvelles compétences dans votre travail actuel et de devenir précieux dans votre rôle actuel.
  • Soyez assuré que vous entrez dans l’avenir de la science des données beaucoup plus tôt pour saisir les merveilleuses opportunités qui découlent de ce plus grand besoin du monde des affaires.

Ce cours “Data science” n’est pas limité à un domaine spécifique.

  • Les jeunes diplômés ou les étudiants de toute discipline peuvent choisir ce cours pour obtenir de meilleures opportunités d’emploi dans ce domaine très exigeant de la science des données.
  • Les professionnels en activité qui souhaitent changer de domaine pour s’orienter vers la science des données.
  • Hautement recommandé pour ceux qui aspirent à des emplois qui tournent principalement autour de l’analyse de données et de l’apprentissage automatique.
  • Chefs de projet aspirant à passer à la gestion de projets de Data Science

Programme d'études

MODULE 1 : PRINCIPES DE BASE DU PYTHON

  • Introduction à python
  • Installation de Python et de l’IDE
  • Objets Python
  • Types de données de base Python
  • Chiffres et booléens, chaînes de caractères
  • Opérateurs arithmétiques
  • Opérateurs de comparaison
  • Opérateurs d’affectation
  • Précédence et associativité des opérateurs

MODULE 2 : INSTRUCTIONS DE CONTRÔLE PYTHON

  • IF Déclaration conditionnelle
  • IF-ELSE
  • NESTED IF
  • Les bases des boucles Python
  • Déclaration WHILE
  • Déclarations FOR
  • Déclarations BREAK et CONTINUE

MODULE 3 : STRUCTURES DE DONNÉES PYTHON

  • Structure de données de base en python
  • Principes de base de l’objet chaîne et méthodes intégrées
  • Liste : Objet, méthodes, compréhensions
  • Tuple : Objet, méthodes, compréhensions
  • Ensembles : Objet, méthodes, compréhensions
  • Dictionnaire : Objet, méthodes, compréhensions

MODULE 4 : FONCTIONS PYTHON

  • Fonctions de base
  • Fonction Passage des paramètres
  • Itérateurs
  • Fonctions du générateur
  • Fonctions lambda
  • Fonctions de mappage, de réduction et de filtrage

MODULE 5 : PAQUET PYTHON NUMPY

  • Introduction à NumPy
  • Tableau – Structure de données
  • Fonctions principales de NumPy
  • Opérations matricielles

MODULE 6 : PAQUET PYTHON PANDAS

  • Fonctions Pandas
  • Cadre de données et séries – Structure des données
  • L’analyse des données avec les Pandas
  • Imputation et analyse des valeurs aberrantes

MODULE 1 : L’ESSENTIEL DE LA SCIENCE DES DONNÉES

  • Introduction à la Data Science
  • Terminologie de la Data Science
  • Classifications des analyses
  • Flux de travail d’un projet de Data Science

MODULE 2 : FONDEMENTS DE L’INGÉNIERIE DES DONNÉES

  • Introduction à l’ingénierie des données
  • Importance de l’ingénierie des données
  • Écosystèmes d’outils d’ingénierie des données
  • Concepts fondamentaux de l’ingénierie des données

MODULE 3 : PYTHON POUR LA SCIENCE DES DONNÉES

  • Introduction à Python
  • Types de données et opérateurs Python
  • Déclarations et fonctions de contrôle des flux
  • Données structurées et non structurées
  • Introduction au package Python Numpy
  • Structures de données en tableau dans Numpy
  • Opérations et méthodes sur les tableaux
  • Introduction au paquet Python Pandas
  • Structures de données : Séries et DataFrame
  • Méthodes clés de Pandas DataFrame

MODULE 4 : VISUALISATION AVEC PYTHON

  • Paquets de visualisation (Matplotlib)
  • Composantes d’un graphe, sous-graphes
  • Graphiques de base : Ligne, barre, graphique, nuage de points
  • Visualisations de données avancées en Python

MODULE 5 : L’ESSENTIEL DU LANGAGE R

  • Installation et configuration de R
  • R STUDIO – Env de développement R
  • Bases du langage R et structures de données
  • Structures de données R, instructions de contrôle*

MODULE 6 : STATISTIQUES

  • Statistiques descriptives et inférentielles
  • Types de données, types d’échantillonnage
  • Mesures des tendances centrales
  • Variabilité des données : Écart-type
  • Z-Score, valeurs aberrantes, distribution normale
  • Théorème de la limite centrale
  • Histogramme, tests de normalité
  • Skewness et Kurtosis
  • Comprendre les tests d’hypothèse
  • Méthode de la valeur P, types d’erreurs
  • Distribution T, test T à un échantillon
  • Tests T indépendants et relationnels
  • Corrélation directe et indirecte
  • Théorie de la régression

MODULE 7 : INTRODUCTION À L’APPRENTISSAGE AUTOMATIQUE

  • Introduction à l’apprentissage automatique
  • Concepts fondamentaux de l’apprentissage automatique
  • Apprentissage non supervisé et supervisé
  • Clustering avec K-Means
  • Modèles de régression et de classification.
  • Algorithme de régression : Régression linéaire
  • Évaluation des modèles ML
  • Algorithme de classification : Régression logistique

MODULE 1 : INTRODUCTION À L’APPRENTISSAGE AUTOMATIQUE (ML)

  • Qu’est-ce que ML ? L’apprentissage automatique (ML) et l’intelligence artificielle (AI)
  • Flux de travail de l’apprentissage automatique, algorithmes d’apprentissage automatique populaires
  • Regroupement, classification et régression
  • Supervisé ou non supervisé

MODULE 2 : ALGO ML : RÉGRESSION LINÉAIRE

  • Introduction à la régression linéaire
  • Fonctionnement : Régression et ligne de meilleur ajustement
  • Modélisation et évaluation en Python

MODULE 3 : ML ALGO : RÉGRESSION LOGISTIQUE

  • Introduction à la régression logistique
  • Fonctionnement : Classification et courbe sigmoïde
  • Modélisation et évaluation en Python

MODULE 4 : ML ALGO : KNN

  • Introduction au KNN
  • Comment ça marche : Concept du plus proche voisin
  • Modélisation et évaluation en Python

MODULE 5 : ML ALGO : K MEANS CLUSTERING

  • Comprendre le clustering (non supervisé)
  • Algorithme K Means
  • Comment ça marche : théorie de K Means
  • Modélisation en Python

MODULE 6 : ANALYSE EN COMPOSANTES PRINCIPALES (PCA)

  • Éléments constitutifs de l’ACP
  • Comment cela fonctionne-t-il ? Trouver les composantes principales
  • Modélisation de l’ACP en Python

MODULE 7 : ML ALGO : ARBRE DE DÉCISION

  • Technique d’ensemble Random Forest
  • Comment cela fonctionne-t-il ? Théorie du bagging
  • Modélisation et évaluation en Python

MODULE 8 : ML ALGO : NAÏVE BAYES

  • Introduction à Naive Bayes
  • Comment cela fonctionne-t-il ? Théorème de Bayes
  • Naive Bayes pour la classification de textes
  • Modélisation et évaluation en Python

MODULE 9 : BOOSTING DE GRADIENT, XGBOOST

  • Introduction au boosting et à XGBoost
  • Fonctionnement : concept des apprenants faibles
  • Modélisation et évaluation en Python

MODULE 10 : ALGO ML : MACHINE À VECTEURS DE SUPPORT (SVM)

  • Introduction au SVM
  • Fonctionnement : Concept du SVM, astuce du noyau
  • Modélisation et évaluation des SVM en Python

MODULE 11 : RÉSEAU DE NEURONES ARTIFICIELS (ANN)

  • Introduction à l’ANN
  • Fonctionnement : Back prop, Gradient Descent
  • Modélisation et évaluation de l’ANN en Python

MODULE 12 : CONCEPTS ML AVANCÉS

  • Métriques avancées (Roc_Auc, R2, Précision, Recall)
  • Validation croisée K-Fold
  • Grille et recherche aléatoire CV dans Sklearn
  • Ensemble de données déséquilibrées : Technique de Smote
  • Techniques de sélection des caractéristiques

MODULE 1 : PRÉVISION DES SÉRIES TEMPORELLES – ARIMA

  • Qu’est-ce qu’une série temporelle ?
  • Tendance, saisonnalité, cyclique et aléatoire
  • Modèle autorégressif (AR)
  • Modèle de moyenne mobile (MA)
  • Stationnarité des séries temporelles
  • Modèle ARIMA
  • Autocorrélation et AIC

MODULE 2 : INGÉNIERIE DES CARACTÉRISTIQUES

  • Introduction à l’ingénierie des caractéristiques
  • Transformation des prédicteurs
  • Méthodes de sélection des caractéristiques
  • Technique d’élimination à rebours
  • Importance des caractéristiques à partir de la modélisation ML

MODULE 3 : ANALYSE DU SENTIMENT

  • Introduction à l’analyse de sentiments
  • Paquets Python : TextBlob, NLTK
  • Étude de cas : Analyse de sentiment en direct sur Twitter

MODULE 4 : EXPRESSIONS RÉGULIÈRES AVEC PYTHON

  • Introduction aux expressions régulières
  • Codes Regex
  • Extraction de texte avec Python Regex


MODULE 5 : DÉPLOIEMENT DE MODÈLES ML AVEC FLASK

  • Introduction à Flask
  • Routage d’URL et d’App
  • Application Flask – Déploiement de modèles ML

MODULE 6 : ANALYSE AVANCÉE DES DONNÉES AVEC MS EXCEL

  • Fonctions de base de MS Excel
  • Tableau croisé dynamique
  • Fonctions avancées (VLOOKUP, INDIRECT..)
  • Régression linéaire avec EXCEL
  • Analyse de la recherche d’objectifs
  • Tableau de données
  • Résolution d’équations de données avec EXCEL
  • Simulation de Monte Carlo avec MS EXCEL

MODULE 7 : AWS CLOUD POUR LA SCIENCE DES DONNÉES

  • Introduction au cloud
  • Différence entre GCC, Azure, AWS
  • Service AWS (service EC2 et S3)
  • Service AWS (AMI), Service AWS (RDS)
  • Service AWS (IAM), AWS (service Athena)
  • AWS (EMR), AWS, AWS (Redshift)
  • Modélisation ML avec AWS Sage Maker

MODULE 8 : AZURE POUR LA SCIENCE DES DONNÉES

  • Introduction à AZURE ML studio
  • Pipeline de données et modélisation ML avec Azure

MODULE 1 : INTRODUCTION À GIT

  • Objectif du contrôle de version
  • Outils populaires de contrôle de version
  • Distribution de Git Contrôle de version
  • Terminologie
  • Flux de travail Git
  • Architecture Git

MODULE 2 : REPOSITORY GIT et GitHub

  • Introduction à Git Repo
  • Créer un nouveau repo avec la commande Init
  • Copier un repo existant
  • Utilisateur Git et nœud distant
  • Statut Git et rebase
  • Revue de l’historique du repo
  • GitHub Cloud Remote Repo

MODULE 3 : COMMITS, PULL, FETCH ET PUSH

  • Commits de code
  • Pull, Fetch et résolution de conflits
  • Pousser vers Remote Repo

MODULE 4 : BALISAGE, BRANCHEMENT ET FUSION

  • Organiser le code avec des branches
  • Vérifier la branche
  • Fusionner les branches

MODULE 5 : ANNULER LES MODIFICATIONS

  • Édition des modifications (Commits)
  • Commande Commit Indicateur de modification
  • Git reset et revert

MODULE 6 : GIT AVEC GITHUB ET BITBUCKET

  • Création d’un compte GitHub
  • Repo local et distant
  • Collaborer avec d’autres développeurs
  • Compte Git Bitbucket

MODULE 1 : INTRODUCTION AU BIG DATA

  • Aperçu du Big Data
  • Les cinq aspects du Big Data
  • Qu’est-ce que le Big Data et Hadoop ?
  • Introduction à Hadoop
  • Composants de l’écosystème Hadoop
  • Introduction à l’analyse des Big Data

MODULE 2 : HDFS ET MAP REDUCE

  • HDFS – Stockage des Big Data
  • Traitement distribué avec Map Reduce
  • Concepts des étapes de mappage et de réduction
  • Termes clés : Format de sortie, partitionneurs, combinateurs, mélange et tri
  • Travaux pratiques sur Map Reduce

MODULE 3 : FONDATION DE PYSPARK

  • Introduction à PySpark
  • Configuration de Spark
  • Ensembles de données distribués résilients (RDD)
  • Travailler avec des RDD dans PySpark
  • Agréger des données avec des RDDs en paire

MODULE 4 : SPARK SQL et HADOOP HIVE

  • Présentation de Spark SQL
  • Spark SQL vs Hadoop Hive
  • Travailler avec le langage de requête Spark SQL

MODULE 5 : APPRENTISSAGE AUTOMATIQUE AVEC SPARK ML

  • Introduction à MLlib Divers algorithmes ML supportés par MLib
  • Modèle ML avec Spark ML.
  • Régression linéaire
  • Régression logistique
  • Forêt aléatoire

MODULE 6 : KAFKA et Spark

  • Architecture de Kafka
  • Flux de travail Kafka
  • Configuration du cluster Kafka
  • Opérations

MODULE 1 : INTRODUCTION À LA VEILLE STRATÉGIQUE

  • Qu’est-ce que la Business Intelligence (BI) ?
  • Qu’est-ce que la BI au cœur des décisions d’affaires ?
  • L’évolution de la BI
  • Intelligence d’affaires et analyse d’affaires
  • Décisions basées sur les données avec les outils de BI
  • La méthodologie Crisp-Dm

MODULE 2 : BI AVEC TABLEAU : INTRODUCTION

  • L’interface Tableau
  • Le classeur Tableau, les feuilles et les tableaux de bord
  • Tableaux filtres, lignes et colonnes
  • Dimensions et mesures
  • Distribution et publication

MODULE 3 : TABLEAU : CONNEXION AUX SOURCES DE DONNÉES

  • Connexion à un fichier de données, à un serveur de base de données
  • Gestion des champs
  • Gestion des extraits
  • Sauvegarde et publication des sources de données
  • Préparation des données avec des fichiers texte et Excel
  • Types de jointures avec union
  • Jointures entre bases de données
  • Mélange de données
  • Connexion aux fichiers PDF

MODULE 4 : TABLEAU : PERSPECTIVES D’AFFAIRES

  • Premiers pas dans l’analyse visuelle
  • Exploration et hiérarchies
  • Tri et regroupement
  • Créer et travailler avec des ensembles
  • Utilisation de l’étagère de filtres
  • Filtres interactifs
  • Paramètres
  • Le volet de formatage
  • Lignes de tendance et lignes de référence
  • Prévision
  • Regroupement

MODULE 5 : TABLEAUX DE BORD, HISTOIRES ET PAGES

  • Tableaux de bord et histoires Introduction
  • Construction d’un tableau de bord
  • Objets du tableau de bord
  • Formatage du tableau de bord
  • Interactivité du tableau de bord à l’aide d’actions
  • Points d’histoire
  • Animation avec les pages

MODULE 6 : BI AVEC POWER-BI

  • Les bases de Power BI
  • Visualisations de base
  • Perspectives d’affaires avec Power BI

MODULE 1 : INTRODUCTION À LA BASE DE DONNÉES

  • Vue d’ensemble de la base de données
  • Concepts clés de la gestion des bases de données
  • Opérations CRUD
  • Système de gestion de bases de données relationnelles
  • RDBMS vs No-SQL (Document DB)

MODULE 2 : BASES SQL

  • Introduction aux bases de données
  • Introduction à SQL
  • Commandes SQL
  • Installation de MY SQL workbench
  • Commentaires
  • importer et exporter des données

MODULE 3 : TYPES DE DONNÉES ET CONTRAINTES

  • Type de données numériques, caractères, date et heure
  • Clé primaire, Clé étrangère, Non nul
  • Unique, Vérification, Défaut, Incrémentation automatique

MODULE 4 : Bases de données et tables (MySQL)

  • Créer une base de données
  • Supprimer une base de données
  • Afficher et utiliser les bases de données
  • Créer une table, Renommer une table
  • Supprimer une table, Supprimer les enregistrements d’une table
  • Créer une nouvelle table à partir de types de données existants
  • Insérer dans, Mettre à jour les enregistrements
  • Modifier un tableau

MODULE 5 : JOINTS SQL

  • Jointure interne
  • Jointure externe
  • Jointure gauche
  • Jointure droite
  • Jointure croisée
  • Jointure entre soi

MODULE 6 : COMMANDES ET CLAUSES SQL

  • Sélection, Sélection distincte
  • Alias, clause Where
  • Opérateurs relationnels, logiques
  • Entre, Ordre par, Dans
  • Like, Limit, null/not null, group by
  • Avoir, Sous-requêtes

MODULE 7 : BASE DE DONNÉES DE DOCUMENTS/BASE DE DONNÉES NON SQL

  • Introduction de Document DB
  • Document DB vs SQL DB
  • Bases de données documentaires populaires
  • Les bases de MongoDB
  • Format des données et méthodes clés
  • Gestion des données MongoDB

MODULE 1 : VUE D’ENSEMBLE DE L’INTELLIGENCE ARTIFICIELLE

  • Évolution de l’intelligence humaine
  • Qu’est-ce que l’intelligence artificielle ?
  • Histoire de l’intelligence artificielle.
  • Pourquoi l’intelligence artificielle aujourd’hui ?
  • Terminologie de l’Ai
  • Domaines de l’intelligence artificielle
  • Ai Vs Data Science Vs Machine Learning

MODULE 2 : INTRODUCTION AU DEEP LEARNING

  • Réseau neuronal profond
  • Apprentissage automatique vs apprentissage profond
  • Apprentissage des caractéristiques dans les réseaux profonds
  • Applications des réseaux d’apprentissage profond

MODULE 3 : FONDATION DE TENSORFLOW

  • Installation et configuration de TensorFlow
  • Structure et modules de TensorFlow
  • Travaux pratiques : modélisation ML avec TensorFlow

MODULE 4 : INTRODUCTION À LA VISION PAR ORDINATEUR

  • Notions d’image
  • Réseau de neurones à convolution (CNN)
  • Classification d’images avec CNN
  • Travaux pratiques : classification des chats et des chiens avec le réseau CNN

MODULE 5 : TRAITEMENT DU LANGAGE NATUREL (TLN)

  • Introduction au NLP
  • Modèles de sacs de mots
  • Intégration de mots
  • Modélisation du langage
  • Travaux pratiques : Algorithme BERT

MODULE 6 : QUESTIONS ET PRÉOCCUPATIONS ÉTHIQUES LIÉES À L’AI

  • Questions et préoccupations liées à l’intelligence artificielle
  • Ai et préoccupations éthiques
  • L’IA et les préjugés
  • Ai : Éthique, partialité et confiance