Introduction a Azure Data Factory

Introduction

Suite a la réalisation d’un Projet BI dans Azure j’ai décidé de publier un ticket sur l’utilisation des différents éléments que j’ai pu utiliser dans ce projet

Dans cette partie je vais vous présenter Azure Data Factory

Présentation :

Azure Data Factory qu’est ce que c’est :

Azure Data Factory est un outil permettant d’Extraire Transformer et Charger (ETL) des données depuis une source d’information local vers Azure ou dans Azure.

En quelques mots c’est l’équivalent de SSIS dans la suite SQL Server

Il est toutefois a noté que la partie Transformation de données est limité.

Pour utiliser le service Azure Data Factory il vous suffit d’aller le sélectionner dans l’explorateur Azure

1

une fois cette réalisation effectuée, Nous avons accès à cette interface :

2

Le premier point Author and Deploy permet de voir tous les scripts JSON que nous avons déployer

Le second Copy and Data ( Preview) est un outil permettant de réaliser nos activités de copies de manières graphique (ce que nous allons voir dans cette introduction)

Monitor and Manage : permet de voir le statut des activités de copies déployés

Sample pipeline : C’est une banque d’exemple fournis par Microsoft

Linked services : ce sont les services qui permettent de se connecter a des sources de données, elles peuvent être local ou dans le cloud (ce sont les connections dans SSIS)

Pipeline: Un Pipeline représente un regroupement logique d’activité qui permet d’ordonnancer notre travail (cela correspond au Data Flow Task dans SSIS)

DataSet : Cela correspond a une vue des données nommée qui pointe ou fait référence simplement aux données que vous souhaitez utiliser dans vos activités. ( équivalent au Control flow task dans SSIS)

Dans notre test nous allons utiliser l’assistant pour réaliser cette présentation :

3

voici la première page nous allons créer notre pipeline ( le pipeline correspond au data flow task dans SSIS, il va embarquer toutes les taches nécessaires a notre extraction et notre chargement) ce pipeline (cet ensemble de tache) sera executer a la demande ( une fois) ou schédulé a heure fixe:

4

Voici un exemple de récupération des sources de données dans notre cas nous prenons un fichier disponible sur notre poste mais nous aurions pu récupérer des données issues d’amazon ou de casandra si nous souhaitions 😉  :

15

Une fois la source sélectionné nous rentrons les différentes informations d’identifications :

Dans notre cas nous avons utilisé une Gateway ( Intégration runtime) permettant de faire le liens de manière sécurisé entre Azure et notre machine de test

6

Nous allons sélectionner le fichier a uploader dans notre exemple nous allons réaliser un upload sur un datalake

7

après selectionner nous nous apercevons que l’assistant parcours le fichier et nous présente un exemple des données nous avons accès a quelques paramètres :

8

Nous spécifions la destination vers lesquels nous allons envoyer le fichier

9

Nous inserons les informations d’identification pour se connecter au Data Lake ( pour rappel un Data Lake permet de stocker des données structurés et non structuré sur un environnement distribué)

10

dans notre cas nous allons stockée nos données sous format parquet pour des raisons de performances que j’ai évoqué dans un précédent article ( le format parquet compresse les données en colonne et les types ce qui permet de gagner du temps lors de la lecture de ces fichiers)

11

12

Notre travail est presque terminé, reste plus qu’a trouvé la solution en cas d’echec et dire a Data Factory quoi faire en cas d’echec

Nous avons 3 possibilités :

  • Arrêter la copie a la première erreur
  • ignorer les lignes incompatibles
  • ignorer et stocker les lignes incompatibles

13

Et voila nous avons réaliser notre première activité de copie

14

Nous allons réaliser une opération d’autorisation pour nous connecter au data lake et voila

L’assistant vérifie chaque étape génère les fichiers json et effectue le déploiement

16 Il ne nous restera plus qu’a aller vérifier que notre activité de copie est bien disponible dans le système et de surveiller son bon déroulement en allant vérifier dans le datalake que le fichier est disponible dans le Datalake a l’endroit convoité.

17

Le fichier est bien disponible (ceci est un exemple)

18

 

Voila comment est représenté l’activité de copie dans le menue des services.

Si vous souhaitez développez les votres et les déployer en Json directement :

19

 

Une version V2 Du data factory existe mais elle ne comporte pas d’assistant pour le moment, elle apporte notamment les nouveautés suivantes :

  • Prise en charge de trigger pour le déclenchement des PipeLine
  • Intégration des packages SSIS sous reserve d’avoir une base SQL pouvant heberger le DBcatalogue

 

Pour plus d’informations :

https://docs.microsoft.com/en-us/azure/data-factory/compare-versions

Julien PIERRE

Consultant MSBI

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s