Mise en place d’une architecture Lambda avec Power BI et Logic Apps

Par Nidhal BRIBECH, de la practice Data Experience

  1.     Introduction

 A travers ce tutoriel, nous allons mettre en place une architecture Lambda à l’aide des outils Microsoft à la fois sur le cloud et en local.

L’architecture Lambda permet de stocker et de traiter de larges volumes de données (batch) tout en intégrant les données les plus récentes dans un flux de streaming.

Pour nous rapprocher de cette architecture, j’ai choisi d’utiliser le service Microsoft Azure « Logic App » permettant de récupérer les données sous forme de batch et Power BI en ligne pour la partie donnée en temps réel.    

 2.     Scénario

 Nous souhaitons stocker les tweets provenant des médias français présent sur Twitter à la fois sous forme de fichiers csv dans un blob storage que l’on pourra exploiter une fois que l’on a une volumétrie importante. Mais aussi agrémenter une solution Power BI en ligne qui permettra d’étudier les tweets les plus récents (par exemple tendances des tweets du mois présent).

 3.     Architecture

                                 

 4.     Pré requis

 Créer un compte Twitter pour accéder aux données fourni par l’API (https://twitter.com/).

Installer Power BI Desktop (disponible gratuitement à l’adresse suivante : https://powerbi.microsoft.com/fr-fr/desktop/).

Avoir un compte Power BI (Choisir « partage et collaboration dans le cloud » https://powerbi.microsoft.com/fr-fr/get-started/).

Avoir un compte Azure (Compte gratuit avec 170€ de crédit https://azure.microsoft.com/fr-fr/).

 5.     Créer un blob Storage

 La première étape consiste à créer un blob storage pour stocker les tweets qui remplissent nos critères. Ce type de stockage enregistrera nos données sous la forme de fichiers textes.

 

 

 On renseigne son nom, son type, l’endroit où il se trouve et on renseigne une ressource group (sinon on la crée en même temps que le blob storage en cochant « Create New »).

 On aura besoin de la clé (key1) et du nom (Storage account name) pour la partie Power BI desktop, donc on les garde dans un fichier texte.

 

 

 Par la suite, on crée un container qui va recevoir nos tweets à la manière d’un dossier.

 6.     Créer un Logic Apps

 La logic app va permettre d’exécuter automatiquement un processus qui récupèrera les tweets selon des critères spécifiques, à une fréquence prédéfinie et selon un enchaînement d’opérations.

On renseigne son nom, la ressource groupe (la même que celle du blob storage) ainsi que sa localité.

En cliquant sur Logic App Designer, nous arrivons sur l’interface graphique. Une multitude de triggers (déclencheurs) sont disponibles mais celui qui nous intéresse est « When a new tweet is posted ».

 On se connecte à l’aide de nos identifiants Twitter pour permettre la connexion entre les flux Twitter et la logic app.

 

 On définit les filtres de recherche et l’intervalle entre chaque exécution (dans notre exemple, il s’agit de tweets provenant de comptes d’actualités en France que l’on recherche toutes les 5 minutes).

 Nous récupérons les tweets grâce à ce trigger et allons les traiter avec deux actions.

On crée une action à la suite du trigger (cliquer sur Add an action).

Et nous allons choisir Azure Blob Storage.

Plus précisément l’action « Create blob » pour stocker chaque tweet en fichier unique.

On établit une connexion avec notre container préalablement crée en renseignant un nom de connexion (au choix) puis en sélectionnant le blob storage correspondant :

Une fois la connexion établit, on renseigne le container de réception, le nom des blobs et le contenue des blobs.

Blob name prend comme nom la date au moment de la création du blob suivi de l’extension « .txt » pour que le fichier soit exploitable (on verra cela par la suite sur Power BI).

concat(utcNow(),'.txt')

 Blob content contiendra les éléments que nous souhaitons garder (User Name, CreatedAt et Tweet Text) et on les sépare à l’aide d’un point-virgule pour mieux les délimiter.

concat(triggerBody()?['UserDetails']?['FullName'],';',
triggerBody()?['CreatedAtIso'],';',triggerBody()?['TweetText'])

 

En parallèle à cela, nous allons ajouter une action qui permettra de charger les données dans un tableau de bord Power BI en ligne (service cloud).

Mais avant cela il faut créer un jeu de données sur son espace de travail en ligne (https://app.powerbi.com/).

 Une fois créé, cliquez sur « Créer » en haut à droite, puis sélectionnez « Jeu de données de streaming ».

 

 Il faut choisir « API ».

 

Ensuite, on renseigne les valeurs que l’on souhaite extraire des tweets (TweetText, UserName, CreatedAt).

 Pour cela on renseigne un nom de jeu de données et pour chaque valeur un nom et un type.

On valide la création puis cliquez sur « Terminé ».

 Maintenant que nous avons un jeu de données en ligne, il faut l’agrémenter d’éléments. Donc on retourne sur notre logic app et on ajoute une action en parallèle du blob storage.

 Recherchez Power BI puis sélectionnez l’icône correspondante.

Puis on choisit l’action « Add rows to a dataset » qui va permettre d’ajouter les valeurs à notre jeu de données en streaming.

On renseigne :

·        Le workplace, le dataset et la table de notre application Power BI en ligne.

·        Les valeurs pour les colonnes de notre table à agrémenter.

Sauvegardez en cliquant sur Save puis lancez la logic app (Run). Il faut que les comptes en écoute tweetent pour démarrer le processus automatiquement.

 

Suite à l’exécution nous avons confirmation du bon déroulement des actions.

En retournant sur le container, nous retrouvons les fichiers créés.

Et en allant sur Power BI dans le cloud, on retrouve aussi les données des tweets.

 En sélectionnant la visualisation Table puis en cochant les divers champs, on retrouve les tweets stockés depuis la première itération du Logic App. On pourrait ajouter un filtre afin de n’afficher que les tweets du mois en cours pour faire une analyse en temps réel.

 

7.     Exploitation sur Power BI desktop.

 Pour récupérer les fichiers et les exploiter sur Power BI desktop, on procède d’abord en ajoutant les données via le cloud « Azure ». Obtenir les données -> Plus.

On choisit « Stockage Blob Azure ».

 On renseigne les informations de connexion concernant notre blob storage (blob storage -> Access keys).

On renseigne la clé (key1), puis se connecter.

 

En cochant sur le container « tweets », on retrouve tous les fichiers blob créés (si rien ne s’affiche cliquez sur le bouton de rafraîchissement en haut à droite).

Puis chargez les en cliquant sur « Charger ».

Vous verrez qu’une table a été créée avec plusieurs champs. Cliquez sur « Modifier les requêtes », à partir du menu Accueil.

Nous retrouvons nos éléments, cependant il est nécessaire de les extraire pour en tirer les informations que l’on a concaténées.

Pour cela, il faut faire clic droit sur la colonne « Content » puis choisir Transformer -> Texte.

 On trouve les éléments mit à la suite et bien séparé de points-virgules. On peut ainsi transformer cette colonne en plusieurs données exploitables. Clic droit sur la colonne « Content » puis Fractionner la colonne -> Par délimiteur.

 On choisit les paramètres ci-dessous :

·        Délimiteur : Point-virgule.

·        Fractionner à : Chaque occurrence du délimiteur.

 On a bien les colonnes correspondantes aux éléments des tweets que l’on a souhaité garder, on peut changer le nom des colonnes pour plus de clarté.

Si une 4ème colonne sans données est créée, il suffit de la supprimer (clic droit sur la colonne, supprimer).

 

Voici les tweets que l’on a enregistré depuis le début du processus. On pourra faire une analyse une fois le volume de données devenu très important.

 

8.     Conclusion

 En suivant ce tutoriel, on retrouve une architecture lambda, d’un côté Power BI desktop avec les données stockées dans un blob storage, de l’autre Power BI Cloud avec les données les plus récentes et en temps réels.

Ainsi on peut choisir des axes d’analyses variés pour représenter l’information et le sens que nos données fournissent.

Cependant, cette architecture peut poser un problème car chaque tweet est stocké deux fois (fichier blob et ligne dans le cloud Power BI) ce qui pourrait s’avérer couteux en stockage avec une volumétrie de données importante.

[Power BI][Azure Analysis Service] Comment importer un modele Power BI dans Azure Analysis Services

De nombreux concepteur de rapports Power BI se sont souvent posé la question :

Comment industrialiser mon rapport et partager mes données avec mes collègues de bureau de manière automatisée.

Mon model est bon, la direction m’a validé les chiffres il ne reste plus qu’a le mettre en production malheureusement il est disponible que dans mon Power BI que j’ai créé, mes collègues ne peuvent pas utiliser ma base pour venir créer leurs rapports ni même agrémenté mes formules DAX avec d’autres formules sans devoir créer de nouveaux modèles.

Cette réflexion reviens à dire : Comment intégrer mon modele Power BI dans une instance Analysis Services en mode Tabulaire de manière automatique.

Réponse : Il existe 2 méthodes :

Méthode 1 : Je crée un nouveau projet Visual studio et je développe ce qui a été réalisé dans Power BI

Méthode 2 : J’importe depuis le portail Azure les données depuis mon fichier Power BI et l’outil va créer automatiquement le modèle tabulaire présent dans le fichier Power BI Desktop.

Dans ce blog je vais vous présenter brièvement la méthode N°2 qui permet d’uploader rapidement un modèle tabulaire issus de Power BI desktop

1

 

Cette option est en mode préview actuellement sur le portail, elle n’est pas encore complètement achevé et donc elle est susceptible de comporter des erreurs.

On sélectionne un fichier Power BI Destktop (on voit que nous pouvons importer des modèles depuis un Datawarehouse ou une SQL database également)

2

 

Pour notre test nous avons sélectionné le fichier pbix de notre choix :

3

 

Il nous importe le modele avec les formules en DAX qui sont incorporé dans notre projet Power BI desktop:

4.jpg

Il ne reste plus qu’a se connecter a ce modèle depuis notre instance Azure Analysis Services.

Les formules en DAX et le code M de transformation des données étant repris  lors de cet import.

Julien PIERRE

Consultant MSBI

[Azure] Optimisation de vos chargement dans Azure Datawarehouse

Contexte :

Suite à la mise en place de données dans un projet Azure chez un client nous avons été confronté à des problèmes de performance lors de l’intégration des données dans notre Azure Datawarehouse

Afin de gagner du temps nous récupérons différentes interfaces sous format Csv que nous transformons en format .parquet

L’intérêt du format parquet est de gagner du temps lors de l’exploitation de ces différentes interfaces car le format parquet permet de structurer les données et de stocker les données de manière pré formaté.

Dans notre cas nous avons souhaité héberger ces données dans un service distribué comme Azure Data Lake.

Ce service est un service distribué qui permet de stocker les fichiers « formatés ». L’intérêt de ce système de stockage est de gagner du temps sur l’interrogation de ces fichiers car nous sommes sur un système distribué.

Lire la suite

[Azure] Installation d’une Gateway DataFactory

Contexte : Dans notre exercice nous essayons de réaliser une copie de données entre des données en local et Azure Data Lake store.
Pour réaliser ce transfert nous allons utiliser le service Azure Data Factory et nous avons besoins de réaliser une Gateway pour sécuriser les données entre notre machine local et notre Azure Data Lake Store.

Lire la suite

//Build 2017 Day1 – Sessions

Pour cette première journée j’ai participé à plusieurs sessions:

1- Bring your desktop apps to UWP and the Windows Store using the Desktop Bridge

Dans cette session on nous a expliqué le but du bridge => Créer un pont entre l’ancien App model de Windows qui existe depuis les premières versions de celui-ci et le nouveau App model qui existe depuis 2011/2012 avec Windows 8.

Avantages:

  • Simplicité
  • Pas d’élévations de droit lors de l’installation/utilisation
  • Installation sûre (qui ne va pas aller modifier les clés de registre par exemple)
  • Offrir la possibilité d’avoir des MAJ automatiques et différentielles
  • Ouverture à la monétisation simple (via le store)
  • ….

Le fonctionnement est assez simple, il faut fournir un MSI à l’outil, celui-ci va le convertir en APPX (Si la conversion ne marche pas, c’est qu’il faut changer du code qui n’est pas supporté (ou pas encore) par le Bridge)

Le Bridge est en constante évolution avec le support de plus en plus d’API: la règle est simple, toutes les API publiques – non cassées – sont ou seront supportées.

Les dernières nouveautés sont:

  • Support du préinstall
  • Objets com
  • Déclaration de règles firewall
  • Support du wack
  • Support des applications sans MSI (un .exe avec des dll)

La version complète d’office qui sera bientôt dans le store utilise ce même Bridge !

 

2- Bot capabilities, patterns and principles

Cette session est orientée sur les patterns qu’il faut/qu’il ne faut pas utiliser pour créer un bot, exemple :

  • A NE PAS FAIRE => un bot avec un seul dialog (1 question) qui utilise 100 LUIS intents (choses que le bot peut faire) avec 100 différents énoncés == 10000 diférentes choses que l’utilisateur peut dire (ET n possibilités non prévues)
  • A Faire => Guider l’utilisateur, avec des questions précises, avec une UI (questions avec des boutons de réponses)

3- Cortana skills development: Get started

Super nouveauté qui ouvre énormément de  possibilités . Malheureusement inutile en France pour l’instant, Cortana skills n’est disponible qu’aux USA et on a pas d’informations d’infos sur la date de disponibilité dans les autres pays.

Cortana skills permet de déployer des skills (l’équivalent d’un bot) directement dans Cortana (PC, téléphone ou autre device qui supporte Cortana)

Un skill c’est une « unité d’intelligence conversationnelle » qui aide les utilisateurs via un service, ou autrement un Bot qui utilise le channel Cortana (et donc l’UI de cortana) pour interagir et fournir de l’information à un utilisateur.

L’authentification avec un compte d’une organisation est possible, la récupération des données de l’utilisateur aussi (par le service/bot)

On a eu droit à deux démos :

  • Commande d’une pizza Domino’s (sans application installée sur le PC)
  • Recherche d’un collègue pour faire du code review (le bot va chercher de l’information avec Microsoft Graph => scénario avec l’authentification)

Ressources dispo ici

4- Snapshot debugging and profiling in Microsoft Azure: Next generation diagnostics for your in-production cloud apps 

Super session qui montre les futures fonctionnalités de Visual Studio/Azure (qui seront complètement ouverts en preview à la fin de l’été).

  • Snapshots

Cette nouvelle fonctionnalité d’Application Insights permet de prendre un snapshot de l’application en prod quand une exception se déclenche via la télémétrie.

On peut aussi via Visual Studio Enterprise avoir des snappoints ( l’équivalent d’un point d’arrêt mais pour faire un snapshot et non pas arrêter l’exécution du code) et des logpoints (qui nous permettent d’insérer des logs sans redéployer l’application ni écrire du code !)

Les snapshots sont téléchargeable et peuvent être rejoués dans Visual studio.

  • Application Insight Profiler

Outil pour analyser et améliorer les applications déployés dans Azure pour plus détails voir https://azure.microsoft.com/en-us/blog/app-insights-app-map-and-profiler/