Contexte
Nous travaillons avec beaucoup de fichiers Excel, mais n’avons pas forcément accès à un ETL de type SSIS. Ne vous inquiétez pas, Microsoft a pensé à cela et travaille actuellement sur une version finale de l’add-in Excel (2010 SP1 et 2013) permettant d’effectuer des tâches d’intégration basiques et courantes. Cet article a pour but de vous introduire le fonctionnement de cette preview add-in gratuit.
Chargement d’un fichier Excel
Une fois l’add-in Excel installé, celui-ci apparaitra sur la droite dans les onglets de navigation.
Data Explorer permet le chargement de données de sources hétéroclites (fichier plat, Excel, base de données, pages web, … et même Facebook). Nous allons nous intéresser au chargement d’un fichier Excel, basé sur une extraction des produits de la base Adventureworks.
Une fois le fichier Excel sélectionné, la fenêtre nous permet de choisir entre les différentes feuilles Excel, mais il offre aussi la possibilité de renommer les colonnes, cacher certaines colonnes, filtrer les données à l’import, supprimer les doublons, … Voyons comment cela fonctionne.
Les colonnes de mon fichier Excel n’étant pas reconnues automatiquement comme « header » il faut spécifier que la première ligne correspond au nom de mes colonnes via l’icône du coin gauche du tableau.
Pour ne choisir que les colonnes qui sont le plus pertinent pour l’analyse souhaitée, il suffit de sélectionner les colonnes en maintenant la touche CTRL appuyée et de faire « Hide other columns ».
Certains prix n’étant pas renseignés, je vais donc exclure l’import de ces données en filtrant la colonne de la même manière que dans Excel.
Sur le côté droit ( volet « Steps »), un historique de la modification de l’import du fichier Excel est disponible. Il est par ailleurs possible de modifier les options de certaines options mais aussi de revenir à un état antérieur d’un simple clic.
Chargement de données depuis une base de donnée SQL Server
Nous allons charger des données depuis un autre type de source de données (SQL Server), les données liée à la table de fait « InternetSales » :
Créons une colonne dérivée permettant de connaitre la marge brute sur le produit vendu :
« Merge » des deux sources de données chargées dans Excel via Data Explorer
Nous avons donc deux sources données dans Excel, mais peut-on les faire communiquer entre elles ?
Simplement avec un simple merge :
Dans la fenêtre, il faut sélectionner les feuilles Excel que l’on veut joindre et spécifier sur quelles colonnes cette jointure sera faite (colonnes en surbrillance). On remarquera qu’une estimation du nombre de lignes correspondantes est disponible au bas de la fenêtre.
On remarque qu’une nouvelle colonne est disponible à droite avec écrit Table, faisant ainsi référence à la feuille Excel ajoutée lors de la jointure. Il faut spécifier les colonnes à ajouter en cliquant sur le symbole à droite du nom de la colonne et choisir les colonnes à rajouter.
Nous allons maintenant calculer la marge moyenne et totale par produit en utilisant la fonction group by.
Utilisation dans Excel
Lorsque ces données sont dans Excel on peut avoir accès à toutes les fonctions habituelles d’Excel, mais aussi imaginer des utilisations plus poussées type Powerpivot et Power View via le lien « Load to Data Model ». On peut aussi rafraichir les données de façon simple sans avoir à recréer tout le cheminement.
Conclusion
Date Explorer est donc un mini-ETL assez simple d’utilisation mais qui reste limité. Cela devrait néanmoins suffire pour un certain nombre de cas d’utilisation. La version finale n’est pas encore annoncée, celle-ci aura, je n’en doute pas de nouvelles fonctionnalités.