[PASS SUMMIT 2013] CAT : From question to insight with HDInsight and BI

Speaker : Cindy Gross, Microsoft

Niveau de la session : 400

L’itinéraire de la session est le suivant :

On part d’une question : comment améliorer les SLA autour de SQL Server ?

On s’intéresse au Design d’une solution possible dont les enjeux majeurs sont les suivant :

  • La capacité à avoir une bonne bande passante
  • La mise en place de Scale Out
  • La réduction des temps de réponse

La solution : Windows Azure SQL Data Services

 

Si maintenant les données correspondent à des « Big Data », la solution est HD Insight

HD Insight est l’implémentation de Hadoop, framework pour manipuler du « Big Data », coté Microsoft et dans Windows Azure.

 

Pour la couche stockage on utilise HDFS (Hadoop Distributed File System) et WASB (Windows Azure storage Blob)

Les commandes Hadoop Map & Reduce  sont overridées et reste transparentes pour l’utilisateur.

Pour le Data cleansing on utilise une interface et un langage de script appelée « Pig »

Pour créer des tables structurées, les partitionner et les requêter on  utilise une interface et un langage de script appelé « Hive »

Ces tables sont créées dans une zone de staging appelé HCatalog

 

Une fois les données stockées dans le HCatalog pour les déplacer dans SQL Server on utilise une interface appelé Sqoop.

Pour la partie Ordonnancement de batch il existe une interface et un langage de script  appelé Oozie  qui ressemble aux commandes xmla.

Pour se  connecter notamment depuis  Excel au « Big Data » on utilise un connecteur ODBC Hive.

Une fois les données exposé on peut faire de la BI sur du « Big Data »

Des démonstrations ont été faites :

  • Unstructured log stocké dans Azure
  • Script Pig pour faire du nettoyage dessus
  • Hive script pour créer une table structurée et partitionnée et requêter les données

Ensuite on présente toute la partie déploiement et configuration dans WA, puis la création de cluster

Enfin, on fini par présenter WebHCat (Templeton), une interface pour la programmation autour de HDInsight avec des langages .NET, LINQ, Powershell

Cela s’appuie sur l’API REST.

Conclusion :

Session très bien menée.

HD insight est une plateforme qui a l’air inachevée, c’est probablement une solution transitoire qui est née d’une solution open source appelée Hadoop,  qui a été exploitée et simplifiée par une société appelé HortonWorks mais qui semble converger vers cette solution Microsoft qui masquera probablement toute la complexité de Hadoop et HortonWorks.

Sébastien Madar

[PASS SUMMIT 2013] Visualize your Big Data with HDInsight, Power View and Excel

Speaker : Jen Stirrup, Copper, Blue Consulting

Niveau de la session : 300

Agenda :

  • Data visualisation background
  • Visualising your data
  • Your big data : toolkit  Power View  et Power Map

Data visualisation background + Visualising your data :

Jen insiste sur l’intérêt de l’aspect visual des données (citations, …) puis sur le déluge du volume des données, les data unknown unknows.

Elle présente les données de températures associées aux décollages de Challenger (Roben report by NASA), puis des données statistiques Anscombet’s Quartet (mean, var , regression linéaire) puis graph associés (plus lisible selon Jen) :

Visualiser via des tables de données n’est pas tjs facile.

Elle parle des risques du Big Data : quelle techno, quel budget, comment visualiser les données, risques sur les données (20 000 hommes enceinte en UK)…

Comment visualiser les données :

Data First : penser format tabulaire (données catégorisées ou triées) ou spatial

Etapes : preatteattentive processing, visual integration , cognitive integration

Suggestion de Perceptual Pattern = conseils (size, color, shape, format 2d, association des couleurs/quantités/ordre) … bref on parle de mise en forme, graphisme (ça c’est pour Plaza-design), quel rapport avec le big data (c’est valable quel que soit le volume de données)

Information seeking mantra : resumer puis zoomer et filtrer puis données des détails à la demande

Visualising your data :

Self Service + Insights + Actions

Présentation de quand utiliser Power View (répondre à des questions : adhoc query et visualisation) et quand utiliser power map (mapping + exploring + interagir : data you want about where)

Your big data : toolkit  Power View  et Power Map :

Démo :

(dans l’ordre voici le déroulement en vrac de la démo)

  • Utilisation de Hive + HDInsight (cluster via Windows Azure)
  • HDInsight = Microsoft distribution de Hadoop (c’est en preview actuellement) mais Jen montre arrête la demo de HDInsight (qui n’a même pas commencée)
  • Utilisation de la version hors Microsoft de Hadoop (Hortonworks Sandbox : free  et interface mieux que dans HDInsight), l’utilisation de hue pour créer un requête (create table : syntaxe proche du T-SQL)

en important d’abord des données stockées sous HDFS puis le chargement des données dans une partition (non non c’est pas du T-SQL mais c’est très proche : on utilise l’entrepôt de Hadoop)

  • Utilisation de Excel (other sources + odbc connection to hortonworks sandbox : le dsn était tout prêt pour la démo), après Jen  c’est comme d’habitude on peut accéder à la table Excel via PowerPivot …
  • Comment récupérer dans une table Excel des données publiques (on line search), relier la donnée à PowerPivot et ajouter du DAX et utiliser la police windings dans un slicer pour afficher des smileys (lettres J ou K)
  • Démo finale avec Power View

Conclusion :

La première partie de la présentation (Data visualisation background et Visualising your data) est trop longue (1 heure) et présente un intérêt modéré (pas d’utilisation d’outils) : hors sujet ?

La deuxième partie (démo) est tout petit peu plus intéressante (si vous voulez afficher des smileys dans des slicers dans Excel) mais en fin de compte on y apprend pas grand-chose, la session précédente de Jen sur le Big Data était mieux. Une session ou a presque rien vu sur du big data.

Pascal Rouzé

[PASS SUMMIT 2013] Demystifying Big Data for BI Professionals The Essentials

Speaker : Jen Stirrup, Copper, Blue Consulting & Allan Mitchell, Copper,  Blue Consulting

Niveau de la session : 400

Objectif de la session : Why and What Big Data

Agenda :

  • What is Big Data
  • What Microsoft is doing with Big Data

En fait la session est en 2 parties : concepts généraux puis demos (Pig, SQLOOP, Hive).

Elle aborde d’abord des concepts généraux sur le Big Data

  • Définition du big data
  • différentes sources possibles (Social Network, …)
  • Notion de données non structurées ([un] [semi] structured)
  • Big Data V (Volume, Velocity, Variety, Veracity, Value)
  • Données dont on ne sait pas qu’elles n’existe pas (unknown unknowns)
  • Croissance de la donnée est exponentielle
  • etc.

Après les concepts généraux, l’écosystème de HDInsight est abordé un par un (intéressant) :

  • Windows Azure (pour le stockage, le speaker Allan fini par indiquer que Amazone répond mieux au besoin car on peut réserver de l’infra juste pendant le temps d’exécution des processus)
  • Distributed Storage (HDFS)
  • Distributed Processing (Map Reduce) : en fait Map c’est Selectionner, Reduce c’est aggréger (encore des termes nouveaux de Marketing)
  • Le scripting : le langage Pig (la démo est top le langage semble très puissant et concis : ça impressionne = pourquoi ne pas l’utiliser via en complément avec SSIS si on peut à terme)
  • Le Query (avec Hive)
  • L’intégration des données notamment avec SQOOP (passer d’un DWH hadoop a un DWH SQL , valable dans les 2 sens)
  • Hadoop (historique puis ce qui est fourni avec et ce qui lui manque : flume, hue, Ambari avec Gamblia, Hbase et Azure qui évolue fréquemment)

Conclusion :

Une bonne session (longue) de vulgarisation pour le Big Data avec des démos techniques (on y voit les requêtes des langages Pig, SQOOP, …) .

La session n’est pas orientée entièrement Microsoft puisqu’on y voit des logiciels tiers (de Hortonworks pour Hadoop).

Bref si vous voulez savoir ce qu’est le Big Data : c’est un bon début.

A noter q’une session (à venir du 18/10) aborde un cas concret (on espère) : From Data to Insight : Views from Microsoft Finance = le Big Data utilisé par le service financier de Microsoft.

Pascal Rouzé

[PASS SUMMIT 2013] Enriching Big Data for Analysis

Speakers : Lara Rubbelke – Technical Architect, Microsoft & Adam Jorgensen – President, Pragmatic Works Consulting

Best practice de Design et archi pour utiliser HDinsight : interface MS qui simplifie Hadoop pour accéder a du Big Data.

Dans le monde :

  • 20% des données sont structurées
  • 80% semi/unstructured

Type de données :

  • Click Stream
  • Social
  • Géolocalisation
  • Logs

Je vous présente un peu d’architecture dans les photos suivantes :

1-How-it-fits-togetherPhoto : Source PASS SUMMIT 2013

2-Hadoop-101

Photo : Source PASS SUMMIT 2013

HDFS : Hadoop Distributed File System :

Réplication de données, pas de partage

Utilise des nœuds dans un cluster

3-HDInsight-architecturePhoto : Source PASS SUMMIT 2013

4-Storage-infrastructurePhoto : Source PASS SUMMIT 2013

5-Storage-infrastructure_2Photo : Source PASS SUMMIT 2013

Map et Reduce sont 2 fonctions Java

Chaine : Files Input–> Mapper (démultiplexeur de données/fichiers dans plusieurs noeuds)–>Output–>Input–> Reducer (agrégateur de ligne)

(Mapper s’exécute en parallèle)

Le mouvement des données dans le cloud :

Il y a 80 % d’espace disque économisé grâce a la compression

Il y a moins de ressources réseau consommées.

Pour le transport il y a plusieurs codecs de compression:

Le Codec par défaut dans HDinsight est DEFLATE

6-Compression-codecsPhoto : Source PASS SUMMIT 2013

Pour copier les données dans le cloud, il existe plusieurs solutions :

Solution MS :

  • Utilitaire AZCopy
  • IHM
  • Ligne de commande (CLI)

Outils tiers :

  • Aspera
  • Attunity CloudBeam

La préparation des données se fait avec la couche Hive qui interprète des commandes comme CREATE TABLE :

7-Data-Preparation-with-hivePhoto : Source PASS SUMMIT 2013

Il y a également des commandes qui permettent de mettre en place des partitions.

Il existe aussi un langage pour la préparation des données appelé Apache Pig.

Consommation et analyse des données

8-Scale-for-everyone-why-do-we-need-Analyses-ServicesPhoto : Source PASS SUMMIT 2013

Un Driver ODBC peut être téléchargé pour accéder aux données.

Pour accéder aux données depuis SSAS : il faut créer un linked server sur le connecteur ODBC de HDInsight.

Sébastien Madar