[PASS SUMMIT 2013] CAT : From question to insight with HDInsight and BI

Speaker : Cindy Gross, Microsoft

Niveau de la session : 400

L’itinéraire de la session est le suivant :

On part d’une question : comment améliorer les SLA autour de SQL Server ?

On s’intéresse au Design d’une solution possible dont les enjeux majeurs sont les suivant :

  • La capacité à avoir une bonne bande passante
  • La mise en place de Scale Out
  • La réduction des temps de réponse

La solution : Windows Azure SQL Data Services

 

Si maintenant les données correspondent à des « Big Data », la solution est HD Insight

HD Insight est l’implémentation de Hadoop, framework pour manipuler du « Big Data », coté Microsoft et dans Windows Azure.

 

Pour la couche stockage on utilise HDFS (Hadoop Distributed File System) et WASB (Windows Azure storage Blob)

Les commandes Hadoop Map & Reduce  sont overridées et reste transparentes pour l’utilisateur.

Pour le Data cleansing on utilise une interface et un langage de script appelée « Pig »

Pour créer des tables structurées, les partitionner et les requêter on  utilise une interface et un langage de script appelé « Hive »

Ces tables sont créées dans une zone de staging appelé HCatalog

 

Une fois les données stockées dans le HCatalog pour les déplacer dans SQL Server on utilise une interface appelé Sqoop.

Pour la partie Ordonnancement de batch il existe une interface et un langage de script  appelé Oozie  qui ressemble aux commandes xmla.

Pour se  connecter notamment depuis  Excel au « Big Data » on utilise un connecteur ODBC Hive.

Une fois les données exposé on peut faire de la BI sur du « Big Data »

Des démonstrations ont été faites :

  • Unstructured log stocké dans Azure
  • Script Pig pour faire du nettoyage dessus
  • Hive script pour créer une table structurée et partitionnée et requêter les données

Ensuite on présente toute la partie déploiement et configuration dans WA, puis la création de cluster

Enfin, on fini par présenter WebHCat (Templeton), une interface pour la programmation autour de HDInsight avec des langages .NET, LINQ, Powershell

Cela s’appuie sur l’API REST.

Conclusion :

Session très bien menée.

HD insight est une plateforme qui a l’air inachevée, c’est probablement une solution transitoire qui est née d’une solution open source appelée Hadoop,  qui a été exploitée et simplifiée par une société appelé HortonWorks mais qui semble converger vers cette solution Microsoft qui masquera probablement toute la complexité de Hadoop et HortonWorks.

Sébastien Madar

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s