[BIG] SQLCAT : Big Data – All Abuzz about Hive

Speakers :  Cindy Gross, Dipti Sangani – Niveau : 300 – Durée : 75mn

Ojectif de la session

Comment démocratiser l’accès au Big Data en utilisant nos outils de travail de tous les jours Excel et SQL sans avoir à faire de requête Hive et de comprendre le MapReduce. De comprendre les forces et les lacunes de Hive.

Introduction

Hive s’appuyant sur Hadoop, on commence la session par une overview de l’architecture Hadoop et de ce qu’est Hive.

Big Data par l’exemple

Comment récupérer/analyser les données Hadoop via Hive dans SQL Server ?

La première démo nous montre comment analyser des données Hadoop via Hive dans PowerPivot/Power View.

  • La démo utilise les données du NOAA(données utilisées pour étudier les mouvements démographiques des populations relatif à l’ouragan Sandy).  Un petit lien sympa qui pourra peut-être nous servir pour des cafés BI http://social.technet.microsoft.com/wiki/contents/articles/14320.processing-noaa-flash-flood-guidance-data-in-sql-server.aspx
  • La démo s’effectue avec PowerPivot et PowerView sous Excel 2013 :
    • On crée une connexion ODBC Hive sur notre source de données Hadoop
    • A partir des données récupérées sous Power Pivot, on monte un rapport Power View permettant d’analyser les démographiques d’évacuation des personnes sur les différents états ayant subis le passage de l’ouragan Sandy

On se rend compte qu’à travers le couple Hive/ PowerPivot, qu’on peut analyser très rapidement des données Hadoop.

L’intérêt de passer par Power Pivot est de récupérer les data issues de Hive est de le stocker en mémoire, ce qui est beaucoup plus rapide que d’avoir à requêter constamment les données Hadoop en direct

On continue par quelques exemples de requête Hadoop en Commande Line

  • Haddop fs -lst  <source> :  permet de récupérer la liste des fichier de données
  • Haddop fs -put <dest> <source> : permet de récupérer les fichiers de données en local
  • Hadoop fs -tail …  : permet de récupérer les derniers lignes de données créées

Tout cela pour nous montrer la simplicité d’utilisation sous SQL Server avec l’utilisation des tables externes.

Pour résumer, sous SqlServer, pour récupérer des données Hadoop vous n’avez qu’une seule syntaxe à connaître, celle vue lors de la keynote :

CREATE EXTERNAL TABLE <nom> ( <ol1 typ 1, …. , Col n Type n)

COMMENT <commentaire>

ROW FORMAT DELIMITED

FIELDS TERMINATED by ‘\t’

STORED AS TEXTFILE

LOCATION ‘/user/demo/census’

PARTITION BY (<partition key>)

CLUSTERED BY (<>) INTO  #BUCKET;

On peut aussi passer par des tables interne.

On fait un rapide comparatif sur l’usage des tables internes et externes…

Informations intéressantes :

  • il est possible de partitionner une table externe avec le mot clé PARTITION BY. Mais attention, les performances peut être ralenties de façon significative sur le clé de partitionnement n’est pas référencée dans la requête.
  • Les données peuvent aussi est compressées en modifiant le mode de stockage
  • Nous continuons ensuite sur quelques considérations de requêtage :
    • l’ordre des colonnes peut avoir une incidence sur les perfs.
    • Les order by peut-être très couteux car ils sont effectués en dernier lieu sur l’ensemble du dataset

Conclusion

Une session intéressante, mais qui a perdu un peu de son charme suite à la démo faite lors de Key Note sur Hadoop.

Frédéric

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s