[PASS SUMMIT 2013] Demystifying Big Data for BI Professionals The Essentials

Speaker : Jen Stirrup, Copper, Blue Consulting & Allan Mitchell, Copper,  Blue Consulting

Niveau de la session : 400

Objectif de la session : Why and What Big Data

Agenda :

  • What is Big Data
  • What Microsoft is doing with Big Data

En fait la session est en 2 parties : concepts généraux puis demos (Pig, SQLOOP, Hive).

Elle aborde d’abord des concepts généraux sur le Big Data

  • Définition du big data
  • différentes sources possibles (Social Network, …)
  • Notion de données non structurées ([un] [semi] structured)
  • Big Data V (Volume, Velocity, Variety, Veracity, Value)
  • Données dont on ne sait pas qu’elles n’existe pas (unknown unknowns)
  • Croissance de la donnée est exponentielle
  • etc.

Après les concepts généraux, l’écosystème de HDInsight est abordé un par un (intéressant) :

  • Windows Azure (pour le stockage, le speaker Allan fini par indiquer que Amazone répond mieux au besoin car on peut réserver de l’infra juste pendant le temps d’exécution des processus)
  • Distributed Storage (HDFS)
  • Distributed Processing (Map Reduce) : en fait Map c’est Selectionner, Reduce c’est aggréger (encore des termes nouveaux de Marketing)
  • Le scripting : le langage Pig (la démo est top le langage semble très puissant et concis : ça impressionne = pourquoi ne pas l’utiliser via en complément avec SSIS si on peut à terme)
  • Le Query (avec Hive)
  • L’intégration des données notamment avec SQOOP (passer d’un DWH hadoop a un DWH SQL , valable dans les 2 sens)
  • Hadoop (historique puis ce qui est fourni avec et ce qui lui manque : flume, hue, Ambari avec Gamblia, Hbase et Azure qui évolue fréquemment)

Conclusion :

Une bonne session (longue) de vulgarisation pour le Big Data avec des démos techniques (on y voit les requêtes des langages Pig, SQOOP, …) .

La session n’est pas orientée entièrement Microsoft puisqu’on y voit des logiciels tiers (de Hortonworks pour Hadoop).

Bref si vous voulez savoir ce qu’est le Big Data : c’est un bon début.

A noter q’une session (à venir du 18/10) aborde un cas concret (on espère) : From Data to Insight : Views from Microsoft Finance = le Big Data utilisé par le service financier de Microsoft.

Pascal Rouzé

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s