Speaker : Jen Stirrup, Copper, Blue Consulting & Allan Mitchell, Copper, Blue Consulting
Niveau de la session : 400
Objectif de la session : Why and What Big Data
Agenda :
- What is Big Data
- What Microsoft is doing with Big Data
En fait la session est en 2 parties : concepts généraux puis demos (Pig, SQLOOP, Hive).
Elle aborde d’abord des concepts généraux sur le Big Data
- Définition du big data
- différentes sources possibles (Social Network, …)
- Notion de données non structurées ([un] [semi] structured)
- Big Data V (Volume, Velocity, Variety, Veracity, Value)
- Données dont on ne sait pas qu’elles n’existe pas (unknown unknowns)
- Croissance de la donnée est exponentielle
- etc.
Après les concepts généraux, l’écosystème de HDInsight est abordé un par un (intéressant) :
- Windows Azure (pour le stockage, le speaker Allan fini par indiquer que Amazone répond mieux au besoin car on peut réserver de l’infra juste pendant le temps d’exécution des processus)
- Distributed Storage (HDFS)
- Distributed Processing (Map Reduce) : en fait Map c’est Selectionner, Reduce c’est aggréger (encore des termes nouveaux de Marketing)
- Le scripting : le langage Pig (la démo est top le langage semble très puissant et concis : ça impressionne = pourquoi ne pas l’utiliser via en complément avec SSIS si on peut à terme)
- Le Query (avec Hive)
- L’intégration des données notamment avec SQOOP (passer d’un DWH hadoop a un DWH SQL , valable dans les 2 sens)
- Hadoop (historique puis ce qui est fourni avec et ce qui lui manque : flume, hue, Ambari avec Gamblia, Hbase et Azure qui évolue fréquemment)
Conclusion :
Une bonne session (longue) de vulgarisation pour le Big Data avec des démos techniques (on y voit les requêtes des langages Pig, SQOOP, …) .
La session n’est pas orientée entièrement Microsoft puisqu’on y voit des logiciels tiers (de Hortonworks pour Hadoop).
Bref si vous voulez savoir ce qu’est le Big Data : c’est un bon début.
A noter q’une session (à venir du 18/10) aborde un cas concret (on espère) : From Data to Insight : Views from Microsoft Finance = le Big Data utilisé par le service financier de Microsoft.
Pascal Rouzé