[JSS 2013] Session : HD Insight

Speaker : Benjamin Guinebertière

Le speaker démarre sa session en présentant sa société v-traffic  http://www.v-traffic.com/  filiale du groupe info trafic.

Cette société est chargée de collecter les données publiques et privées qu’elle achète aux sociétés comme Tom-tom sur la géo-localisation des voitures en temps réel afin de recouper le tout et d’informer les automobilistes sur la disponibilité des axes de circulation dans toute la France et auquel cas proposer un itinéraire de substitution, ceci dans un délai relativement court via les médias suivants : web, radio, application Windows Phone.

Cas pratique :

L’entreprise V-Traffic souhaite mensuellement fournir à ses dirigeants un rapport détaillé  sur la qualité et la véracité des données mises à disposition des utilisateurs de v-traffic.
Et dans un second temps, débattrenégocier et réajuster l’achat des données le mois suivant.

Qu’est ce que HD Insight ?

HD Insight est le nom du projet Hadoop qui a l’origine est un projet linux du nom d’Hadoop Apache et qui a été porté sur la plateforme Windows (Win Server 2008) et mise à disposition par Hortonworks Data Platform.
Ce service permet de gérer d’importants volumes données (BIG Data) sur la plateforme Windows Azure et s’exécute dans les datacenters de Microsoft basé sur :

  • le système HDFS : Hadoop File System
  • MapReduce est le modèle de programmation utilisé pour traiter de gros volumes de données.

L’utilité d’HD Insight dans Windows Azure réside dans le fait de pouvoir créer un accès rapide, sécurisé et temporaire afin d’y réaliser vos traitements et ensuite clôturer et effacer le cluster (location temporaire d’un cluster).

Lors de la création, il vous sera demandé un nom de cluster, le nombre nœuds.

Dans la rubrique HDInsihgt, Créer un cluster > Créer des noeuds > Sélectionner la version (2.1) > Choisir un username.

Démo :

Cette opération de création de cluster peut être scriptée via Windows Azure Powershell (Similaire au command Shell sous Unix).

La suite de la démo nous montre comment utiliser les langages de script que sont Pig (Développé par Twitter) et Hive (Développé par Facebook) qui vont pointer dans un répertoire dans lequel se trouve des fichiers de logs et qui recensent la position des automobilistes, la vitesse moyenne, les ralentissements, les chemins de substitutions empruntés (boite noire des taxis, GPS).

Une surcouche en python est utilisée afin de déterminer la position exacte des voitures en recherchant dans les 36 000 polygones de la carte de France et identifier leur position.
Ce calcul est gourmant en performance. C’est pourquoi il faut agréger et regrouper les données géographiques en rectangle plus larges afin de cibler les zones concernées et limiter la recherche à la zone sélectionnée.

Ceci dans le but d’optimiser les temps de traitements des fichiers de logs consommés par la plateforme.

En résumé, les données sont collectées dans des tables sous Hive puis agrégées (requête d’agrégation) dans une base SQL Server  afin de les restituer via un portail SharePoint (RS, Power Pivot, Power BI).

Un autre exemple d’utilisation citée par le speaker : Facebook utilise les logs des jeux qui sont disponibles (analyse du temps passé par les gamers afin d’identifier les tricheurs).

Conclusion :

La session fut très enrichissante pour une première approche. Il faut la mettre en relation avec la session sur le Big Data (de Romain Casteres)

Elle a le mérite de nous expliquer par un cas concret les possibilités de la plateforme HD Insight et de manière générale sur le « Big Data » qui jusqu’alors me semblait relativement floue.

Luiggi – Consultant décisionnel MCNEXT

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s