Démystification du BIG DATA

Démystification du BIG DATA

 

La démystification du Big Data

  • Mercredi 12 février : 15h15-16h00
  • Salle : Amphi Bordeaux
  • Audiences : Professionnels de l’IT, Développeurs
  • Thèmes : Développement, Infrastructure des systèmes d’information
  • Niveau : Intermédiaire (200)
  • Intervenant : Benjamin Guinebertière (Microsoft) , François Simoës (v-traffic), Romain Casteres DCube (Microsoft Partner),

BIG DATA est un flux d’information dénormalisé provenant de plusieurs flux de données (base de données, réseaux sociaux,  fichiers textes …).

Ces données peuvent suivre un schéma relationnel ou non relationnel.

L’objectif de la démystification est de pouvoir utiliser l’ensemble de ces flux de données provenant d’une multitude de sources pour en sortir des indicateurs et des rapports.

Durant cette session l’architecture utilisée pour réaliser ces indicateurs est la suivante :

demystification_du_big_data

Source : http://www.cibis.org.je/

Les étapes qui ont permis de réaliser les indicateurs présentés sont les suivantes :

  1. Création de cluster sur HD insight (utilisant des connecteurs hadoop pour se connecter aux différentes sources de données)
  2. Création de table externe à partir de Hive pour prémâcher les données et les structurer
  3. Suppression des nœuds
  4. Utilisation de la chaine BI
    1. SSIS / POWER QUERY pour intégrer les données
    2. Création du DWH
    3. OLAP / POWER  PIVOT
    4. SSRS  / POWER BI

 

 

Pour aller plus loin : http://blog.octo.com/hdinsight-le-big-data-selon-microsoft/

Vidéo : https://www.youtube.com/watch?feature=player_embedded&v=9-64tW56LFA

Slides : http://fr.slideshare.net/Developpeurs/la-dmystification-du-big-data

 

 

 

[JSS 2013] Session : HD Insight

Speaker : Benjamin Guinebertière

Le speaker démarre sa session en présentant sa société v-traffic  http://www.v-traffic.com/  filiale du groupe info trafic.

Cette société est chargée de collecter les données publiques et privées qu’elle achète aux sociétés comme Tom-tom sur la géo-localisation des voitures en temps réel afin de recouper le tout et d’informer les automobilistes sur la disponibilité des axes de circulation dans toute la France et auquel cas proposer un itinéraire de substitution, ceci dans un délai relativement court via les médias suivants : web, radio, application Windows Phone.

Cas pratique :

L’entreprise V-Traffic souhaite mensuellement fournir à ses dirigeants un rapport détaillé  sur la qualité et la véracité des données mises à disposition des utilisateurs de v-traffic.
Et dans un second temps, débattrenégocier et réajuster l’achat des données le mois suivant.

Qu’est ce que HD Insight ?

HD Insight est le nom du projet Hadoop qui a l’origine est un projet linux du nom d’Hadoop Apache et qui a été porté sur la plateforme Windows (Win Server 2008) et mise à disposition par Hortonworks Data Platform.
Ce service permet de gérer d’importants volumes données (BIG Data) sur la plateforme Windows Azure et s’exécute dans les datacenters de Microsoft basé sur :

  • le système HDFS : Hadoop File System
  • MapReduce est le modèle de programmation utilisé pour traiter de gros volumes de données.

L’utilité d’HD Insight dans Windows Azure réside dans le fait de pouvoir créer un accès rapide, sécurisé et temporaire afin d’y réaliser vos traitements et ensuite clôturer et effacer le cluster (location temporaire d’un cluster).

Lors de la création, il vous sera demandé un nom de cluster, le nombre nœuds.

Dans la rubrique HDInsihgt, Créer un cluster > Créer des noeuds > Sélectionner la version (2.1) > Choisir un username.

Démo :

Cette opération de création de cluster peut être scriptée via Windows Azure Powershell (Similaire au command Shell sous Unix).

La suite de la démo nous montre comment utiliser les langages de script que sont Pig (Développé par Twitter) et Hive (Développé par Facebook) qui vont pointer dans un répertoire dans lequel se trouve des fichiers de logs et qui recensent la position des automobilistes, la vitesse moyenne, les ralentissements, les chemins de substitutions empruntés (boite noire des taxis, GPS).

Une surcouche en python est utilisée afin de déterminer la position exacte des voitures en recherchant dans les 36 000 polygones de la carte de France et identifier leur position.
Ce calcul est gourmant en performance. C’est pourquoi il faut agréger et regrouper les données géographiques en rectangle plus larges afin de cibler les zones concernées et limiter la recherche à la zone sélectionnée.

Ceci dans le but d’optimiser les temps de traitements des fichiers de logs consommés par la plateforme.

En résumé, les données sont collectées dans des tables sous Hive puis agrégées (requête d’agrégation) dans une base SQL Server  afin de les restituer via un portail SharePoint (RS, Power Pivot, Power BI).

Un autre exemple d’utilisation citée par le speaker : Facebook utilise les logs des jeux qui sont disponibles (analyse du temps passé par les gamers afin d’identifier les tricheurs).

Conclusion :

La session fut très enrichissante pour une première approche. Il faut la mettre en relation avec la session sur le Big Data (de Romain Casteres)

Elle a le mérite de nous expliquer par un cas concret les possibilités de la plateforme HD Insight et de manière générale sur le « Big Data » qui jusqu’alors me semblait relativement floue.

Luiggi – Consultant décisionnel MCNEXT