Démystification du BIG DATA
La démystification du Big Data
- Mercredi 12 février : 15h15-16h00
- Salle : Amphi Bordeaux
- Audiences : Professionnels de l’IT, Développeurs
- Thèmes : Développement, Infrastructure des systèmes d’information
- Niveau : Intermédiaire (200)
- Intervenant : Benjamin Guinebertière (Microsoft) , François Simoës (v-traffic), Romain Casteres DCube (Microsoft Partner),
BIG DATA est un flux d’information dénormalisé provenant de plusieurs flux de données (base de données, réseaux sociaux, fichiers textes …).
Ces données peuvent suivre un schéma relationnel ou non relationnel.
L’objectif de la démystification est de pouvoir utiliser l’ensemble de ces flux de données provenant d’une multitude de sources pour en sortir des indicateurs et des rapports.
Durant cette session l’architecture utilisée pour réaliser ces indicateurs est la suivante :
Source : http://www.cibis.org.je/
Les étapes qui ont permis de réaliser les indicateurs présentés sont les suivantes :
- Création de cluster sur HD insight (utilisant des connecteurs hadoop pour se connecter aux différentes sources de données)
- Création de table externe à partir de Hive pour prémâcher les données et les structurer
- Suppression des nœuds
- Utilisation de la chaine BI
- SSIS / POWER QUERY pour intégrer les données
- Création du DWH
- OLAP / POWER PIVOT
- SSRS / POWER BI
Pour aller plus loin : http://blog.octo.com/hdinsight-le-big-data-selon-microsoft/
Vidéo : https://www.youtube.com/watch?feature=player_embedded&v=9-64tW56LFA
Slides : http://fr.slideshare.net/Developpeurs/la-dmystification-du-big-data
Les quelques scripts de ma présentation : http://www.pulsweb.fr/la-demystification-du-big-data/