Speaker : Andrew J.Brust – Niveau : 300
Description: Qu’est-ce que le Big Data et comment faire de la Business Intelligence sur du « Big Data »
Qu’est-ce que Big Data ?
- Volumétrie : 100s ou plus de TeraBits (TB)
- Données : Financières, web logs, réseaux sociaux.., type non structurées
- Technologie : Parallel processing, PDW, Hadoop, NoSQL ….
(Trop de volume pour que les « Big Data » soient stockées dans des bases OLTP, on analyse des interactions plutôt qu’effectuer des transactions)
- 3V : Volume, Velocité, Variété
Qu’est-ce que MapReduce ?
- Map et Reduce sont 2 fonctions Java
- Chaine : Files Input–> Mapper (démultiplexeur de données/fichiers dans plusieurs noeuds)–>Output–>Input–> Reducer (agrégateur de ligne)
(Mapper s’exécute en parallèle)
Qu’est que DFS (Distributed File System) ?
Réplication de données, pas de partage
Utilise des nœuds dans un cluster
–> Hadoop ? = MapReduce +HDFS (Hadoop Distributed File System)
Qu’est-ce que le NoSQL ?
- Bases non relationnelles
- Langage objet de requetâge non SQL (Java, Python, C#..)
4 types :
- Key-Value Store
- Document store
- Wide Column
- Graph Databases
Qu’est-ce que Hbase ?
C’est une implémentation des bases de type Wide Column store
Composant de la Stack Hadoop :
- Hadoop (MapReduce, HDFS)
- Hbase : Base de données non relationnel
- Hive : Interpréteur du langage SQL : SQL-Like « DWH » system
- Langage de transformation de données
- Sqood (SQL 2 for Hadoop)
- Flume : Log integration
- Mahout : Data Mining
La solution Big Data Microsoft :
- Microsoft HDInsight est un projet développé en collaboration avec Hortonworks pour inclure leur HDP (Hortonworks Data Platform)
- Utilise le moteur PolyBase
- Pour Azure et Windows Server
- Inclus des Drivers ODBC pour Hive (Un Add-in Excel l’utilise)
- JavaScript MapReduce Framework
Avant MS, Hadoop est utilisé par IBM, MapR, Cloudera…
Framework de développement dans VS (Visual Studio) /.NET qui intègre tous ces composants et fonctionnalités :
- MaperReduce code pour C#
- MRLib
- Linq to Hive
- Odbc client et Hive ODBC Driver
- Déploiement
- Débogage
Le driver ODBC Hive compatible avec :
- Excel et PowerPivot
- SSAS Tabular mais pas SSAS Multi dimensionnel pour le moment
- SQL Server DB Engine
Sébastien