[BIG] BI & Big Data

Speaker : Andrew J.Brust – Niveau : 300

Description: Qu’est-ce que le Big Data et comment faire de la Business Intelligence sur du « Big Data »

Qu’est-ce que Big Data ?

  • Volumétrie : 100s ou plus de TeraBits (TB)
  • Données : Financières, web logs, réseaux sociaux.., type non structurées
  • Technologie : Parallel processing, PDW, Hadoop, NoSQL ….

(Trop de volume pour que les « Big Data » soient stockées dans des bases OLTP, on analyse des interactions plutôt qu’effectuer des transactions)

  • 3V : Volume, Velocité, Variété

Qu’est-ce que MapReduce ?

  • Map et Reduce sont 2 fonctions Java
  • Chaine : Files Input–> Mapper (démultiplexeur de données/fichiers dans plusieurs noeuds)–>Output–>Input–> Reducer (agrégateur de ligne)

(Mapper s’exécute en parallèle)

Qu’est que DFS (Distributed File System) ?

Réplication de données, pas de partage

Utilise des nœuds dans un cluster

–> Hadoop ? = MapReduce +HDFS (Hadoop Distributed File System)

Qu’est-ce que le NoSQL ?

  • Bases non relationnelles
  • Langage objet de requetâge non SQL (Java, Python, C#..)

4 types :

  • Key-Value Store
  • Document store
  • Wide Column
  • Graph Databases

Qu’est-ce que Hbase ?

C’est une implémentation des bases de type Wide Column store

Composant de la Stack  Hadoop :

  • Hadoop (MapReduce, HDFS)
  • Hbase : Base de données non relationnel
  • Hive : Interpréteur du langage SQL : SQL-Like « DWH » system
  • Langage de transformation de données
  • Sqood (SQL 2 for Hadoop)
  • Flume : Log integration
  • Mahout : Data Mining

La solution Big Data Microsoft :

  • Microsoft HDInsight est un projet développé en collaboration avec Hortonworks pour inclure leur HDP (Hortonworks Data Platform)
  • Utilise le moteur PolyBase
  • Pour Azure et Windows Server
  • Inclus des Drivers ODBC pour Hive (Un Add-in Excel l’utilise)
  • JavaScript MapReduce Framework

Avant MS, Hadoop est utilisé par IBM, MapR, Cloudera…

Framework de développement dans VS (Visual Studio) /.NET qui intègre tous ces composants et fonctionnalités :

  • MaperReduce code pour C#
  • MRLib
  • Linq to Hive
  • Odbc client et Hive ODBC Driver
  • Déploiement
  • Débogage

Le driver ODBC Hive compatible avec :

  • Excel et PowerPivot
  • SSAS Tabular  mais pas SSAS Multi dimensionnel pour le moment
  • SQL Server DB Engine

Sébastien

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s