[PASS SUMMIT 2013] Enriching Big Data for Analysis

Speakers : Lara Rubbelke – Technical Architect, Microsoft & Adam Jorgensen – President, Pragmatic Works Consulting

Best practice de Design et archi pour utiliser HDinsight : interface MS qui simplifie Hadoop pour accéder a du Big Data.

Dans le monde :

  • 20% des données sont structurées
  • 80% semi/unstructured

Type de données :

  • Click Stream
  • Social
  • Géolocalisation
  • Logs

Je vous présente un peu d’architecture dans les photos suivantes :

1-How-it-fits-togetherPhoto : Source PASS SUMMIT 2013

2-Hadoop-101

Photo : Source PASS SUMMIT 2013

HDFS : Hadoop Distributed File System :

Réplication de données, pas de partage

Utilise des nœuds dans un cluster

3-HDInsight-architecturePhoto : Source PASS SUMMIT 2013

4-Storage-infrastructurePhoto : Source PASS SUMMIT 2013

5-Storage-infrastructure_2Photo : Source PASS SUMMIT 2013

Map et Reduce sont 2 fonctions Java

Chaine : Files Input–> Mapper (démultiplexeur de données/fichiers dans plusieurs noeuds)–>Output–>Input–> Reducer (agrégateur de ligne)

(Mapper s’exécute en parallèle)

Le mouvement des données dans le cloud :

Il y a 80 % d’espace disque économisé grâce a la compression

Il y a moins de ressources réseau consommées.

Pour le transport il y a plusieurs codecs de compression:

Le Codec par défaut dans HDinsight est DEFLATE

6-Compression-codecsPhoto : Source PASS SUMMIT 2013

Pour copier les données dans le cloud, il existe plusieurs solutions :

Solution MS :

  • Utilitaire AZCopy
  • IHM
  • Ligne de commande (CLI)

Outils tiers :

  • Aspera
  • Attunity CloudBeam

La préparation des données se fait avec la couche Hive qui interprète des commandes comme CREATE TABLE :

7-Data-Preparation-with-hivePhoto : Source PASS SUMMIT 2013

Il y a également des commandes qui permettent de mettre en place des partitions.

Il existe aussi un langage pour la préparation des données appelé Apache Pig.

Consommation et analyse des données

8-Scale-for-everyone-why-do-we-need-Analyses-ServicesPhoto : Source PASS SUMMIT 2013

Un Driver ODBC peut être téléchargé pour accéder aux données.

Pour accéder aux données depuis SSAS : il faut créer un linked server sur le connecteur ODBC de HDInsight.

Sébastien Madar

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s