Comment la BI Microsoft est en train d’évoluer !

 

BI on-demand, Big Data, Cloud, Mobilité, Machine Learning, Social BI…. Décryptage !

 

Cet article a pour but d’expliquer l’évolution actuelle et à venir de la Business Intelligence Microsoft et de décrypter son écosystème pas si simple à appréhender. En effet l’émergence du cloud, de la mobilité, des «  big data » (réseau sociaux, e-commerce…) et de l’analyse qu’on peut en faire, le tout associé aux demandes avec des délais de plus en plus cours de la part des décideurs ont fait naître de nouvelles technologies de Business Intelligence plus modernes et qui pour certaines sont parfois en phase transitoire et en mode « preview ».

L’écosystème se découpe en 4 domaines et un ensemble d’outils associés comme le montre le schéma d’ensemble ci-dessous :

 

 

 

 

_MSBI

 

 

La BI On-Premise (traditionnel) :

Depuis plus de quinze ans Microsoft fait évoluer ses outils décisionnels « On-Premise » autour de SQL Server pour permettre aux sociétés de mettre en place eux même une solution décisionnelle d’entreprise centralisée, robuste et évolutive, en harmonie avec l’infrastructure locale existante et qui répond à des exigences à la fois de sécurité, de performance mais aussi de budget.

Traditionnellement, pour la conception d’un environnement décisionnel, une société peut faire appel à l’IT, on parle alors pour une solution « Corporate » d’entreprise. Mais un utilisateur final souvent appelé « Power User » peut également mettre en place une solution et devenir autonome dans la totalité ou une partie des phases d’un projet, de la conception jusqu’au déploiement.

Dans le dernier cas on parle souvent de solution BI « On-demand » ou « Self-service » et parfois personnelle si elle est conçu intégralement par l’utilisateur.

La suite d’outils BI traditionnels, et ceux-ci autour de la SQL Server, est composée :

  • Du moteur de base de données : SQL DB Engine
  • De l’ETL : SSIS
  • Du moteur d’analyse multidimensionnel : SSAS
  • Du serveur de rapports : SSRS

Pour la BI « On-Demand », Excel est l’outil de prédilection.

 

_BIOnprem

 

 

 

La BI « Corporate » :

Avec SQL Server et depuis la version 7.0, la plateforme BI Corporate de Microsoft est en perpétuelle évolution toujours dans un but d’être plus robuste, performante et avec de nouvelles fonctionnalités souvent inédites.

 

Aujourd’hui nous en sommes à la version SQL Server 2014 maintenant orientée « Hybrid Cloud » pour faciliter de manière transparente la gestion du stockage, des sauvegardes ou des transferts des données que cela soit sur site ou dans le cloud.

Microsoft a également conçu et développé depuis la version SQL Server 2012 un nouveau moteur d’analyse « In Memory » qui rend plus puissant le traitement des données, les calculs d’agrégats et des formules d’analyse en mémoire, ainsi que la restitution et l’analyse de données autant fines et « Tabulaire » qu’agrégées et en tableau croisé.

De plus, un nouveau type d’index « Column Store Index » permet d’améliorer considérablement les performances de chargement des entrepôts et son requêtage.

Enfin, SQL server permet de réindustrialiser dans SSAS les données provenant des cubes « On-demand », que nous verrons plus loin, conçus avec « Power Pivot », stockées en local dans Excel, de les exposer dans SharePoint pour donner la possibilité à l’utilisateur final de concevoir directement dans un site des analyses ad-hoc grâce au composant de « Data Vizualisation » « Power View » issu de SQL Server et intégré à un service SharePoint 2013.

 

En complément, pour permettre aux utilisateurs de mieux collaborer, la solution SharePoint 2013 permet, en plus de ce qu’on a vu au-dessus avec « Power Pivot » et « Power View »,  la mise en place de portail décisionnel, le partage des classeurs Excel d’analyse, l’intégration des rapports SSRS et l’utilisation des fonctionnalités intrinsèques à SharePoint comme par exemple la GED,  les intranets, les réseaux sociaux d’entreprise… Un petit plus dans SharePoint avec Power View : la possibilité d’exporter les « Dashboards » dans des slides Power Point en conservant l’interactivité et la possibilité de mettre à jour les données au sein d’une présentation.

Un service appelé « Performance Point » qui intègre entre autre l’outil d’analyse racheté à la société « Proclarity » n’est plus mis en avant.

 

_Collab

 

 

Dans la gamme des outils « On-Premise », un nouveau « petit » vient de naitre, il s’appelle « DataZen », il vient d’être racheté par Microsoft, il est fourni gratuitement à partir de la version SQL Server 2008 édition Entreprise avec la Software Assurance.

Comme « Reporting Services », « DataZen » est un outil de restitution, il comporte un « Publisher » pour permettre à l’IT de concevoir des rapports avant les déployer coté serveur.

Par contre, contrairement à « Reporting Services », « DataZen » est un outil orienté « Multi-device » et permet par exemple d’analyser des données sur tout type de tablettes ou smartphones (Windows, iOS et Android), puisque qu’il est compatible HTML5.

De plus, il a été conçu pour faire du « Dashboarding » plus que du « Reporting » opérationnel et fait partie de la gamme d’outil d’analyse visuelle de « Data Visualization ».

Enfin, il offre intrinsèquement la possibilité de faire de la BI collaborative en gérant des flux de commentaires entre les utilisateurs.

Petit bémol, il ne comporte pas comme « Reporting Services » les fonctionnalités de « push mail »  automatisé, l’intégration à SharePoint et le « Data Alert ». Par contre il permet contrairement à Power BI pour le moment de faire des analyses en mode déconnecté.

 

_Datazen

 

 

 

On voit bien que Microsoft a construit au fil du temps une véritable plateforme BI On-Premise solide et avec des évolutions permanentes. Aujourd’hui, IT ou l’utilisateur final bénéficie de toute l’expérience de l’éditeur, de la maturité et la robustesse de sa solution pour mettre en place ou utiliser un système d’information décisionnel d’entreprise accessible depuis partout (tablette, smartphone…) et en mode collaboratif.

 

 

La BI « On-Demand » :

Excel, l’outil idéal pour d’analyse des données « On-demand » a bien évolué. Si on regarde en arrière, avec la version Excel 2003, pour faire de l’analyse avec une connexion OLAP, on se restreignait qu’à un simple tableau croisé dynamique (« Pivotable »). Aujourd’hui avec Excel 2013, on a une véritable solution complète de Business intelligence personnelle avec ses outils permettant à l’utilisateur final de concevoir, comme avec l’IT et SQL Server, sa propre solution en libre-service composée :

  • D’un ETL : Power Query
  • D’un moteur d’analyse et son « Modeler » : Power Pivot
  • De deux outils de « Data Vizualisation » : Power View et Power Map pour l’aspect Géospatial

La philosophie de « Power View » et « Power Map » est de mettre en place comme Power Point un scénario, « Story Boarding » avec des slides, dans le but de faire une présentation issue de sa propre analyse et de faire en quelque sorte « parler les chiffres » ou faire du « Story Telling ».

Cette présentation peut être du « One-Shot » et être exposée qu’une seule fois par exemple à un Codir. D’où l’utilité en la mettant en œuvre rapidement avec Excel, outil très familier de l’utilisateur final, de ne pas passer par des cycles de conception et développement avec des délais qui peuvent parfois être annoncés comme importants par l’IT.

Par contre dans le cas où cette solution nécessite d’être stable, pérenne, sécurisée et partageable, il faut la réindustrialiser de Excel vers SQL Server grâce à des outils d’ « Import » qui existent.

 

_Collab2

 

 

 

La Business Intelligence dans le « Cloud » :

L’évolution des services dans le cloud, notamment autour de l’offre Azure de Microsoft, permet à l’IT maintenant d’une manière transparente de disposer de coûts d’administration mieux maîtrisés. L’infrastructure technique et applicative est plus robuste, performante et évolutive. Enfin les cycles de mise à jour sont plus courts et les opérations de maintenance et l’hébergement sont gérés directement par Microsoft.

 

Trois solutions vont être décrites dans la suite de cet article:

« IaaS »: Infrastructure as a Service

« PaaS »: Platform as a Service

« SaaS » : Software as a Service

 

La solution SaaS Power BI :

Elle permet de concevoir simplement une solution personnelle de Business Intelligence depuis Excel, avec les composants Power Query, Power Pivot, Power View, Power Map. Mais aussi depuis un concepteur dédié appelé « Power BI Designer » ou « On-Line » à partir du site powerbi.com avec un espace dédié et un compte associé.

Office 365 comporte également un site dédié Power BI où sont publiés et visualisés les rapports.

Les utilisateurs se connectent à des sources de données sur site ou dans le cloud pour mettre en œuvre plusieurs rapports et peuvent également les imbriquer simplement dans des « Dashboards ».

Plusieurs connecteurs sont nativement fournis comme par exemple Analysis Services, Salesforce, Univers Business Object, Dynamics CRM, Azure….

 

_CaptureDash

 

 

Une fois la solution publiée sur le site powerbi.com, les utilisateurs pourront depuis un mobile (iPhone et Windows Phone pour le moment) ou d’autres « Devices » se connecter à la solution pour visualiser leurs « Dashboards ».

Des fonctionnalités avancées existent également :

 

– « Q&A ». Une fonctionnalité de requêtage en langage naturelle (uniquement en anglais pour le moment) qui permet de poser des questions Ad-hoc sans connaissances techniques.

– «Data Refresh » permet de planifier la mise à jour des données au sein des rapports.

– « Data Management Gateway » permet de se connecter depuis le cloud à des sources « On-Premise » comme des cubes SSAS.

– « Data Catalog » permet d’exposer les données des rapports dans le cloud pour en faire des sources pour d’autres utilisateurs concevant des rapports.

 

 

powerbi4

 

 

Aujourd’hui Power BI existe en version Preview car il est en perpétuelle évolution, il peut être mis en œuvre et utilisé gratuitement, sauf si vous voulez utiliser les fonctionnalités avancées ci-dessus ou si vous dépassez la capacité limite de 1Go de stockage de données, d’un débit de 10k rows/ heures ou de cycle de rafraîchissement des données de plus de un jour. Dans ce cas le coût actuel est de 9,99 $ par utilisateur/mois.

L’intégration dans l’environnement Microsoft avec un « Designer » très convivial et ergonomique, la conception BI possible depuis Excel , des composants graphiques très riches, des « Dashboards » dynamiques et interactifs, des connecteurs très variés, la publication sur des mobile et tablettes, les cycles MS de mises à jour très réguliers font de Power BI LA solution personnelle et complète pour faire de la « Business Intelligence » « On-demand ».

Face aux solutions concurrentes Tableau Software et Qlik (ex QlikView), Power BI n’a rien à se reprocher.

 

 

La BI Mobile :

Avec les deux solutions « Power BI » et « Datazen » la mobilté cross-plateform est possible. Selon les usages, vous pouvez utiliser l’un des deux outils. « Power BI » est idéal pour le Cloud en mode connecté, gratuit selon certains critères ou avec un système d’abonnement et « Datazen » pour une infrastructure sur site et en mode connecté ou déconnecté, il est inclus dans les licences SQL Server avec la « Sofware assurance » Microsoft.

Une différence importante : pour concevoir un rapport avec Power BI, l’utilisateur n’a pas besoin d’être développeur, il peut le créer dans Excel ou le Power BI Designer. Pour « Datazen », il faut être développeur et être formé sur le « Datazen Publisher ».

 

 

mob

 

 

 

La Business Intelligence dans Azure (IaaS et PaaS) :

Autour des services de données PaaS et de la possibilité d’utiliser des VM dans des infrastructures  IasS ou des « Appliances » va simplifier le travail des administrateurs sur site et offrir des possibilité inédites pour faire par exemple des traitements de « Big Data » ou alors du Machine Learning sur des « Datacenters » mutualisés, ultra-puissants où la mise à jours des services pourra s’effectuer plus simplement.

L’offre IaaS :

Elle offre la possibilité de porter simplement son infrastructure local dans le cloud dans des VM et de pouvoir la superviser à distance et sans avoir à supporter les coûts de maintenance associés.

 

Les appliances APS :

APS ex PDW a été conçue conjointement par Microsoft et des architectes « Hardware » pour offrir la meilleur performance en MPP (Massive Parallel Processing) au sein d’une appliance. Elle offre également la possibilité d’intégrer sous le nom de HDInsigt le moteur NoSQL d’Hadoop pour des traitements « Big Data » et d’offrir au travers du moteur « Polybase » la possibilité de faire des requêtes en langage SQL pour ensuite exposer les données à des fins d’analyse.

 

L’offre PaaS :

Plusieurs  services de données ont été mis en œuvre dans Azure et sont accessibles via son portail. Ceux-ci sont mis à jour régulièrement et certains sont encore en mode « Preview ».

Pour le traitement des « Big Data », Microsoft a intégré dans sa plateforme Azure le moteur Hadoop de la société HortonWorks bien connu pour son architecture de données distribuées, HDFS, sous le nom de « HD Insight ».

Avec HD Insight », sont remodelés, la création de clusters pour la parallélisation des traitements de données, la mise en œuvre des process « Map/Reduce » pour tout type de transformation comme l’agrégation  ou le  nettoyage de données déstructurées comme par exemple le comptage de l’occurrence de mots parmi une multitude de messages comme des tweets, de sms ou flux RSS.

Pour ce faire le service ELT « Azure Data Factory » avec une interface très conviviale, permet d’ordonnancer tous ces traitements, il permet d’extraire des données sources, d’appeler des transformations en passant par des bibliothèques qui s’appuient sur les fonctions « Map/reduce » pour simplifier l’écriture du code. Par exemple « Hive » pour exécuter des traitements SQL DDL (CREATE…) ou DML (SELECT…) ou alors « Pig » pour appeler comme dans un ETL des fonctions de transformations (Agrégation, comptage, boucles,…) et enfin les charger dans des « Data Warehouses ».

Pour la gestion des entrepôts le service « Azure SQL Data Warehouse » peut être utilisé pour mieux exposer ses données à des outils d’analyse comme SSAS ou Power BI.

Dans le cas de besoins d’analyse ou monitoring temps réels et pour une prise de décision rapide, le service « Azure Stream Analytics » permet de traiter des flux de données très volumineux et avec un débit important comme des « Click Streams » provenant de site internet e-commerce par exemple, de les ingérer, les regrouper, agréger ou filtrer grâce à une bibliothèque de fonctions proche du SQL, pour ensuite les exposer à des fins d’analyse avec Power BI ou de Machine Learning. « Azure Stream Analytics » peut s’appuyer sur les services d’Azure de files d’attente « Event Hub » et « Services Bus ».

Enfin avec le service, « Azure Machine Learning », les « Data Scientists » peuvent faire de l’analyse prédictive dans le cloud et exposer leur résultats à des outils front ou des process via à un appel de « Web services ». Ce service permet de créer dans un concepteur dédié, appelé « ML Studio », des unités de traitement appelés expériences comportant une boite à outils pour créer des jeux de données sources, évaluer des modèles, les entrainer ou faire du « Scoring »,  effectuer tout type de transformations en mode graphique comme on le ferait avec SSIS mais d’utiliser aussi le langage R pour le faire et enfin produire les résultats statistiques et de probabilités.

 

 

_Azure3

 

 

 

Pour mettre en œuvre tous ces services il existe un système d’abonnements dont le coût varie selon un ensemble de paramètres comme la volumétrie, le temps, le débit….

 

Vous constatez  que maintenant, avec l’offre PaaS BI dans Azure, il existe un kit de services clef en main de plus en plus matures, robustes et performants pour traiter des données de  Business Intelligence en Back Office surtout pour des process associés au « Big Data » au temps réel et au « Machine Learning ».

 

 

 

A venir :

Comme vous avez pu le constater, le paysage autour de la Business Intelligence Microsoft c’est pas mal transformé depuis ces derniers temps et il continue encore. SQL Server 2016 est annoncé avec de nouvelles évolutions comme l’unification de « BIDS » et « SSDT », l’intégration de HDInsight et Polybase qui n’étaient actuellement que dans APS ou Azure, la possibilité d’intéragir avec Azure Data Factory depuis SSIS, des nouvelles fonctionnalités de « Data Vizualisation » dans SSRS et la possibilité de publier des .rdl dans le site Power BI. Du nouveau également dans SSAS Tabular puisque les relations « many to many » seront supportées et enfin des évolutions autour de SSAS multidimensionnel et MDS.

Concernant les outils « Front », une nouvelle version d’Excel dans Office 2016 est à venir où Power Query va maintenant être natif à Excel, la possibilité maintenant de créer un rapport Power View sur des cubes SSAS multidimensionnels et d’autres fonctionnalités qui seront probablement annoncées bientôt.

 

Ce qui reste à améliorer :

La BI MS a encore de beaux jours devant elle, par contre l’offre peut paraître encore « décousu » et pas forcément simple à comprendre tant au niveau des usages, que du mode de licensing.

Par exemple, si l’utilisateur demande une publication de son modèle « Power Pivot » dans SharePoint, on s’aperçoit que le mode de licencing est complexe et qu’il faut composer entre les licences d’Excel 2013, de SQL Server mais aussi de SharePoint.

De plus, il faut un travail important de pédagogie envers l’utilisateur qui ne comprend pas pourquoi il y a autant d’offres. Par exemple, il peut être perdu avec les outils de « Data Vizualisation »: SSRS, Datazen, Power View…. donc il faut lui expliquer les correspondances qu’il y a entre les usages qu’on peut en faire et les outils associés.

Enfin, dans un composant comme Power View qui est distribué à la fois dans Excel et SharePoint On-premise, il peut y avoir des petits plus qui sont dans l’un mais pas dans l’autre, par exemple l’export vers Power Point qui n’est que dans SharePoint. De plus les composants Power BI d’Excel 2013 et du Power BI Designer ont été découplés mais les fonctionnalités sont beaucoup plus avancées dans le dernier.

 

Pour conclure :

Comme on vient de le voir avec les outils de « Data Vizualisation », les enjeux à venir de Microsoft vont être de les faire converger pour en faire une offre homogène, multi-usage, en plus d’être muti-device et cross-platform.

De même, une convergence entre le cloud et le « On-Premise » doit continuer à s’installer autour de l’hybride : faire en sorte homogénéiser les outils, les échanges de données ou de process inter plateformes, où tout sera transparent pour les développeurs, administrateurs, DBA, Data Manager ou Stewardship, Business Analyst, Power User, et utilisateur final, et où ils ne s’apercevront plus de la différence entre concevoir ou consommer de la BI sur un PC ou un mobile, « On-Premise » ou dans le cloud.

 

 

Sébastien MADAR

MVP SQL Server

 

 

#PASSBAC 2015 – Paco Gonzalez – Social Listening, Data Extraction and Discovery

Le cycle de vie du social analytic est le suivant :

SocialListeningLifecycle

Pour démarrer, regardez du côté du APIs

  • Facebook : informations personnelles, volume, historique, requêtage
  • Twitter : informations personnelles, volume, historique, requêtage
  • Amazone : requêtage, données produit, évaluation

La source favorite pour débuter est Twitter car il s’agit d’une source publique, balisée (@, #, RT) et structurée (tous les tweets ont une longueur maximale de 140 caractères, sont émis par un utilisateur à un emplacement donné.

Pour récupérer plus d’informations sur les réseaux sociaux ou créer vos propres connecteurs aller sur GNIP ou Microsoft Azure App Services

Paco enchaîne ensuite par la première partie de sa démo relative à la collecte et au stockage des données; via un simple exe .Net. Les tweets émis en temps réel sont stockés sur un cluter Hadoop en HBase.

Les données sont ensuite affichées sur une carto permettant d’afficher le volume de tweets émis relatifs à un sujet en fonction de leur tonalité (négatif, neutre, positif).

Pour aller plus loin, la seconde démo doit permettre de croiser les données de ventes d’une société avec les données issues des réseaux sociaux (en l’occurrence twitter). Le dataset récupéré contient l’ensemble des tweets relatifs à la dite société.

Les challenges du Sentiment Analysis concerne l’interprétation des messages postés afin d’en déterminer le ton, il s’agit alors de comprendre

  • le ton de la phrase
  • et son contexte

Pour effectuer cette opération, il est possible de commencer par la définition d’un dictionnaire. Il suffit ensuite de parser les tweets et d’identifier les différents mots par rapports à ceux contenus dans le dictionnaire. Le mieux étant d’utiliser un dictionnaire existant, pour cela vous pouvez vous baser sur SentiWordNet.

L’inconvénient de cette technique étant qu’elle ne tient pas compte ni du ton de la phrase ni de son contexte mais uniquement des mots utilisés. Cela permet, néanmoins, de se faire une première idée approximative.

Pour aller plus loin, il est possible de faire appel au Machine Learning pour identifier si la tonalité d’un message peut être déterminée par l’association/la combinaison de mots. Pour mettre en place le modèle et s’assurer de la tonalité, on prend un extrait d’1,6 millions de tweets contenant des emoticons. Une fois le modèle ML entraîné via cet échantillon, c’est l’ensemble de nos tweets qui sont évalués. Le dataset est ensuite récupéré et exposé dans un cube Analysis Services permettant alors d’analyser le volume les ventes de produit en fonction de leur couleur et de leur zone géographique et de croiser cette information avec l’analyse sentimentale des tweets.

A travers cet exemple simple, il est possible d’obtenir une analyse comportementale des ventes par zone géographique et facilite donc la prise de décisions quant aux actions à mener.

N’oubliez-pas Microsoft Azure Machine Learning est toujours gratuit alors profitez-en.

Pour plus d’infos allez jeter un œil sur http://www.youtube.com/channel/UCkOKmMW_LEsACOqE8C1RWdw

Présentation très intéressante qui permet d’entrevoir l’intérêt des entreprises à se mettre au Big Data.

#PASSBAC 2015 – Andrew Brust – Using Hadoop with Excel and Power Query

Andrew débute la première partie de sa session en présentant Hadoop.

On parle de Big Data lorsque le volume de données dépasse les centaines de To et va jusqu’au Po ou plus. Il s’agit de données transactionnelles énormes issues en grande partie : des données financières, de logs de site web, des réseaux sociaux, des objets connectés (IoT), des données mobiles, etc. Pour pouvoir traiter et analyser ces données, un système monolytique ne suffit plus, il est nécessaire d’adopter une architecture scalable afin de pouvoir effectuer des traitements en parallèle au travers différents serveurs en cluster. C’est le principe même d’Hadoop.

Les concepts principaux à connaître sur Hadoop sont

  1. HDFS : Hadoop distributed files system : c’est le système de fichiers qui détermine où et comment les données sont distribuées et stockées sur le cluster. Les données sont répliquées sur les différents nœuds du cluster, ce qui permet :
  • d’avoir une architecture haute disponibilité (si un nœud tombe => aucune perte de données)

Distributed File System : on where data gets distributed over commodity drives on commodity servers

  • de pouvoir effectuer des traitements en parallèle
  • d’ajouter simplement de la puissance de calcul en ajoutant de nouveaux nœuds au cluster (scale-out)
  1. Map Reduce : c’est l’opération qui permet de parser l’ensemble des données en parallèle pour n’extraire que celles dont vous avez besoin. Cette opération se décline en deux temps :
  • Map step : les données sont parsées en parallèle sur l’ensemble des nœuds du cluster
  • Reduce step : retourne toutes les données associé à la même clé et les agrège

Ces opérations se font en java.

  1. Schema-on-Read : lorsque vous traiter des données non structurées, le schéma est imposé lors de la requête et dépend du contexte par exemple :
  • Si vous scanner un livre, les valeurs à retournées sont-elles les mots, les lignes, les pages, les chapitres ?
  • Est-ce que la date et l’heure sont deux champs séparés ou bien un seul …

Pig et Hive sont les deux outils qui permettront d’effectuer cette interprétation de schéma à la volée.

Andrew continue ensuite par la présentation de la stack Hadoop V1 puis V2. Je ne m’attarderai quant à moi qu’à la V2.

HadoopStack

Je complète juste par quelques annotations sur les éléments les plus marquants de cette stack :

  • HDFS : Hadoop Distributed File System
  • YARN : ressource governor
  • HBASE : base de données avec stockage en colonne
  • Hive et Pig : couche d’abstraction permettant de faire du Map Reduce
  • SCOOP : utiliser pour l’import/export RDBMS bidirectionnel
  • Sparl SQL, Impala et Tez permettent de faire du SQL interactif
  • Lucine et SolR sont des moteurs de recherche
  • Sparl MLib et Mahout : permettent de faire du machine learning/ Data Mining
  • Spark Streaming, Storm et Kafka : sont utilisés pour le Streaming Data

Les différentes distributions d’Hadoop sont Cloudera, Hortonworks HDP, MapR, IBM InfoSphere, Pivotal HD et Microsoft HDInsight. Elles utilisent toutes le même noyau Hadoop décrit précédemment.

Microsoft HDInsight a été développé avec Hortonworks et permet d’avoir une distribution HDP sous Windows. Les spécificités de cette distribution sont :

  • Windows Azure HDInsight
  • Azure Blobs Storage
  • L’accessibilité via du PowerShell et des cmdlets HDInsights
  • Une interface web permettant d’exécuter des requêtes Hive et de monitorer des jobs

S’en vient alors les démos :

  • Mise en place du cluster sous Azure
    • Création d’un cluster HDInight via le portail MS Azure => cela se fait en quelques clics, en configurant soit même le type de plateforme souhaitée (nombre de nœud dans le cluster, la région, le type de vm (core CPU + mémoire), un username, l’accès en RDP, le stockage). Le cluster Hadoop est créé et accessible quelques minutes
    • Connexion au cluster HDP via l’interface Azure
    • Utilisation de la console HDIngith Query Console vous permettant d’exécuter des requêtes Hive
    • Revue des solutions proposées avec ou sans sample data)
  • Hadoop commands (cf. slide pris en photo sur tel)
  • Connexion au cluster hadoop en rdp via la console Azure,
    • ouverture d’une fenêtre de command hadoop et quelques exemples de commandes Hadoop
    • Création d’un job executant une requête hive
  • Récupération de données HDP via Excel
    • Via le driver ODBC
  • Pig est un combo entre un requêteur et un ETL, il permet de travailler avec des données structurées et non structurées. Andrew nous livre quelques exemples de requêtes Pig.
  • Démo Power Query sur une source de données HDFS
  • Power Bi 2.0
    • Pas de dépendance avec Office 365
    • Moins cher : freemium model, Pro version pour $10/user/month
    • Across platform experience (iOS, Android, Windows)
  • Démo Power BI Designer
    • Connexion à HD Insight via Power Query, quelques transformations, puis passage en mode reporting/dahsboarding sur Power BI Site
  • Démo Tableau
    • Connexion à HD Insight et exécution de la même requête
    • Travail sur les mêmes données….

Andrew n’a pas eu le temps de faire d’autre démo avec d’autres outils comme Qlik Sense ou Jaspersoft, peu importe, quel que soit l’outil utilisé, les données Hadoop sont très facilement utilisables et exploitables.

Il ne vous reste plus qu’à aller sur le site d’Hortonworks pour aller télécharger la sandbox et jouer avec. Ou bien aller directement sur Azure.

#PASSBAC 2015 – retour sur les 2 keynotes

Lors de la première Keynote animée par Carlo Ratti, professeur au MIT et architecte, Carlo nous a sensibilisé sur le fait que le volume de données que nous générons aujourd’hui est en constante progression. Le volume de données produit depuis le début de l’humanité jusqu’en 2003 équivaut actuellement au volume généré en 2 jours. La démultiplication et la démocratisation des terminaux et objets connectés font que chacune de nos actions est désormais numérisée. Il est désormais possible, grâce aux solutions de Big Data, de tirer parti de cette manne gigantesque d’information.

« Big Data is what you cannot put in an Excel spreadsheet »

Carlo nous a montré les résultats des études menées avec son équipe autour de différents projets :

  • l’activité des téléphones mobiles à Rome lors de la finale France/Italie de la coupe de monde de football de 2006
  • utilisation des cartes de crédit en Espagne pendant la période de noël
  • utilisation des données gps des taxis à Lisbonne
  • pattern des déplacements en Italie de touristes américains vs italiens
  • etc.

Je vous conseille fortement de visiter le site du Senseable City Lab; les vidéos sont vraiment impressionnantes et permettent d’entrevoir ce qu’il est possible de collecter et d’analyser, afin de mieux comprendre notre monde et de pouvoir adapter nos comportements en conséquence (ou pas). Les champs d’application sont énormes et uniquement limités à notre propre imagination.

La Keynote d’aujourd’hui a été animée par Miko Yuk,  fondatrice de BI Brainz, entreprise leader dans le dataviz et le story telling. Miko part du constat que la plupart des entreprises ont une organisation décisionnelle en silo (IT Pros, Analysts, Data Scientists), tout en narrant ses retours d’expérience qui sonnent comme un écho dans ma tête.Vous avez beau avoir travaillé des heures ou des jours durant sur un dashboard; au final l’utilisateur s’intéressera en premier lieu à la forme et non aux données.

La BI est présente dans la plupart des sociétés, l’année dernière on estime que 97 milliards de dollars ont été dépensés en BI. Néanmoins, les utilisateurs sont loin d’adopter massivement les solutions qui leur sont proposées, en moyenne, on ne capte que 21% des utilisateurs.

« Data visualisation and visual story telling are the future of useful and intelligent analytics »

La façon de présenter et de scénariser la donnée est primordiale afin de capter l’ensemble de nos utilisateurs et doit répondre aux deux principaux aspects suivants:

  • communicate knowledge
  • interpret experiences

La data visualisation et le story telling sont les facteurs clés qui vous permettront de communiquer l’information de la façon la plus efficiente. A travers les exemples exposés par Miko, j’ai pu noter quelques outils à regarder de plus prêt :  , .

Ces deux keynotes sont dans la mouvance actuelle du big data et de la data visualisation. Ce sont ces deux points clés qui permette(nt)(ront) aux entreprises de se démarquer et d’être plus réactives vis-à-vis de leurs clients et de la concurrence.

Fred.

Démystification du BIG DATA

Démystification du BIG DATA

 

La démystification du Big Data

  • Mercredi 12 février : 15h15-16h00
  • Salle : Amphi Bordeaux
  • Audiences : Professionnels de l’IT, Développeurs
  • Thèmes : Développement, Infrastructure des systèmes d’information
  • Niveau : Intermédiaire (200)
  • Intervenant : Benjamin Guinebertière (Microsoft) , François Simoës (v-traffic), Romain Casteres DCube (Microsoft Partner),

BIG DATA est un flux d’information dénormalisé provenant de plusieurs flux de données (base de données, réseaux sociaux,  fichiers textes …).

Ces données peuvent suivre un schéma relationnel ou non relationnel.

L’objectif de la démystification est de pouvoir utiliser l’ensemble de ces flux de données provenant d’une multitude de sources pour en sortir des indicateurs et des rapports.

Durant cette session l’architecture utilisée pour réaliser ces indicateurs est la suivante :

demystification_du_big_data

Source : http://www.cibis.org.je/

Les étapes qui ont permis de réaliser les indicateurs présentés sont les suivantes :

  1. Création de cluster sur HD insight (utilisant des connecteurs hadoop pour se connecter aux différentes sources de données)
  2. Création de table externe à partir de Hive pour prémâcher les données et les structurer
  3. Suppression des nœuds
  4. Utilisation de la chaine BI
    1. SSIS / POWER QUERY pour intégrer les données
    2. Création du DWH
    3. OLAP / POWER  PIVOT
    4. SSRS  / POWER BI

 

 

Pour aller plus loin : http://blog.octo.com/hdinsight-le-big-data-selon-microsoft/

Vidéo : https://www.youtube.com/watch?feature=player_embedded&v=9-64tW56LFA

Slides : http://fr.slideshare.net/Developpeurs/la-dmystification-du-big-data

 

 

 

[JSS 2013] Session : HD Insight

Speaker : Benjamin Guinebertière

Le speaker démarre sa session en présentant sa société v-traffic  http://www.v-traffic.com/  filiale du groupe info trafic.

Cette société est chargée de collecter les données publiques et privées qu’elle achète aux sociétés comme Tom-tom sur la géo-localisation des voitures en temps réel afin de recouper le tout et d’informer les automobilistes sur la disponibilité des axes de circulation dans toute la France et auquel cas proposer un itinéraire de substitution, ceci dans un délai relativement court via les médias suivants : web, radio, application Windows Phone.

Cas pratique :

L’entreprise V-Traffic souhaite mensuellement fournir à ses dirigeants un rapport détaillé  sur la qualité et la véracité des données mises à disposition des utilisateurs de v-traffic.
Et dans un second temps, débattrenégocier et réajuster l’achat des données le mois suivant.

Qu’est ce que HD Insight ?

HD Insight est le nom du projet Hadoop qui a l’origine est un projet linux du nom d’Hadoop Apache et qui a été porté sur la plateforme Windows (Win Server 2008) et mise à disposition par Hortonworks Data Platform.
Ce service permet de gérer d’importants volumes données (BIG Data) sur la plateforme Windows Azure et s’exécute dans les datacenters de Microsoft basé sur :

  • le système HDFS : Hadoop File System
  • MapReduce est le modèle de programmation utilisé pour traiter de gros volumes de données.

L’utilité d’HD Insight dans Windows Azure réside dans le fait de pouvoir créer un accès rapide, sécurisé et temporaire afin d’y réaliser vos traitements et ensuite clôturer et effacer le cluster (location temporaire d’un cluster).

Lors de la création, il vous sera demandé un nom de cluster, le nombre nœuds.

Dans la rubrique HDInsihgt, Créer un cluster > Créer des noeuds > Sélectionner la version (2.1) > Choisir un username.

Démo :

Cette opération de création de cluster peut être scriptée via Windows Azure Powershell (Similaire au command Shell sous Unix).

La suite de la démo nous montre comment utiliser les langages de script que sont Pig (Développé par Twitter) et Hive (Développé par Facebook) qui vont pointer dans un répertoire dans lequel se trouve des fichiers de logs et qui recensent la position des automobilistes, la vitesse moyenne, les ralentissements, les chemins de substitutions empruntés (boite noire des taxis, GPS).

Une surcouche en python est utilisée afin de déterminer la position exacte des voitures en recherchant dans les 36 000 polygones de la carte de France et identifier leur position.
Ce calcul est gourmant en performance. C’est pourquoi il faut agréger et regrouper les données géographiques en rectangle plus larges afin de cibler les zones concernées et limiter la recherche à la zone sélectionnée.

Ceci dans le but d’optimiser les temps de traitements des fichiers de logs consommés par la plateforme.

En résumé, les données sont collectées dans des tables sous Hive puis agrégées (requête d’agrégation) dans une base SQL Server  afin de les restituer via un portail SharePoint (RS, Power Pivot, Power BI).

Un autre exemple d’utilisation citée par le speaker : Facebook utilise les logs des jeux qui sont disponibles (analyse du temps passé par les gamers afin d’identifier les tricheurs).

Conclusion :

La session fut très enrichissante pour une première approche. Il faut la mettre en relation avec la session sur le Big Data (de Romain Casteres)

Elle a le mérite de nous expliquer par un cas concret les possibilités de la plateforme HD Insight et de manière générale sur le « Big Data » qui jusqu’alors me semblait relativement floue.

Luiggi – Consultant décisionnel MCNEXT

[JSS 2013] Session : SQL Server 2014 : what’s new ?

Panorama des nouveautés de SQL Server 2014.
Les nouveautés abordées sur la plate forme de données : Database Engine, In Memory, Cloud, Big Data, BI, outils

I. BI

Présentation par Franck Mercier

Pour Microsoft, le devenir de la BI passera par la mobilité et le Cloud.

La vision de Microsoft est la suivante :

  1. Trouver, combiner, gérer (accès simple à tous les types de données)
    Pour la récupération de données, l’utilisateur utilisera Power Query de l’outil Power BI (Add in dans Excel)
  2. Modéliser, analyser et affiner (donner l’accès à ses analyses aux autres)
    Restitution visuelle : cartographie notamment à l’aide des outils de Power BI : Power View, Power Map.
    Les graphiques peuvent être dynamiques suivant un axe temps (ou autre).
  3. Agir et opérationnaliser (déployer)
    Partage par l’interface Web.
    Q&A est un outil permettant d’effectuer des requêtes en posant des questions en langage naturel.
    Il suffit d’aller sur le site web créé lors de l’installation de Power BI et de poser une question telle que : « Show stock growth, dividend, close ». Cette recherche marche avec l’IntelliSense.

Power BI est la grosse nouveauté de 2014.

II. Big Data

Les volumétries de données n’arrêtent pas d’augmenter.

L’apache Hadoop est le framework Big Data le plus utilisé aujourd’hui.

HD insight est le service Microsoft permettant d’utiliser une solution Apache Hadoop dans le Cloud.

Une démo est ensuite réalisée sous Windows Azure avec la création d’un cluster.

Microsoft Hive ODBC driver est le driver de connexion à une base de données sous Azure.

Le Hive language est un langage d’interrogation de données sur le Cloud qui est proche du SQL.

Les requêtes s’effectuent dans management studio comme une requête SQL.

III. In Memory

Le moteur In Memory BI est appelé Vertipaq. La première fois qu’on a parlé du Vertipaq, c’était sous Power Pivot.

Le moteur In Memory pour l’OLTP est appelé Hekaton.

La grosse nouveauté pour le Column Store Index sous SQL Server 2014 : on peut mettre à jour les données sans avoir à supprimer puis recréer l’index. Il est dorénavant géré comme n’importe quel index.

Pourquoi utiliser le In Memory ? Parce que la mémoire est rapide, l’écriture sur un disque est lente.

Le In Memory  peut être facilement mise en place : une instruction SQL suffit pour passer en In Memory .

L’exemple est montré avec un create table, avec l’option Memory optimized on.

Puis sur une PS avec l’option With Native Compilation.

L’avantage est qu’il n’y a pas à réécrire l’existant.

Il est annoncé une progression d’un facteur 30 en termes de performance, et même 100 sur certaines requêtes ainsi que 90% d’espace disque en moins. Et nous sommes encore en preview, ce qui laisse encore espérer des améliorations.

IV. Database engine

  • Amélioration du service de haute disponibilité always on (rapprochement entre le cluster pour les solutions de haute disponibilité et le miroir de bases pour la réplication de données)
  • Performances améliorées grâce aux SSD (notamment le BPE Buffer pool extension  permettant de mettre un buffer sur un disque SSD beaucoup plus rapide qu’un disque classique)
  • Amélioration apportées sur l’optimiseur de requête.
  • Gouverneur de ressources : permet de spécifier les limites sur l’utilisation des mémoire/cpu/disque
  • Sauvegarde managée (smart backup). Très simple d’utilisation. Il n’y a que 2 paramètres à entrer : la durée de rétention et l’emplacement sur Windows Azure.

V. Cloud et Hybride

3 types de stockage sur le Cloud :

  • IaaS : infrastructure as a service. Il consiste à offrir un accès à un parc informatique virtualisé. Des machines virtuelles sur lesquelles le consommateur peut installer un système d’exploitation et des applications.
  • PaaS platform as a service. le système d’exploitation et les outils d’infrastructure sont sous la responsabilité du fournisseur.
  • L’hybride est une structure mixte qui permet de combiner les ressources internes du Cloud privé à celles externes du Cloud public. Une entreprise qui utilise un Cloud hybride peut par exemple avoir recours au Cloud public ponctuellement, lors de pics d’activité et le reste du temps se contenter des ressources à disposition en interne

On pourra par exemple prendre une base en local et la déployer vers un VM sur Windows Azure.

Les backup sont facilités (voir le chapitre précédent).

Nouvelle offre premium : La fonctionnalité distinctive de Premium est la réservation de capacité. Une réservation garantit une quantité de capacité fixe qui n’est pas partagée avec une autre base de données et qui, ainsi, permet de meilleures performances. L’offre Premium est actuellement en mode préliminaire.

VI. Outils

Pas de démo spécifique par manque de temps, mais une liste d’outils :

  • SSMS
  • SSDT (data tools)
  • SSDT-BI (sur visual studio 2013)
  • TFS
  • Nombreux outils présents sur CodePlex comme BIDS Helper par exemple.
  • ALM pour Azure

Pour conclure :

Une session intéressante permettant de faire le tour des nouveautés de SQL 2014.

Le bémol : un non-initié comme moi aura eu du mal à suivre les nouveautés sur le Cloud et le Big Data. En effet, pas de rappel des bases, beaucoup de termes techniques et un débit rapide.

Pour le reste, à retenir : Microsoft pousse à fond sur PowerBI et le Cloud.

Les Column Store Index sont enfin utilisables sur des tables pouvant avoir des données modifiées (insert, update, delete).

Le In Memory, c’est bien : la RAM a bien baissé en prix, et les temps de réponses sont vraiment meilleurs que sur disque.

Les sauvegardes des BDD sous le Cloud me paraissent être une alternative très intéressantes par rapport aux bandes (entre les temps de récupération des bandes, des étapes à mettre en place pour réaliser ces sauvegardes, etc,etc…).

Frédéric – Consultant décisionnel MCNEXT