#Azure et #Snowflake votre PaaS vers la modernisation BI – #2 copie des données brutes en base

Dans l’article précédent , nous avons effectué la première étape permettant de copier, sur un Azure Blob Storage Account, l’ensemble des données relatives aux courses des taxis jaunes New Yorkais.

Cette opération a été réalisée avec Azure Data Factory en une dizaine de minute, nous permettant ainsi de récupérer 113 fichiers CSV d’une taille totale de 237 Go.

Maintenant que mes données brutes ont été rapatriées, voyons comment les charger dans Snowflake.nyctlc_snowflake_copy

Lire la suite

#Azure et #Snowflake votre PaaS vers la modernisation BI – #1 ingestion des données

Snowflake est la seule solution de Data Warehousing entièrement pensée et conçue pour le cloud :

  • Plus performante qu’un Amazon Redshift ou un Azure SQL Datawarehouse, de performances équivalentes à Google Big Query mais avec un véritable respect de la norme SQL ANSI 2016
  • D’une grande simplicité de gestion ; pas besoin de jouer au plombier et de mettre en œuvre des usines à gaz pour effectuer des opérations de scale up/down, scale in/out, suspend/ resume
  • Permet de manipuler toutes vos données CSV | JSON | AVRO | ORC | PARQUET | XML avec un seul langage : le SQL. Et ce qu’elle que soit la volumétrie et la vélocité des données
  • Cela reste un entrepôt de données et non un moteur OLTP, les bonnes pratiques à adopter sont donc une modélisation en ETOILE| FLOCON | DATAVAULT et d’opter pour des traitement ELT et non ETL pour profiter de l’élasticité de calcul de la plateforme. N.B: pour éviter les goulets d’étranglement des ETL traditionnels, il est aussi possible de faire du Data Engineering At Scale avec Azure Databricks (ce dernier possède un connecteur natif Snowflake), mais cela fera l’objet d’un autre article.

Il y a un de cela un peu plus d’un an, nous (Infeeny) étions en compétition face à GCP et Snowflake chez un client voulant moderniser son DWH on-premises tout en conservant son ETL Talend. Lire la suite

SQL Server – les columnstore index à la rescousse de la BI

Petit retour d’expérience sur l’usage des CCSI (Clustered Column Store Index) avec SQL Server 2014.

Avec un de nos clients, nous avons fait quelques bench sur le sujet. Sur une architecture équivalente, nous avons mis en place un index columnstore sur une table de fait contenant plus de 300 millions d’enregistrements. Malgré me dires et ceux de Microsoft, mes interlocuteurs étaient très sceptiques tout en fondant de grands espoirs. Lire la suite

#Datazen – Overview

Datazen est une solution de BI Mobile cross-platforme (iOS, Windows, Androïd) utilisée pour créer, partager, visualiser et commenter des dashboards sur tous vos terminaux.

Cette solution n’est pas nouvelle, connue depuis 2002 sous le nom de Component Art, elle a été rebrandée en Datazen en 2013 puis rachetée par Microsoft en avril 2015.

Elle se positionne comme une solution de BI Agile On-Premise, permettant de compléter l’offre de la stack MSBI face à la concurrence (notamment Tableau et Qlik).

Lire la suite