#Azure et #Snowflake votre PaaS vers la modernisation BI – #2 copie des données brutes en base

Dans l’article précédent , nous avons effectué la première étape permettant de copier, sur un Azure Blob Storage Account, l’ensemble des données relatives aux courses des taxis jaunes New Yorkais.

Cette opération a été réalisée avec Azure Data Factory en une dizaine de minute, nous permettant ainsi de récupérer 113 fichiers CSV d’une taille totale de 237 Go.

Maintenant que mes données brutes ont été rapatriées, voyons comment les charger dans Snowflake.nyctlc_snowflake_copy

Lire la suite

#Azure et #Snowflake votre PaaS vers la modernisation BI – #1 ingestion des données

Snowflake est la seule solution de Data Warehousing entièrement pensée et conçue pour le cloud :

  • Plus performante qu’un Amazon Redshift ou un Azure SQL Datawarehouse, de performances équivalentes à Google Big Query mais avec un véritable respect de la norme SQL ANSI 2016
  • D’une grande simplicité de gestion ; pas besoin de jouer au plombier et de mettre en œuvre des usines à gaz pour effectuer des opérations de scale up/down, scale in/out, suspend/ resume
  • Permet de manipuler toutes vos données CSV | JSON | AVRO | ORC | PARQUET | XML avec un seul langage : le SQL. Et ce qu’elle que soit la volumétrie et la vélocité des données
  • Cela reste un entrepôt de données et non un moteur OLTP, les bonnes pratiques à adopter sont donc une modélisation en ETOILE| FLOCON | DATAVAULT et d’opter pour des traitement ELT et non ETL pour profiter de l’élasticité de calcul de la plateforme. N.B: pour éviter les goulets d’étranglement des ETL traditionnels, il est aussi possible de faire du Data Engineering At Scale avec Azure Databricks (ce dernier possède un connecteur natif Snowflake), mais cela fera l’objet d’un autre article.

Il y a un de cela un peu plus d’un an, nous (Infeeny) étions en compétition face à GCP et Snowflake chez un client voulant moderniser son DWH on-premises tout en conservant son ETL Talend. Lire la suite

SQL 2019 Les nouveautés et les retours d’experience

Comme prévu Microsoft nous l’avait annoncé il y a quelque temps une nouvelle version de SQL Server est bientôt prête à arriver.

A l’heure actuelle, où j’écris ces lignes, nous en sommes à la version CTP 2.1

Au menu plein de petites nouveautés :

  • Du Machine Learning
    • Possibilité de créer un cluster Spark Big Data
      • Déployer des applications Python et R
    • Déployer un cluster Big Data avec des conteneurs SQL et Spark Linux sur Kubernetes
    • Accéder à votre Big Data à partir de HDFS
    • Exécuter l’analytique avancée et le Machine Learning avec Spark
    • Utiliser Spark Streaming pour envoyer des données aux pools de données SQL
    • Utiliser Azure Data Studio pour exécuter des livres de requêtes qui procurent une expérience de bloc-notes
  • Moteur de base de données
    • Traitement des requêtes intelligent avec la fonction inlining de fonction UDF
    • Amélioration de la gestion des erreurs en incluant les noms de tables de colonnes ainsi que les valeurs tronquées (pour les erreurs de troncations)
    • Prise en charge de l’UTF 8 à l’installation
    • Utilisation d’alias de tables dérivées ou de vues dans les requêtes de correspondance de graphe
    • Amélioration des données de diagnostic pour le blocage des statistiques
    • Pool de mémoires tampons hybride
    • Masquage statique des données
  • Linux
    • Prise en charge de la réplication
    • Prise en charge de MSDTC (Microsoft Distributed Transaction Coordinator)
    • Groupe de disponibilité Always On sur des conteneurs Docker avec Kubernetes
    • Prise en charge d’OpenLDAP pour les fournisseurs AD tiers
    • Machine Learning sur Linux
    • Nouveau registre de conteneurs
    • Nouvelles images conteneur basées sur RHEL
    • Notification de sollicitation de la mémoire
  • Outil
    • Azure Data Studio
      • Mise a jour pour SQL 2019
      • Nouvel outil SQL Server

 

Retour d’expérience :

Après avoir testé rapidement cette nouvelle version, j’ai eu quelques déboires avec PolyBase sans doute dû à des problèmes de drivers HDFS qui ont changé avec l’arrivée de la nouvelle version…

J’ai pu tester la mise en place de cluster Spark et vérifier l’intérêt de celui ci On-prem avant de diffuser sur un vrai cluster Spark en ligne sur Azure par exemple.

Il a un autre intérêt, il permet de travailler les données en amont de leur intégration et peut venir remplacer un ETL comme SSIS lors de la phase de Data Prep cela peut donc devenir une alternative intéressante. SQL2019

Exemple d’utilisation d’un script d’analyse prédictive depuis un cluster spark sur un un SQL Server 2019 en version CTP 2.1.

SparkSQL2019.png

Sources :

https://docs.microsoft.com/fr-fr/sql/sql-server/what-s-new-in-sql-server-ver15?view=sqlallproducts-allversions

Hands-on SharePoint Spaces, VR solution at the Microsoft Ignite 2018

I must admit that I was quite skeptical when I heard about this new feature earlier this year. One of the main reasons of my skepticism was that I could not find the right use case from an end-user perspective. During the Microsoft Ignite, 3 booths were available to get our hands on this new solution, so why not testing this and trying to change my mind ? 

SharePoint Spaces tested by Mozzaik Team

It started with a quick introduction from Vidya who’s part of the Microsoft SharePoint Space product team. I discovered that there are already 7 webparts developed, and more to come. Microsoft teams already using this feature internally, yet I couldn’t find if it would be easy to programmatically convert or extend a webpart so they support the 3D glasses, but I guess it’ll be possible with PnP in due time.

 

Creating a new space is really easy, you just need to select the « New » menu in the ribbon as you would do for a new page or a list. Select from the spaces available, and you’ll have the page loading instantly. I’ve seen the organization chart demo, then the data visualization (mind blowing!!)

SharePoint Spaces Data Vizualisation

 

So what about the rendering ? Though it’s still at the early stage for this technology, I can really see the potential in an industrial environment, especially for the FLW (First Line Workers) when browsing the details of a piece and following a specific process which could be a « Process viewer WebPart ». And folks, that’s the key take away here : the WebParts.

 

SharePoint Spaces Tent with the WebPart panel opened

My skepticism relied on the absence of solid user scenarios that could justify the investment on this technology, but knowing that it relies on webPart, I can easily imagine specific webparts for supply chain processes, where you trigger the right process with the controller, and it points out the manufactured pieces and the associated steps to build the piece. Also, knowing that FLW and Product teams could share and use the same Site and interface could really benefits for the communication for the whole building process. 

From a technology standpoint, it relies on BabylonJS , GLTF format for 3D scenes and models, and the HP Windows  Mixed Reality for the headset and the controller. 

If you want to know more about SharePoint Spaces and the mixed reality, check the Microsoft article : https://www.microsoft.com/en-us/microsoft-365/blog/2018/05/21/sharepoint-innovations-transform-content-collaboration-with-mixed-reality-and-ai/

Ignite 2018 – Building a modern intranet with SharePoint and Office 365 with Mark Kashman

One of the most expected session for this Ignite in termes of Intranet anc Communication area with SharePoint was this one. As you know, we are pushing torwards Modern Communication Sites for a few months now, and since Mozzaik365 is now full modern it makes it even easier to deploy it. I’ve caught up few phrases and outlined them.
Best intranet is about getting the work done. Users come back to intranet because it’s usefull, not because it’s beautifull

Fair point, you’d rather spend time interviewing users to get their need than producing a beautiful but very complexed intranet.

Search is one of the biggest pain points.

Definitly one of the paint points out there, and so far Modern SharePoint need an additional effort to customize it.

We should not talk about workloads or services, but more about building scenarios. Many organizations want to lock this down, and guess what ? People will find a way.

Music to my ears at this point, we see that all the time, it’s easier to lock everything than proposing solutions to end-users, and it often ends with the use of WhatsApp, DropBox, and non-governed-it solutions. And the remediation to that is …
It’s all about Governance.

The flat world is crowded with SIte Collections, and THAT’S OK ! Hub Sites is now allowing the  creation of Family of sites. #hubsbeforesubs

 

#gomodern
To read more about this : https://aka.ms/planningSPHubsites