Débutez instantanément un projet avec la Data Science Virtual Machine

Le cloud Azure est un espace qui permet de créer des machines virtuelles (VM) pour tout besoin d’Infrastructure as as Service (IaaS). Il existe aujourd’hui une déclinaison spécifique d’une machine virtuelle dédiée aux Sciences de Données : la Data Science Virtual Machine (DSVM).

Sa création se fait en quelques minutes sous un compte Azure.

 

Une fois la VM déployée et démarrée, on utilise le principe de connexion de bureau à distance.

Une boîte à outils toute prête

Cette VM possède l’atout majeur d’être préconfigurée avec la plupart des applications de la boîte à outils des Data Scientists. Passons les principaux outils en revue :

  • SQL Server 2017 Developer Edition : le serveur de bases de données relationnelles est préconfiguré sur la VM et contient déjà une base de données de test (les fameux taxis new-yorkais). Il n’y a pas à se poser de question de licence ou de paramétrage. Depuis sa version 2017, SQL Server dispose d’un quatrième service nommé ML Services qui permet d’exécuter du code R ou Python encapsulé dans un script T-SQL.

  • Microsoft ML Server Developer Edition : il s’agit de la version autonome de ML Services, indépendante de l’installation de SQL Server. Il sera alors par exemple possible de travailler avec le format de fichier optimisé pour le travail par « chunck » et en mémoire : XDF.
  • Visual Studio Community Edition : l’interface préférée des développeurs qui baignent dans l’univers Microsoft
  • Jupyter notebook (avec noyaux R, Python, PySpark) : les notebooks sont des interfaces web qui permettent d’exécuter du code à la volée et de visualiser les résultats de manière intermédiaire entre les blocs d’instructions. En quelques années, les notebooks se sont imposés comme la présentation la plus claire d’un code et de ses résultats. Leur force réside également dans leur capacité à exécuter un grand nombre de langages.

A la première utilisation, il faut définir un nouveau mot de passe puis redémarrer le service.

Sur Windows, se connecter à la page https://localhost:9999

Sur Linux, se connecter à la page https://localhost:8000

Ajouter ensuite une exception de sécurité dans le navigateur.

Le notebook est alors accessible et présente de nombreux exemples de codes.

  • Power BI Desktop : on ne présente plus l’outil de BI Self Service de Microsoft qui permet de réaliser très rapidement des transformations puis une exploration des données. On ne l’utilisera toutefois pas ici pour sa capacité à diffuser et partager des tableaux de bord.
  • Azure Machine Learning Workbench : le nouvel outil dédié au Machine Learning de Microsoft est sorti en préversion depuis septembre 2017. Pour l’instant, il présente surtout une interface graphique très efficace pour la préparation des données. A termes, il servira de plateforme pour le déploiement et l’exécution de modèles sur un environnement Docker, éventuellement couplé à Spark. Nous traiterons de ce produit dans un prochain article.
  • Instance autonome Spark pour le développement local et le test

Citons également la distribution Anaconda de Python, JuliaPro et quantités de librairies R et Python dédiées au Machine Learning.

Bien sûr, il reste possible d’ajouter d’autres applications puisque nous travaillons ici avec une machine virtuelle.

Des configurations différentes à disposition

Le premier choix à effectuer face à l’offre des DSVM est celui du système d’exploitation : Windows 2012, Windows 2016 mais aussi Linux Ubuntu. Pour ce dernier, l’accès pourra se faire par connexion SSH mais aussi en lançant un bureau plus visuel au moyen du client X2Go.

Ensuite, se posera la question du dimensionnement de la VM. Les configurations varient légèrement selon le système d’exploitation. On jouera ici sur le type de disque pris en charge (SSD ou HDD), le nombre de processeurs virtuels (de 1 à 32) et la mémoire vive (jusqu’à 448 Go !)

La tarification évoluera en fonction de la configuration choisie et pour ces configurations comparables, il semble que la version Linux soit moins chère. Comme dans de nombreux services Azure, le coût s’évalue à l’heure d’utilisation. Il sera donc prudent d’enclencher l’arrêt automatique quotidien à une heure donnée. Le redémarrage reste quant à lui manuel.

Convaincu.e.s par la simplicité de déploiement de la DSVM ? Quel sera votre prochain projet de Data Science qui trouvera là son parfait terrain de jeu ?

Une variante pour le Deep Learning

Le Deep Learning est une évolution des réseaux de neurones, au cœur des méthodes d’apprentissage automatique, qui fait grand bruit par ses succès actuels, particulièrement dans la reconnaissance d’images. De nombreux frameworks existent pour « l’apprentissage profond » qui nécessitera des ressources importantes pour le calcul : Microsoft Cognitive Toolkit, TensorFlow, Keras, Theano, Caffe2, Chainer, Deep Water (H2O), etc. Il sera donc nécessaire de faire appel à la puissance des GPU et ce sont donc des VM spécifiques (mais plus chères) qui sont associées à ce besoin.

Nous traiterons du Deep Learning et de la DLVM dans un prochain article.

Paul PETON – Lead Data Scientist

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion /  Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion /  Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion /  Changer )

w

Connexion à %s