[JSS 2014] Data Mining Avec SSAS et Azure ML

Speaker : Patrice Harel

Titre : Data mining Avec SSAS et Azure ML

Objectif : Comparaison de Mise en place d’un process de Data Mining avec SSAS Vs Azure Machine Learning

 

Introduction :

Une introduction theorique sur le data mining

Les données utilisées pour la démo sont les données des accidents sur les routes (source : data.gouve.fr  2006-2011)

Les Données ne sont pas très volumineuses (700 000 lignes) mais avec plusieurs colonnes (attributs), l’objectif est de trouver des relations entre les attributs.

Exemple des attributs: Catégorie de route \ Luminosité \ Type d’agglomération \ Conditions atmosphériques

Data Mining :

Le premier travail du data-mineur est:

  • s’approprier le domaine métier
  • Donner du sens supplémentaire aux données ou l’information
  • Etablir une corrélation entre les attributs

Exemple : Luminosité vs condition atmosphériques: Si il y a beaucoup  de brouillard donc forcément peu de luminosité.

Ce premier travail a pour but de définir quels attributs vont contribuer dans le travail du data mining.

Les données peuvent être utilisées directement dans leur état brut. De préférence avoir des  données propres et organisées, sans pour autant les stocker dans une Base SSAS.

 

Un petit tableau de comparaison :

Data mining Machine Learning
Appliquer des algorithmes de recherche de modèles (patterns) sur d’importants volume de données Se réfère à la partie algorithme du data mining
Trouver des relations supplémentaires, faire de la prédiction, intelligible pour un humain « Désigne les ajustements dun système par lui-même dans le sens ou ce système pourra effectuer une même tâche une seconde fois mais de manière plus efficace »
Né des besoins sur les bases de données Né des besoins en intelligence artificielle

 

Les étapes de mise en place d’un modèle de datamining :

  • Se poser les bonnes questions, définir ses objectifs (si le résultat est non satisfaisant, il faut se poser la question est-ce que le résultat est mauvais ou est-ce qu’on s’est posé les mauvaises questions)
  • Définir deux types de variable :
    • les variables explicatives (condition atmosphérique)
    • Les variables à expliquer (le nombre de morts et de blessés)
  • Définir la population cible : a qui est destiné l’étude
  • Scinder la source de données en deux
    • Un échantillon de travail
    • Un échantillon de validation

Les études du Datamining mettent à notre disposition des données utiles qui complémentent celles de la BI,

 

Différence entre l’analyse descriptive et l’analyse prédictive :

Analyses descriptives : Quels sont les clients qui consomment le plus de parfums.

Analyses prédictives : Quel va être mon chiffre d’affaire l’année prochaine.
Dans notre cas d’étude « Essayer de prévoir selon les caractéristique de l’accident si oui ou non il va y avoir des morts et\ou des blessés »

 

Cycle de développement :

  • Choix du sujet, définition des objectifs
  • Inventaire des données disponibles
  • Extraire, transformer, corriger et rassembler les données (évacuer les données aberrantes, Choisir des variables ni trop corrélées ni très peu corrélées avec la variable qu’on veut expliquer)
  • Statistiques descriptives
  • Choix de l’algorithme
  • Souvent dans le datamining on crée des variables booléens, c’est plus facile à traiter
  • Validation du modèle, déploiement

 

La problématique :

Puis-je prédire, en fonction des caractéristiques d’un accident si il y aura ou non des morts/hospitalisés?

  • Création d’une nouvelle variable : EstGrave (Booléen)

 

Objets SSAS DM :

SSAS DM

Case : la table qui va contenir les caractéristiques de notre étude de cas

Nested : la table qui contient des caractéristiques complémentaires (pas indispensable)

Input : variables explicatives

Output : variables à expliquer

DEMO Datamining sous SSAS :

Les étapes de création dans SSDT :

  • Créer une solution SSAS
  • Définir une data source
  • Créer data source view
  • Créer la structure mining
  • Choisir le modèle de mining à utiliser (L’algorithme) : Arbre de décision
  • Choisir les cas & nested
  • Key : identifiant de chacune des instance de nos case
  • Input : var explicatives
  • Predict : var à expliquer
  • Définir le pourcentage de data pour l’étude, et le reste servira à la validation (30/70)
  • Observer le résultat : la courbe Lift permet de définir le niveau de prédiction du modèle (80%)

PS : Un modèle qui fait 60% est considéré comme pas mal, 75% est très bon, 90% est parfait.

 

Object Azur Machine Learning :

AML

 

DEOM AML :

Les étapes de création :

  • Créer une nouvelle expérimentation (l’interface ressemble à SSIS)
  • Importer le data set (pas de possibilité de travailler sur des externes)
  • Ajouter le composant Project column (selectionner les attributs que l’on va utiliser)
  • Ajouter le composant Split (30%, 70%)
  • Choisir le model (Algo): 2 class (boosted decision tree)
  • Choisir la variable à expliquer
  • Evaluate
  • Run
  • Résultat : 76% (algo est légèrement diffèrent par rapport à celui implémenté dans SSAS)

 

Conclusion :

Conclusion

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s