Speakers : Rakesh Parida & Mathew Roche – Niveau : 300
Description : Résolution de problèmes complexes de qualité de données avec DQS (Data Quality Services)
- Qu’est-ce que DQS ?
Service SQL Server 2012 qui permet de traiter de la qualité de données : mettre de la cohérence, de la complétude, exactitude, conformité, lisibilité dans les données.
Comprend un ensemble de processus, une base de connaissance et l’accès à des web services tiers de traitement de données spécialisés.
- Terminologie dans DQS
KB : Base de connaissance
Domain : Champs avec des règles de gestions, des listes de valeurs sémantiques connues et des tables de correspondances
Composite Domain : Collection de domaines
Cleansing : Nettoyage de données
Matching : Mise en association de données
- Composite « Domain »
Exemple une adresse est un « Composite Domain » : une adresse avec les domaines Rue, Ville, CP
Quand pas assez d’adresse dans la KB, on fait du Reference Data pour utiliser un service tiers de Check Address (Melissa)
Sinon on peut utiliser la base de connaissance.
Les champs de la source à traiter seront comparés au champs du domaine composite, et si la KB est bien entrainée les corrections des données deviennent pertinentes.
- Enrichissement de la KB (« Knowledge Base »)
Translation de valeur ex MS Corp. en Microsoft Corp.
Correction de la casse
Correction des fautes d’orthographe
TBR : Term Based Relationships = tables de correspondances pour gérer les synonymes, erreurs et les valeurs invalides
Inclus les similarités sémantiques : Big Apple= New York
- Au-delà du « Cleasing » simple
- Résolution de « Matching » complexe
Sébastien