Data Quality

Problématique générale

La qualité d’une base de données désigne son adéquation relative aux objectifs qui lui sont assignés («fitness for use»). En raison des enjeux qu'elle soulève sur les plans financiers, sociaux, industriels, militaires, de la santé publique ..., la question est considérée depuis plusieurs années comme un facteur stratégique dans le secteur privé. Ainsi, plusieurs enquêtes menées aux USA indiquent que des facteurs tels que la multiplication de sources hétérogènes partiellement redondantes, de données incomplètes ou mal documentées entraîneraient un coût s'élevant jusqu'à 15 % du revenu des entreprises. Dans notre domaine, la dématérialisation de l’information et la mise en ligne, via Internet, de services transversaux pour les citoyens et les administrations, à la base de l’e-government, rendent cette question plus que jamais cruciale.

Comment, dès lors, en tant qu'administration, palier aux possibles dysfonctionnements qui en découlent? Mieux encore, quelles procédures appliquer afin d'anticiper et de maîtriser de manière continue ce type de problème?

Le centre de compétences Data Quality

Le centre de compétences Data Quality fait partie de la section Recherches de Smals. Le centre de compétences peut se targuer d’une expérience intensive sur le terrain depuis 2004. Pour la plupart des projets, les membres de la cellule Data Quality travaillent main dans la main avec diverses divisions de Smals, comme la section Développement des applications & Projets, Traitement de l’information ainsi que la section Statistiques ou avec les services de clients et d’institutions membres. Les différentes tâches sont ensuite réparties en concertation avec chacun.

En parallèle avec les missions de consultance autour de la qualité des bases de données administratives des institutions membres, les collaborateurs du centre de compétences donnent aussi des formations et mènent des recherches actives dans ce domaine.

Cliquez ici pour consulter les sessions d’information du centre de compétences Data Quality de la section Recherces.

Nos activités sont soutenues par une expertise scientifique de haut niveau, développée depuis dix ans dans un cadre universitaire et international (cours « data quality » dispensé par Isabelle Boydens, professeur à l’ULB, publications et conférences nationales et internationales, encadrement de mémoires et thèses de doctorat en synergie avec les travaux de la « cellule Data Quality »).

Consultance en Data Quality

Méthodologique

Sur le plan méthodologique, la data quality Cel propose une assistance à la mise en place de solutions intégrées pour améliorer de manière continue la qualité de l'information, via, entre autres:
•    l’analyse de la qualité des bases de données en fonction des besoins, enjeux et contraintes de type «coût-bénéfices»
•    la conception de systèmes de gestion historique des anomalies dans les bases de données
•    la conception d’indicateurs de suivi de la qualité
•    la mise en place de stratégies d'audit («data tracking») et de gestion reposant notamment sur le suivi dans le temps des anomalies et de leur traitement en vue d'en diminuer structurellement le nombre ainsi que le temps de correction
•    la conception de solutions d’intégration de données, de façon à diminuer la redondance d’information et à en assurer la cohérence
•    la documentation des données et des processus au fil de leurs versions et sur cette base, la mise en place d’un suivi continu de la qualité (formations, groupes de travail)

Technique - Data Quality Tools Service

Description de l'offre de service

Depuis fin 2009, Smals dispose d’outils de Data Quality. En 2008, le cahier des charges a été publié en deux phases puis testé de manière extensive. La solution qui a été choisie est le Trillium Software System (TS Discovery et TS Quality) de Trillium Software (voir également Gartner Magic Quadrants pour les outils de Data Quality des dernières années).

Ces outils nous permettent de mener ou supporter des projets, faisant face aux problématiques suivantes:
•    Data Profiling, y inclus des Business Rules;
•    Data Standardisation;
•    Data Matching, y inclus la détection de doublons;
•    Détection d'incohérences, détection de fraude;
•    Cleasing de noms et adresses (notamment en Belgique);
•    Intégrations et Migrations de données;
•    des combinaisons et variantes.
A cette fin, un moyen de production "DQRS" (Data Quality Run Set), a été créé.

Une description exhaustive de notre Data Quality Tools Service, le moyen de production DQRS, ainsi que des exemples concrètes d'application, vous trouverez ici.Data Quality Tools

Les avantages de l'utilisation des Data Quality Tools

•    Accélérer les phases d’analyse
Très rapidement, et dans n’importe quel contexte, des problèmes de qualité des données peuvent être constatés. Par exemple: le manque de standardisation, la présence de doubles, la violation de business rules,…
Ceci permet de mieux estimer ce qui doit être fait et l’effort que ceci nécessitera.
L’analyse est suivie d’un moment de concertation avec le business afin de définir une stratégie de solution. Il est alors examiné si les problèmes doivent être traités avec des outils de Data Quality, de manière partiellement automatique ou non.
•    Itérer mieux et plus rapidement avec des connaisseurs business
•    Fournir de meilleurs développements, opérer un coût de maintenance plus bas
L’on fournit de meilleurs développements qui tiennent compte des problèmes de qualité des données ou qui évitent des problèmes imprévus pendant le développement ou la production.
Ceci se fait en validant la stratégie, les méthodes et les résultats et en anticipant les change requests.
•    Estimer plus précisément les risques et l’effort requis
•    Meilleure préparation des migrations de données, mieux palier aux difficultés liées a l'intégration de données

Les alternatives Open Source

En outre, le Data Quality Comptetence Center suit également les évolutions des alternatives Open Source. En particulier, Google Refine est un produit puissant avec lequel il est possible d'effectuer de manière efficace et avec "roll-back" certaines opérations de "data profiling" et de "cleansing" sur une source de données. Une comparaison entre une source de données et une base de données publiques est par ailleurs possible. Un Open Source Product Review à ce propos est en cours d'élaboration (mars 2011).
Le DQCC évalue lors de la phase de "pré-inception" de chaque projet quel outil est le plus approprié pour traiter une problématique donnée.