Techno 7: Qualité des bases de données

Evaluer et améliorer la qualité des bases de données

Nous sommes nombreux à nous souvenir des inconvénients quotidiens qui suivirent la crise pétrolière de 1973 : files devant les pompes à essence, interdiction de circuler le dimanche,... Aux Etats-Unis, l’embargo pétrolier des pays arabes eut un impact particulier. Aux difficultés politiques que connaissait alors le gouvernement de Jimmy Carter s’ajouta une immense vague de suspicion sur la qualité des statistiques en matière d’énergie présentées par les autorités fédérales en vue de justifier la situation économique désastreuse. L’opinion publique américaine reprochait au gouvernement d’avoir été, au mieux, naïf et, au pire, en collusion avec les seuls producteurs d’information en la matière: les industries pétrolières elles-mêmes. Afin de mettre un terme à la polémique, le Department of Energy fut chargé de mettre en place l’un des plus vastes audits de bases de données de tous les temps: pendant près de 5 ans, plus de 400 systèmes d’information et près de 2200 bases de données furent inspectés.

Des dizaines de sociétés de consultance furent mobilisées à cette fin. Vu l’ampleur de l’information à traiter, il était impossible d’analyser en profondeur chaque base de données et des procédures d’analyse statistique, héritées des méthodes d’analyse de la production industrielle, furent mises en place. Mais progressivement, il est apparu que le problème essentiel ne relevait pas d’une analyse traditionnelle de l’erreur mais d’une question d’interprétation. Le problème le plus significatif résidait en effet dans l’usage croisé de données dont la dénomination était identique mais dont la signification était distincte. Par exemple, certaines bases de données relatives aux ventes d’énergie étaient confondues et couplées avec d’autres bases de données relatives à la consommation en énergie ou encore, des données collectées dans le contexte des inventaires étaient exploitées dans d’autres systèmes en vue de mesurer la distribution. Considérées individuellement, les données étaient  "correctes" mais les problèmes survenaient lorsque des informations créées dans des contextes différents étaient couplées.

Malgré ces premiers résultats, la question de l’interprétation des bases de données est loin d’être épuisée. Ce n’est que depuis le début des années nonante qu’un nouveau domaine de recherche, appelé "data quality research" s’est réellement développé. Il apparaît en effet que dans le monde des industries, des entreprises et des administrations, la qualité de l’information est l’un des enjeux financiers et compétitifs les plus importants.

Après une brève définition de ce que l’on entend par "qualité des bases de données", ce Techno présente et évalue trois techniques récentes destinées à analyser et à améliorer la qualité des données informatisées. Cette étude s’inscrit par ailleurs dans le cadre plus large des méthodes d’amélioration du “software process”  dont elle envisage spécifiquement les questions liées à la qualité de l’information.

Techno 7 (171 kB)