Techno 7: Kwaliteit van databanken

De kwaliteit van gegevenbanken evalueren en verbeteren

Velen onder ons zullen zich nog de dagelijkse ongemakken herinneren die volgden op de oliecrisis van 1973: files aan de benzinepompen, rijverbod op zondag. In de Verenigde Staten had het olie-embargo van de Arabische landen een bijzondere invloed. Bij de politieke moeilijkheden die de regering van Jimmy Carter toen kende, kwam nog de grote achterdocht over de kwaliteit van de energiestatistieken die voorgesteld werden door de federale overheid om de rampzalige economische situatie te rechtvaardigen. De Amerikaanse publieke opinie verweet de regering dat zij, in het beste geval, naïef was geweest en, in het slechtste geval, dat zij samengespannen had met de enige informatieproducenten ter zake: de olie-industrie zelf. Om een einde te maken aan de polemiek kreeg het Department of Energy de opdracht één van de grootste audits van gegevensbanken aller tijden uit te voeren: gedurende bijna 5 jaar werden meer dan 400 informatiesystemen en ongeveer 2200 gegevensbanken geïnspecteerd.

Daartoe werden tientallen consultancy-bureaus gemobiliseerd. Gezien de omvang van de te verwerken informatie was het onmogelijk elke gegevensbank grondig te analyseren en men werkte dan ook procedures uit voor statistische analyse, overgenomen van de analysemethoden voor de industriële productie. Geleidelijk werd echter duidelijk dat het essentiële probleem niet zozeer de traditionele foutenanalyse was maar wel dat het ging om een kwestie van interpretatie. Het belangrijkste probleem lag namelijk in het gekruiste gebruik van gegevens waarvan de benaming identiek was maar die een verschillende betekenis hadden. Sommige gegevensbanken in verband met de energieverkoop waren bijvoorbeeld vermengd met en gekoppeld aan andere gegevensbanken in verband met het energieverbruik. Gegevens die verzameld waren in de context van de inventarissen werden gebruikt in andere systemen om de distributie te meten. Afzonderlijk gezien waren de gegevens "correct" maar de problemen doken op wanneer de in verschillende contexten gecreëerde inlichtingen samengevoegd werden.

Ondanks deze eerste resultaten is de zaak van de interpretatie van gegevensbanken nog lang niet uit de wereld. Het is pas sedert het begin van de jaren negentig dat een nieuw onderzoeksgebied, "data quality research" genaamd, zich werkelijk is gaan ontwikkelen. Het blijkt namelijk dat in de wereld van de industrie, de ondernemingen en de administraties de kwaliteit van de informatie één van de belangrijkste elementen is op het vlak van financiën en concurrentie.

Na een korte definitie van wat men onder “kwaliteit van gegevensbanken” verstaat, zullen wij in deze Techno drie recente technieken voorstellen en evalueren die erop gericht zijn de kwaliteit van geïnformatiseerde gegevens te analyseren en te verbeteren. Deze studie kadert bovendien in de bredere context van de methoden ter verbetering van het “software process” waarvan zij specifiek de vragen behandelt in verband met de kwaliteit van de informatie.

Techno 7 (171 kB)