Data Quality

Algemene problematiek

De kwaliteit van een database verwijst naar haar afstemming op de doelstellingen die eraan werden toegekend ("fitness for use"). De inzet is groot op financieel, sociaal, industrieel en militair vlak en op het vlak van volksgezondheid ..., Daarom wordt de vraag sinds enkele jaren beschouwd als een strategische factor in de privésector. In 2016 schatte T. Redman de kosten van de “non quality” in de VS in zijn boek "Getting in front on Data" (p. 25): "$3,1 Trillions/year in the US, which is about 20 percent of the Gross Domestic Product". Onder impuls van het e-government, door de digitalisering van informatie en de online terbeschikkingstelling, via internet, van transversale diensten voor burgers en overheden, is deze vraag voor ons domein meer dan ooit cruciaal. Daarom maakt het beheer van data quality bijvoorbeeld integraal deel uit van de wettelijke verplichtingen in het kader van de sociale zekerheid gezien de aangegane uitdagingen (65 miljard euro sociale bijdragen en prestaties die jaarlijks via de RSZ ingehouden en opnieuw verdeeld worden).

Hoe kan een overheid er dan voor zorgen dat potentiële fouten zo weinig mogelijk schade berokkenen? Of beter nog, welke procedures kan zij toepassen om op deze fouten te anticiperen en dergelijke problemen permanent onder controle te houden?

Het Competentiecenter Data Quality

Het competentiecenter Data Quality maakt deel uit van de sectie Onderzoek van Smals. Het competentiecenter heeft een intensieve ervaring op het terrein sinds 2004. De leden van het competentiecenter Data Quality werken voor de meeste projecten samen met diverse afdelingen van Smals, zoals de sectie Toepassingsontwikkeling & Projecten, Informatieverwerking en de sectie Statistieken, of met diensten van klanten en lidinstellingen. De verschillende taken worden dan in onderling overleg verdeeld.

Parallel met de consultancyopdrachten omtrent de kwaliteit van de administratieve databases van de lidinstellingen geven de medewerkers van het competentiecenter ook opleidingen en verrichten zij actief onderzoek in dit domein.

Klik hier om naar de infosessies van de dienst Onderzoek te gaan.

Onze activiteiten worden ondersteund door een wetenschappelijke expertise van hoog niveau, die sinds meer dan tien jaar wordt ontwikkeld in een universitair en internationaal kader (cursus “data quality” gegeven door Isabelle Boydens, professor aan de ULB, nationale en internationale publicaties en conferenties, begeleiding van scripties en doctoraatsthesissen in synergie met de werken van het competentiecenter Data Quality).

Data Quality Consultancy

Methodologisch

Op methodologisch vlak biedt het competentiecenter Data Quality ondersteuning bij de implementatie van geïntegreerde oplossingen om de kwaliteit van de informatie continu te verbeteren, onder andere door:
•    de kwaliteit van de databases te analyseren, rekening houdende met hun doelstelling, hun belang, en de verhouding tussen kosten en baten
•    systemen te introduceren die toelaten de historiek van anomalieën in de databases te beheren
•    indicatoren uit te werken om de kwaliteit op te volgen
•    strategieën voor audit ("back tracking") en beheer voor de opvolging van anomalieën doorheen de tijd, om zo structureel het aantal anomalieën en hun correctietijd te verminderen (ATMS, Anomalies and Transactions Management System
•    oplossingen uit te werken om gegevens te integreren en zo de redundantie van de informatie te beperken en de coherentie ervan te garanderen
•    de gegevens en de processen te documenteren in al hun versies en op basis hiervan een continue opvolging van de kwaliteit op gang te brengen (opleidingen, werkgroepen)

Technisch - Data Quality Tools Service

Beschrijving van het dienstenaanbod

Smals beschikt sinds eind 2009 over Data Quality Tools. Het lastenboek met twee fasen werd in 2008 gepubliceerd en breedvoerig getest. De verkozen oplossing is het Trillium Software System (TS Discovery en TS Quality) van Trillium Software (zie ook de Gartner Magic Quadrants voor Data Quality Tools van de laatste jaren).

Met behulp van deze tools kunnen we projecten uitvoeren of ondersteunen, waarin volgende problematieken centraal staan:

•    Data Profiling, inclusief Business Rules;
•    Data Standaardisatie;
•    Data Matching, inclusief dubbeldetectie, ondersteund door technieken zoals “blocking”, waarmee de verwerking van grote datavolumes die e-government kenmerken performanter gemaakt worden;
•    Incoherentiedetectie, fraudedetectie;
•    Naam- en adrescleansing met behulp van kennisdatabanken die regelmatig bijgewerkt worden;
•    Validatie van e-mailadressen (syntax en domeinnaam);
•    Data-integraties en -migraties;
•    combinaties en varianten, waarmee de input van de business-specialisten in een incrementeel en iteratief proces gemakkelijk in aanmerking kan genomen worden.

Hiertoe is de tool beschikbaar in batch (productiemiddel "DQRS", Data Quality Run Set), maar ook als een onlinedienst (REST API, productiemiddel "DQAPI", Data Quality API).

Een volledige beschrijving van onze Data Quality Tools Service, het productiemiddel DQRS, en toepassingsvoorbeelden, vindt u hier.Data Quality Tools - Setrvices Offering

Voordelen van het gebruik van Data Quality Tools

•    Versnellen van de analysefases
In een korte tijdspanne kan in om het even welke context de aanwezigheid aangetoond worden van datakwaliteitsproblemen. Zoals bijvoorbeeld: het gebrek aan standaardisatie, de aanwezigheid van dubbels, het overtreden van business rules ...
Dit laat toe beter in te schatten wat er dient te gebeuren en hoeveel effort dit zal kosten.
Na de analyse volgt een overlegmoment met de business om een oplossingsstrategie te bepalen. Hierin wordt besproken de problemen al dan niet gedeeltelijk geautomatiseerd met data quality tools aan te pakken.
•    Sneller en beter itereren met business-kenners
•    Betere ontwikkelingen, lagere maintenance kost
Men levert betere ontwikkelingen af die met datakwaliteitsproblemen rekening houden of onvoorziene problemen tijdens de ontwikkeling/productie vermijden. Dit gebeurt door strategie, methodes en resultaten te valideren en in te spelen op change requests.
•    Accurater inschatten van risico’s en required effort
•    Betere voorbereiding van data-migraties, beter omgaan met de moeilijkheden van data-integratie

Open Source alternatieven

Daarnaast volgt het competentiecenter Data Quality ook de evoluties van Open Source alternatieven. Met name OpenRefine is een sterk product waarmee bepaalde “data profiling” en “data cleansing”-operaties van één databron efficiënt en met “roll-back” kunnen gebeuren. In dit kader kan OpenRefine een praktische oplossing bieden om een eerste keer de gegevens te verkennen, de omvang van de kwaliteitsproblemen te evalueren of indien nodig het beroep op krachtigere professionele tools te verantwoorden. Een vergelijking tussen een databron en een publieke database is overigens mogelijk indien het te verwerken datavolume niet te groot is, aangezien de capaciteiten van de tool op het vlak van performantie beperkt zijn. Een Quick Review werd in dit verband gepubliceerd in oktober 2013.

Het competentiecenter Data Quality evalueert bij pre-inceptie van elk project welke tool het meest geschikt is om de problemen aan te pakken.