Verband slechte data en mislukken digitale transformaties

door | 14-05-2020

Bij een pizza is de generieke bodem net zo belangrijk als de verschillende vullingen die erop liggen. Een slechte bodem verprutst immers elke pizza, hoe goed en lekker de inhoud ook is. Datzelfde geldt voor data en applicaties. Kwalitatief goede data is het vertrekpunt – en dus bodem – van elke applicatie. Immers er geldt voor alles: ‘garbage in, garbage out’. Hoe beter je de vertrekdata kunt kwalificeren, hoe hoogwaardiger die grondstof is voor de applicatie, des te beter élke output van die applicatie wordt. Procesgerichte kwaliteitsborging begint bij de data-input. Data zijn de grondstof, de bouwstenen en heipalen voor het fundament – de bodem – van onze informatiehuishouding. 

Digitale transformatie

Slechte datakwaliteit is de belangrijkste oorzaak van het mislukken van digitale transformaties. Daarom zouden bedrijven prioriteit moeten geven aan de datatransformatie. Immers, als de transformatie niet data-gedreven wordt opgezet, bouwt men de nieuwe informatiehuishouding op drijfzand. Zeker als we in die digitale transformatie (straks) willen gaan profiteren van AI, big data en machine learning. Je kunt miljoenen investeren in datalakes, clouds, datawetenschappers en Chief Data Officers, als de brondata van slechte kwaliteit is en blijft, is dat weggegooid geld.

Toch falen veel transformaties. En niet eenvoudig falen, maar spectaculair! Ongecontroleerd, bloemkolend en nauwelijks te stoppen. Uit tal van rapporten en onderzoeken blijkt dat meer dan 80 procent van de big data-projecten faalt. Er is de laatste tijd genoeg geschreven over hoe bedrijfsculturen en ongecontroleerde ambities leiden tot mislukte big data-projecten. Hier focus ik op hoe slechte datakwaliteit over het hoofd wordt gezien en zorgt voor één van de belangrijkste oorzaken van het mislukken van digitale transformaties.

Datatransformatie

Datatransformatie, het proces van het transformeren van onbewerkte data naar een goed kwalitatief bruikbaar formaat wordt vaak, ten onrechte buiten digitale transformatie projecten geplaatst. Bedrijven gaan er van uit dat ze, omdat ze datalakes, nieuwe clouds, nieuwe datacenters of nieuwe applicaties implementeren vanzelf hun data wel zullen transformeren. Dat is een gevaarlijke aanname. Het nieuwe ERP dat uw bedrijf zes maanden geleden implementeerde, stimuleert de operationele processen niet omdat gegevensproblemen in het legacy-systeem niet werden aangepakt. Het nieuwe CRM waarin uw marketingteam heeft geïnvesteerd om diepgaand klantinzicht te krijgen, levert niet de verwachte ROI op omdat het team geen gegevensbeheer of gegevenskwaliteitskader heeft.

Als je het verschil begrijpt tussen digitale en datatransformatie kan dit je dure fouten helpen voorkomen. Als organisaties data-gestuurd willen zijn, moeten ze beginnen met het begrijpen van hun gegevens, het oplossen van inconsistenties en het transformeren van hun gegevens. Digitale transformatie is het einde van het proces – datatransformatie is het begin!

Struikelblokken

Wat zijn de gebruikelijke struikelblokken die we bij digitale transformaties vaak tegenkomen? Gegevens zaten weg in verschillende bronnen. Vaak ook nog technische verschillende systemen met verschillende datastructuren. Hoe groter het bedrijf, hoe groter de kans dat gegevens in vele verschillende databases zijn opgeslagen, waardoor de organisatie een onevenredig en onnauwkeurig begrip van hun gegevens heeft. Dataclassificatie kan hier helpen om de data weer logisch te ordenen en bij elkaar te brengen.

Met mensen die handmatig gegevens invoeren, is er altijd een grote kans op slechte gegevens. Een mensafhankelijk gegevensverzamelingsproces zal altijd de belangrijkste oorzaak zijn van problemen met de gegevenskwaliteit. Een typefout, een contextueel begrip van een naam of locatie, een gemist nummer enz. Zijn allemaal kleine gevallen die de kwaliteit van de gegevens in de loop van de tijd aantasten. We treffen helaas vaak vele, lang bestaande data-omgevingen aan die nooit zijn geschoond op de aanwezige fouten. Men weet vaak niet eens wat de datakwaliteit is van de data die men bezit.

Dubbele gegevens

Een bedrijf kan dezelfde consumentengegevens verzamelen voor meerdere doeleinden. Jaar na jaar worden dezelfde gegevens op honderd verschillende manieren vastgelegd in vele verspreide dataomgevingen. Een verzekeringsmaatschappij had het moeilijk met jaarlijkse rapportage vanwege dubbele gegevens die over de maanden zouden worden verzameld. Een detailhandelaar moest zijn plannen voor bedrijfsuitbreiding met zes maanden uitstellen omdat hun gegevens niet het juiste beeld gaven. Welke data is immers waar? Welke data is de juiste als voor een productprijs vier prijzen gevonden worden?

Gegevens die geen uniforme bron van waarheid geven: een bank had het moeilijk om persoonlijke ervaringen voor hun klanten te creëren, omdat elk van hun diensten (lening, hypotheek, leningen voor kleine bedrijven, verzekeringen, enz.) zijn eigen gegevensbronnen had. Klantinformatie werd keer op keer gerepliceerd omdat ze verschillende diensten van de bank gebruikten. Zonder een geconsolideerde kijk op hun klanten kon de bank de reis van de klant niet begrijpen en leverde ze geen persoonlijke ervaringen op. Klant-centrisch werken kan alleen als de klantendata datacentrisch is georganiseerd. En tegenwoordig is klantdata zelfs over verschillende cloud verdeeld en weten we nauwelijks meer welke data in welke cloud staat.

Voorbereiding

Gegevens die niet zijn voorbereid op business intelligence: data cleansing is een technisch ETL-proces (Extract, Transform, Load), maar met impact in de echte wereld. Gegevens die niet zijn voorbereid – dus niet gereinigd of geoptimaliseerd – kunnen niet worden gebruikt voor business intelligence. Als een bedrijf concurrentiekansen of belangrijke inzichten in het publiek hoopt te behalen, kunnen ze dat niet doen met onvolledige, onnauwkeurige, verouderde, dubbele gegevens.

Net zoals andere grondstoffen is de kwaliteit en juiste samenstelling van data cruciaal voor een proces en het daaruit voortkomende eindproduct. Zeker als dat proces automatisch wordt, is een goed gemanagede grondstofkwaliteit essentieel om de proceskwaliteit te kunnen borgen. In de kapitaalgoederenindustrie is dat een no-brainer. In de niet- professionele wereld van datahuishoudens helaas (vaak nog) niet. Applicaties en clouddiensten worden verkocht als de panacee om alle proces uitdagingen aan te kunnen. Helaas ze vergeten te vertellen dat dat alleen maar juist is als de grondstof zuiver en correct is. Want daar zijn applicatie- en cloud leveranciers niet verantwoordelijk voor. Dat is de klant die dat moet doen . . .

Hans Timmerman

Na meer dan 10 jaar ervaring als CTO is Hans nu actief als Senior consultant, analyst en Trendwather. Vanuit die ervaring en met een scherpe blik schrijft hij artikelen over vraagstukken die hij tegenkomt.

Andere FXL Views

Share This
X