Wanneer heb je een datawarehouse nodig?

Data van verschillende applicaties transformeren en integreren in een vorm die geschikt is voor data-analyse? Dit wordt gedaan in een datawarehouse.

Data komt tot stand wanneer een medewerker de signalen die door een proces worden gegenereerd in een applicatie plaatst en de data hun weg vinden naar de onderliggende database. Maar deze databases zijn niet goed geschikt om te gebruiken voor data analyse.

Relationeel model

Deze databases hebben meestal een relationeel gegevensmodel. Dit type model is uitgevonden om banktransacties te verwerken. Het is erg goed voor het verwerken van grote hoeveelheden transacties, maar niet voor het genereren van inzichten in de gegevens. Er zijn verschillende redenen waarom dit het geval is.

Uitdagingen van het relationeel model

Tabellen in een relationeel model kunnen verschillende rollen vervullen. Een tabel 'relaties' kan zowel leveranciers als klanten bevatten. Maar in onze analyse willen we bijvoorbeeld weten hoe winstgevend een bepaalde groep klanten is, dus moeten we deze tabel opsplitsen.

De evolutie in de tijd tussen de verschillende meetpunten in een proces kan veel inzicht opleveren, maar de toepassing slaat deze historische datapunten niet altijd op omdat ze niet nodig zijn om het proces te doorlopen.

Het kan heel goed zijn dat je verschillende applicaties gebruikt om je klant te helpen. Bijvoorbeeld een om bestellingen te plaatsen, een andere om facturen te verzenden en een derde om de bankgegevens op te volgen. De flow van order-to-cash (O2C) is een belangrijk proces om op te volgen, maar om deze analyse mogelijk te maken moet je data van de ene applicatie combineren met data van een andere.

Sommige van deze zaken zou je kunnen oplossen in je data-analyse of in de front-end van je data visualisatie tool, maar dit brengt bepaalde risico's met zich mee met betrekking tot onderhoudbaarheid en schaalbaarheid. Bovendien horen de complexere data integraties, die de meeste waarde hebben voor het bedrijf, niet thuis in deze tools. Daarom wordt vaak een extra stap toegevoegd waarbij de nodige transformaties kunnen worden afgehandeld om de gegevens efficiƫnt en correct te analyseren en te visualiseren.

Dimensionaal model

De transformatie om van een relationeel model naar een model te gaan dat beter geschikt is voor analyse wordt uitgevoerd in een datawarehouse (DWH). Het datamodel dat hier wordt gebruikt is een dimensionaal model of een data vault model.

Eigenschappen van een datawarehouse

Een datawarehouse bevat data over een bepaald domein binnen het bedrijf (domein gericht). Het integreert data uit verschillende bronnen (integratie) en houdt historische data bij (tijdvariant). Zodra data naar het datawarehouse worden geschreven, kunnen de data niet meer worden gewijzigd (niet-vluchtig). Door data analyse en -visualisatie te vergemakkelijken, ondersteunt het datawarehouse het besluitvormingsproces in een organisatie.

Hier om te blijven

Ondanks de vele innovaties en ontwikkelingen op het gebied van data analyse zal de noodzaak om data afkomstig van verschillende systemen te harmoniseren en te integreren nog een tijdje belangrijk blijven.

Waarschuwing

We zijn ons bewust van het belang om ongestructureerde gegevens en netwerkgegevens vast te leggen en te gebruiken die zijn opgeslagen in data lakes en die het best worden weergegeven door NOSQL- en Graph-databases. Omwille van de eenvoud maken we voorlopig abstractie van dit soort data. Laten we eerst onze small data op orde zetten, voordat we big data gaan gebruiken.