Heb jij een data warehouse nodig?

Data komt tot bloei wanneer een medewerker de data die wordt gegenereerd door een proces in een applicatie invoert, en de data zijn weg vindt naar de onderliggende database. Maar deze databases zijn niet goed geschikt om te gebruiken voor data analyse.

Data komt tot bloei wanneer een medewerker de data die wordt gegenereerd door een proces in een applicatie invoert, en de data zijn weg vindt naar de onderliggende database. Maar deze databases zijn niet goed geschikt om te gebruiken voor data analyse.

Relationeel model

Deze databases hebben meestal een relationeel data model. Dit type model werd uitgevonden om banktransacties te verwerken. Het is zeer goed in het verwerken van grote hoeveelheden transacties, maar niet in het genereren van inzichten in de data. Er zijn verschillende redenen waarom dit het geval is.

Uitdagingen van het relationele model

Tabellen in een relationeel model kunnen verschillende rollen aannemen. Een tabel 'relaties' kan zowel leveranciers als klanten bevatten. Maar in onze analyse willen we bijvoorbeeld weten hoe winstgevend een bepaalde groep klanten is, dus moeten we deze tabel opsplitsen.

De evolutie in tijd tussen de verschillende meetpunten in een proces kan veel inzicht brengen, maar de applicatie slaat deze historische datapunten mogelijk niet altijd op omdat ze niet nodig zijn om het proces door te lopen.

Het kan heel goed zijn dat je verschillende applicaties gebruikt om je klant te helpen. Bijvoorbeeld, één om bestellingen te maken en een andere om facturen te verzenden. Deze order-to-cash (OTC) is een belangrijk proces om te volgen, maar om deze analyse mogelijk te maken moet je data uit de ene applicatie combineren met data uit de andere.

Sommige van deze dingen zou je kunnen oplossen in de code van je data analyse of in de front end van je data visualisatie tool, maar dit brengt bepaalde risico's met zich mee met betrekking tot onderhoudbaarheid en schaalbaarheid. Bovendien horen de meer complexe uitdagingen, die de meeste waarde voor de business brengen, niet thuis in deze tools. Daarom wordt vaak een extra stap toegevoegd waar de noodzakelijke transformaties kunnen worden afgehandeld om de data efficiënt en correct te analyseren en visualiseren.

Dimensionaal model

De transformatie om van een relationeel model in een applicatie database naar een model dat beter geschikt is voor analyse te gaan wordt gedaan in een data warehouse (DWH). Het data model dat hier wordt gebruikt is een dimensionaal model of een data vault model.

Eigenschappen van een data warehouse

Een data warehouse bevat data over een bepaald onderwerp relevant voor de business (onderwerp-georiënteerd). Het integreert data uit verschillende bronnen (integratie) en houdt historische data bij (tijd-variant). Zodra data wordt geschreven naar de datawarehouse, kan de data niet meer worden veranderd (nonvolatile). Door data analyse en visualisatie te faciliteren ondersteunt de data warehouse het besluitvormingsproces in een organisatie.

Hier om te blijven

Ondanks de vele innovaties en ontwikkelingen op het gebied van data analyse, zal de behoefte om data die uit verschillende applicaties binnen een specifieke context komt te harmoniseren en integreren - en dus de datawarehouse - nog een tijdje belangrijk blijven.

Disclaimer

We zijn ons bewust van het belang om ongestructureerde data en netwerkdata die wordt opgeslagen in data lakes vast te leggen en te gebruiken en die het beste wordt gerepresenteerd door NOSQL en Graph databases. Voor de eenvoud abstraheren we voorlopig van dit type data. Laten we eerst onze small data op orde krijgen, voordat we onze big data aanpakken.

De transformaties om de data uit een applicatie te vormen in een vorm die beter geschikt is voor data analyse worden gedaan in een datawarehouse.