Collibra in het wild

Een gedetailleerde case study van Collibra implementatie bij een Belgische retailbank, waarin de praktische toepassingen van data governance, data lineage en data quality worden verkend.

Demo cases of de informatie op de website is meestal geschreven voor best case scenario's, maar niet altijd representatief voor de echte wereld. Ik had het geluk dat de Chief Data Officer van een Belgische retailbank zo vriendelijk was om een gesprek op te zetten met hun implementatiepartner van Collibra, en een paar weken later kreeg ik de mogelijkheid om een begeleide rondleiding door hun omgeving te volgen.

Over het algemeen was ik onder de indruk van de enorme omvang van het data governance programma bij de bank en de capaciteit en flexibiliteit van Collibra om dit soepel af te handelen. De snelheid waarmee bepaalde regulatoire vereisten zoals BCBS 239 en GDPR werden geïmplementeerd, dwong de banken om zeer snel data governance systemen in te voeren.

Dit verklaart het feit dat zij zeer vroege adopters waren van het data governance platform. Verbeteringen zijn zeker mogelijk in de manier waarop Collibra wordt geïmplementeerd bij deze Belgische retailbank. Mogelijk zouden de volgende stappen kunnen zijn om business termen en logische datamodellen verder te integreren en de verschillende technologieën af te stemmen om het automatiseren van de data catalogs en lineage te faciliteren.

Wat doet een data platform?

Als ik vanaf een blanco blad zou moeten starten en beschrijven wat ik zou verwachten dat een data management platform doet, kwam ik op twee dingen: data catalog en data lineage. Een blik op de website van Collibra leert me snel dat ik het data quality component van een dergelijk platform miste.

Op de website van Collibra vinden we de volgende producten: Data Governance, Data Catalog, Data Privacy, Data Lineage en Data Quality. Voor mij is een data catalog het startpunt voor een data dictionary waarvan data privacy een attribuut is. Maar ik wil niet verdwalen in een semantische discussie rond deze termen dus probeer ik de taal zo helder mogelijk te houden - zoals Jo ons leerde bij Deloitte - en veronderstel dat een data platform drie dingen zou moeten doen: data dictionary, data lineage en data quality.

Data Governance Portal

Collibra bij een Belgische retailbank

Collibra is georiënteerd naar de gebruikers in de business, terwijl andere data governance tools zoals Microsoft Purview of Informatica Axon meer gebouwd zijn voor technische IT specialisten. De startpagina voor Collibra bij deze bank laat toe om deze aanpak te reflecteren door zichzelf te presenteren als een hub waar onderwerpen over Data inventory, Data sharing, Data quality, Data usage, en Enterprise Data Model verkend kunnen worden. Sommige van die onderwerpen lijken niettemin gericht op meer technische gebruikers.

Portal

Data dictionary

Het data dictionary overzicht bevat een lijst met applicaties, de tribe waarin ze zich bevinden, hun asset manager, een link naar de data dictionary en een beschrijving. De integratie van Enterprise Data Models in SAP PowerDesigner in Collibra is aan de gang. Als de link tussen het conceptuele model van business termen en het logische model in PowerDesigner goed gedocumenteerd is, zal Collibra in staat zijn om de data catalog automatisch te bouwen. Voor nu is dit al het geval voor Business Objects rapporten, waar de namen van de velden overeenkomen met de namen van de data elementen in de business.

Een mogelijke use case hier is, als een business intelligence developer bepaalde data wil gebruiken in een rapport, kan zij shoppen voor data in de data catalog en toegang vragen tot de referential, die ervoor zal zorgen dat het gebruik van de data voor een legitiem belang is en een bepaalde periode gedefinieerd wordt.

Een andere use case is de mogelijkheid om data governance te installeren als een gate die gepasseerd moet worden bij het ontwikkelen van een nieuwe applicatie, net zoals security en architectuur gates zijn die gepasseerd moeten worden. In het geval van de data governance gate zullen de vereisten zijn dat de privacy en ethiek van het data gebruik gegarandeerd en goed gedocumenteerd zijn.

Data dictionary

Data lineage

In de data inventory kun je de data lineage vinden, wat betekent de manier waarop de verschillende data elementen door de verschillende systemen stromen. In het voorbeeld kun je zien in welke applicaties het e-mailadres gebruikt wordt. Dit maakt het soort traceerbaarheid mogelijk dat verplicht is voor banken. Je kunt ook de master source identificeren voor de verschillende business termen en technisch zou het mogelijk zijn om master data management in Collibra te implementeren door workflows te implementeren.

Data lineage

Deze data lineage in Collibra bij de bank wordt niet automatisch gegenereerd gebaseerd op de analyse van data transfer processen, zoals ik verwachtte, maar werd verzameld op een declaratieve manier. Dit betekent door het interviewen van de verantwoordelijken over het gebruik van de verschillende data elementen. Technisch is het mogelijk om een parser te schrijven op het sql script om de data lineage informatie uit de databases en ETL tools te extraheren, maar dit is nog niet geïmplementeerd bij deze Belgische retailbank.

Data quality

De data quality regels worden ontwikkeld op verzoek en het resultaat wordt weergegeven in Collibra. Het is interessant om de verschillende data quality dimensies te zien die getest worden in de verschillende regels: timeliness, completeness, validity, uniqueness, consistency, accuracy. Data quality is zeer belangrijk met het oog op de regulatoire omgeving voor een bank.

Machine learning kan gebruikt worden voor data classificaties. Op deze manier zal het algoritme een datatype voorstellen voor een bepaald data element en een percentage van zekerheid dat dit veld daadwerkelijk van dit type is. Bijvoorbeeld, een e-mailadres.

Data quality

Conclusie

Houd er rekening mee dat dit een zeer specifieke vroege instantie van Collibra is, die niet alle nieuwste features tot zijn beschikking heeft. Om een beter beeld te krijgen van de nieuwste toevoegingen en extensies raad ik aan om een kijkje te nemen bij Collibra University. Een van de redenen dat ik beter wilde begrijpen wat Collibra doet, is om te zien of het interessant zou zijn om een data governance platform te implementeren als kleinere of middelgrote ondernemingen. Rekening houdend met de inspanning in werk en budget zie ik alleen een use case in sectoren met zeer strenge regelgeving betreffende data in organisaties van een bepaalde grootte.