Data Governance ist ein umfangreiches, oftmals trockenes Thema. So zumindest meine Auffassung, als ich vor mehr als einem Jahr zum ersten Mal damit konfrontiert wurde. Aber wieso? Gibt es nicht eine Möglichkeit, das Thema lockerer einem weniger technischen Publikum zu erklären? Challenge accepted! Es folgt ein Versuch, einige Komponenten von Data Governance mit Metaphern aus bekannten Filmen euch näherzubringen. Wenn auch nur bedingt – da hier wiederum etwas Filmwissen vorausgesetzt wird.
Zurück in die Zukunft – Data Quality
Marty McFly und Doctor Emmet Brown haben es in der «Back to the Future»-Trilogie vorgemacht: Manchmal muss man einen Schritt zurückgehen und einige Dinge aus der Vergangenheit korrigieren, um die Zukunft besser zu gestalten. Genau gleich verhält es sich mit der Datenqualität in einem Unternehmen: Nur mit einer sauberen Datenlage (aus der Vergangenheit) lassen sich nützliche und aussagekräftige Auswertungen (für die Zukunft) erstellen. Dazu braucht es nicht einmal einen DeLorean mit Fluxkompensator!
Mit einfachen Mitteln aus der Gegenwart sind wir in der Lage, Datensätze zu bereinigen, zu korrigieren und zu vervollständigen. Wir möchten ja keine Auswertungen, die durch falsche, unvollständige oder überflüssige Daten verfälscht werden. Gut gemeinte Entscheidungen, welche auf Basis von falschen Daten entstehen, können für ein Unternehmen verheerende Auswirkungen haben.
Achtet man nicht auf die Datenqualität, können die daraus generierten Reports durchaus wie das alternative Hill Valley 1985 daherkommen – GREAT SCOTT!

Nightmare on ETL Street – Data Lineage
Daten bewegen sich. Sie fahren von A nach B. Oder eher von Q nach Z – von der Quelle zum Ziel. Während die Quelle den Ort darstellt, wo die Daten generiert werden (beispielsweise in einem operativen System, welches für die Erfassung von Bestellungen verantwortlich ist oder der Pflege von Kundendaten), stellt das Ziel die finale Aufbereitung der Daten dar, welche für das Reporting verwendet werden. Diese beiden Orte sind durch die ETL-Ladestrecke verbunden – nennen wir sie ETL-Street, angelehnt an die aus dem Horrorfilm bekannten Elm-Street. ETL steht für Extract, Transform und Load und beschreibt den Prozess des Bezugs (Extract) der Daten aus der Quelle, deren anschliessende Transformation/Aufbereitung (Transform), damit Sie in die Form gebracht werden, mit welcher sie optimal genutzt werden (Datenqualität verbessern) und schlussendlich in das Ziel geladen (Load) werden können. Hat man diesen Prozess nicht im Griff, beispielsweise durch viele verschiedene Transformationsschritte, kann dieser Prozess schnell zum Albtraum werden.
Data Lineage beschreibt die Rückverfolgbarkeit der Daten über deren gesamten Lebenszyklus. Also von deren Erstellung, über die Verarbeitungsschritte bis hin zur finalen Aufbereitung in einem Report. Darüber hinaus bis zu deren Löschung aufgrund regulatorischen Anforderungen o.ä. Wenn man mittels Data Lineage also weiss, welche Daten wo, wann und wie verarbeitet werden, kann man Doppelspurigkeiten, Fehlmanipulationen und diverse weitere Fehlerquellen schneller identifizieren und verhindern. So, dass die ETL-Street paradiesisch und übersichtlich daherkommt – und nicht, wie in einem Albtraum.

Der Herr der Daten – Die (Daten-)Gefährten
Daten sind etwas vom wertvollsten und mächtigsten, das ein Unternehmen hat. Sie dienen dazu, sein Geschäft besser zu verstehen, zu steuern und sind pures Gold wert. In der Herr der Ringe Trilogie, gibt es etwas ähnliches: Den einen Ring! Ein Objekt, das die Macht hat, die ganze Welt zu verbessern oder, in den falschen Händen, in Dunkelheit zu stürzen. Somit bedarf dieses unsäglich wichtige Objekt einen Besitzer, der es kennt und damit umzugehen weiss. Gleiches gilt für den «Ring» in Unternehmen. Daten brauchen jemanden, der sie versteht. Der weiss, woher sie stammen und wozu sie nutzen. Der erkennt, wenn deren Qualität leidet und diese zu verbessern weiss – einen Data Owner, im Sinne eines «Datenverantwortlichen».
Eine Person über alle Daten wachen zu lassen, ist bei weitem nicht sinnvoll. Stattdessen sollen Datendomänen (die Aufteilung der Daten in verschiedene Bereiche) definiert werden, welche jeweils einem Owner angehören. Im Bankenbereich können das beispielsweise Kundenstammdaten, Produktdaten (evtl. unterteilt in Produktkategorien), Finanzdaten/Rechnungswesen etc. sein.
Ein Data Owner soll nicht wie Gollum mit seinem «Schaaatz» in seiner Höhle versauern, sondern sein Wissen und die aktuellen Tätigkeiten um seine Daten teilen können. Verschlechterung der Datenqualität kann auch Einfluss auf Daten anderer Domänen haben. Sie können beispielsweise vom gleichen ETL-Prozess abhängig sein. Gleiches gilt für neue Funktionen oder Projekte, welche die Daten in Bezug auf deren Struktur, Verfügbarkeit, etc. verändern können. Auch dies kann Einfluss auf mehrere Datenbereiche haben.
Innerhalb der Data Governance soll es also auch eine Plattform geben, wo sich Personen, die mit Daten zu tun haben an einen Tisch setzen können, um sich auszutauschen. So dass Data Owner, Data Manager und weitere Personen, welche die Daten in irgendeiner Form benutzen, ein gemeinsames Verständnis aufbauen und daraus notwendige Entscheide treffen und Arbeiten delegieren können. Um die letzte Analogie zu Herr der Ringe zu schlagen, wäre ein solches Gremium Elrond’s Rat gleichzusetzen. Das wohl für die Trilogie wichtigste Meeting, bei welchem über das Schicksal des einen Ringes entschieden und Rollen sowie Aufgaben verteilt wurden, um Mittelerde zu retten.

Die (fast) unendliche Geschichte
Drei Themen aus Data Governance haben ausgereicht, um den Rahmen dieses Blogeintrags fast zu sprengen. Aber Data Governance besteht nicht nur aus Datenqualität, Data Lineage und Data Ownership: Data Architecture, Data Security, Metadata und Data Warehousing sind nur einige weitere davon, welche sich mit Filmen wie Inception, Ocean’s Eleven, Jurassic Park, Indiana Jones, Star Wars, Matrix, Tron… und… und… und, vergleichen liessen. Aber irgendwann muss auch bei einem Blogeintrag der «Abspann», gefolgt von einem «The End» oder allenfalls «To be continued»(?) kommen.
Was? Du hast bis hierhin gelesen? Also gut. Wie es heutzutage bei Filmen nicht selten ist, dass nach dem Abspann noch eine sogenannte «Post Credits»-Szene folgt, hier noch einige Informationen über den «Regisseur» dieses Eintrags. Vielen Dank fürs Lesen!
