Data Lineage – Wie NodeGraph transparente Datenflüsse schafft

Die Menge an Daten wächst immer schneller – Und wer kennt nicht die Schwierigkeit, die Übersicht über die Gesamtheit der Daten zu behalten? Hier kommt Data Lineage zum Einsatz, um die Herkunft wie auch alle Verarbeitungsschritte aller Daten zu ermitteln. Für Unternehmen mit der Business Intelligence Suite von Qlik ist NodeGraph das Tool der Wahl.

Was ist Data Lineage?
Der Begriff „Data Lineage“ bedeutet ins Deutsche übersetzt „Datenabstammung“ oder „Datenherkunft“ . Es handelt sich um eine Data-Intelligence-Technik, um Herkunft und Abstammung eines Datenobjektes zu ermitteln und zu visualisieren. Alle Einzelschritte innerhalb eines ETL-Prozesses sind von den Quelldaten bis zum betrachteten Datenobjekt in einem Report nachvollziehbar. Ein Datenobjekt wird beispielsweise zur Berechnung einer Kennzahl verwendet. Entgegen dem klassischen Business Intelligence (BI)-Ansatz (von der Quelle zum Report) geht Data Lineage hier den umgekehrten Weg.

Definition Data Lineage

„Data lineage uncovers the life cycle of data – it aims to show the complete data flow, from start to finish. Data lineage is the process of understanding, recording, and visualizing data as it flows from data sources to consumption.“ (Quelle: Imperva)

Wieso Data Lineage?
Tagtäglich treffen wir operative und strategische Entscheidungen auf Basis von Informationen. Die unterliegenden Daten eignen sich aber nur dann als Basis für die Unternehmensentscheidungen, wenn sie korrekt und zuverlässig sind.
Datenkorrektheit bzw. Datenzuverlässigkeit ist nur dann gewährleistet, wenn der Ursprung und der Fluss der Daten bekannt sind. Um die Rückverfolgung von Ursprungsdaten über verschiedene Ebenen eines Data Warehouses zu ermöglichen, ist Data Lineage als Konzept essentiell. Vollständiges Verständnis der Daten, woher sie kommen, wie sie transformiert werden und wer sie verwendet, macht die Daten vertrauenswürdig.
Ganz besonders für Data Warehouses ist die Transparenz der Datenflüsse wichtig, und daher ist die Rückverfolgbarkeit von Daten oft von sehr hoher Bedeutung. Dies insbesondere im Hinblick auf die Einhaltung von Richtlinien und die Konformität zu bestehenden Compliance-Vorgaben, z.B. DSGVO.

Wie kann Data Lineage für eine Qlik-BI-Umgebung in der Praxis realisiert werden?

Das Tool meiner Wahl ist hier NodeGraph.

NodeGraph ist eine Qlik-Erweiterung und bietet Data Lineage, Data Governance und automatisierte Dokumentation für sämtliche BI-Anwendungen, die auf der vorliegenden Qlik-Umgebung, sei es Qlik Sense oder QlikView, zur Verfügung gestellt werden.
Sie bietet die Möglichkeit, die Geschäftslogik, die auf alle Felder und in allen Skripten angewendet wurde, zu analysieren, zu visualisieren und zu verstehen, sowie die Abhängigkeiten und Datenflüsse zwischen den verschiedenen Stufen der Datenaufbereitung darzustellen.
Per Knopfdruck lässt sich die gesamte Qlik-Instanz dokumentieren. Alle Verarbeitungsschritte werden bis auf Feldebene im Detail beschrieben und als fertige Dokumentation ausgegeben.

Für mich und meine BI-Abteilung ist NodeGraph zu einem unentbehrlichen Werkzeug bei der Fehleranalyse geworden. Es funktioniert auch in unserer ziemlich komplexen BI-Umgebungen tadellos – was will man mehr?

Einsatzbereit in weniger als einem Tag
Nach dem Entscheid, NodeGraph einzuführen, waren wir trotz beinahe unüberschaubarer Komplexität der Umgebung in der Lage, Data Lineage in weniger als einem Tag zu realisieren. Wann immer es notwendig ist Datenflüsse zu verstehen, kommt NodeGraph seither zum Einsatz und hat uns grosse Zeiteinsparungen bei der Dokumentation und der Fehleranalyse gebracht.

Ein Screenshot, wie Data Lineage in NodeGraph präsentiert wird:

Beispiel: «Dependency Explorer» in NodeGraph (Bild: https://community.qlik.com)

… Und hier die Realität:

Auszug des «Dependency Explorer» in der Praxis (Bild: Thi Chi Hess)

Eine Darstellung der automatisierten Dokumentation einer spezifischen Kennzahl durch sämtliche Layer hindurch:

Beispiel: Automatisierte Dokumentation per Knopfdruck (Bild: https://www.nodegraph.se)

Fazit
Ich kann NodeGraph als Tool für Data Lineage vorbehaltlos für alle Unternehmen empfehlen, die QlikView oder Qlik Sense im Einsatz haben. Die Einsparungen durch automatisierte Dokumentation, intuitive Darstellung und effizientere Fehleranalyse haben sich für uns bezahlt gemacht. Damit sind wir auch gewappnet für neue Datenschutzrichtlinien und die Forderung nach transparentem Umgang mit Daten.

Beitrag teilen

Thi Chi Hess

Thi Chi Hess ist Head of BI / BI Competence Center bei der Firma Bystronic AG und bloggt aus dem Unterricht des CAS Business Intelligence & Analytics. Data Lineage war bei Bystronic AG erforderlich, weshalb sie NodeGraph im Jahr 2019 erfolgreich einführte. Aus ihrer Sicht ist Data Lineage heute wichtiger als je zuvor.

Alle Beiträge ansehen von Thi Chi Hess →

Schreibe einen Kommentar