Montagmorgen, 08.57 Uhr. Sie stehen in der Büroküche, der Kaffee ist leer, die Verzweiflung gross. Die Maschine blinkt kryptisch. Und auf dem Tresen steht ein Glas mit undefinierbaren Bohnen und der Aufschrift: „Bitte nicht benutzen.“ Warum man sie nicht benutzen soll, das weiss wahrscheinlich nur eine Person, und die hat heute frei. Willkommen im echten Leben – oder besser gesagt: im Data Mesh ohne Data Catalog.
Wenn jede Abteilung ihren eigenen Kaffee macht…
Ein Data Mesh ist keine Kaffeesorte, sondern ein sozio-technisches Paradigma und eine Arbeitsform für den Umgang mit Daten. Es besteht aus 4 Prinzipien: domänenorientierte Verantwortung, dass Daten als eigenes Produkt angesehen werden, eine Self-Service-Plattform zur Erleichterung der Zusammenarbeit im Domänenteam und eine computergestützte Data Governance. Klingt kompliziert?
Stellen Sie sich vor, Ihr Unternehmen beschliesst, die Kaffeeverwaltung zu „dezentralisieren“ – ganz im Sinne moderner Datenarchitektur. Das macht Vieles einfacher, denn so kann man die Verantwortung auf mehrere Leute verteilen. Jede Abteilung darf:
- ihre eigene Maschine nutzen,
- ihre Lieblingsbohnen bestellen,
- und ihre geheime Rezeptur pflegen.
So weit, so gut. Das Marketing-Team schwört auf Cold Brew, die IT hat einen Siebträger aus Edelstahl, HR macht Latte Art mit Hafermilch. Klingt nach Vielfalt, oder? Bis jemand aus dem Vertrieb fragt: „Wo bekomme ich einfach nur einen normalen Kaffee?“ Damit er das erfährt, muss er sich durch alle Abteilungen fragen.
Willkommen im Data-Chaos
Genau hier passiert das, was auch in vielen Data-Mesh-Umgebungen passiert:
- Niemand weiss mehr, wo welche Daten (oder Bohnen) liegen.
- Jede Abteilung hat ihre eigene Sprache („Flat White“, „Espresso“, „KPIs“, „Customer Records“).
- Wer verantwortlich ist für ein Datenfeld (oder die Reinigung des Milchaufschäumers).
Kurz gesagt: Das Data Mesh ist zwar dezentralisiert, aber ohne Übersicht wird es schnell chaotisch.
Der Data Catalog: Der Zettel am Kühlschrank, der alles rettet
Hier kommt der Data Catalog ins Spiel. Er ist wie der Zettel in der Küche, der alles klarstellt:
- Was gibt es? – Arabica, Robusta, oder Instant (welche Metadaten)?
- Wo steht es? – Im Schrank links neben der Spülmaschine (oder im Data Lake).
- Wer ist verantwortlich? – IT-Team, HR oder Data Engineering?
- Wann wurde es aktualisiert? – Gestern, vor 3 Wochen oder irgendwann 2020?
Ein Data Catalog ist ein Verzeichnis von Datenressourcen, das grundlegende Informationen über jede Ressource enthält. Die Metadaten machen dabei den Kern des Catalogs aus. Sie versorgen den Leser mit allen nötigen Infos und machen sie durchsuchbar. Zudem werden gezielt Abhängigkeiten von Entitäten zueinander dargestellt und können abgefragt werden.
Wie das im Data Mesh zusammenspielt
Ein Data Mesh verteilt Verantwortung: Jede Abteilung ist für ihre eigenen Datenprodukte zuständig. Aber damit das Ganze funktioniert, braucht es gemeinsame Transparenz. Der Data Catalog ist also die zentrale Instanz, die Ordnung in die Vielfalt bringt. Er sorgt dafür, dass jede Domain weiss, welche Daten existieren, wie sie genutzt werden dürfen und wer der Owner ist.
Wenn wir uns die 4 zuvor genannten Prinzipien von Data Mesh anschauen, kann der Data Catalog gezielt unterstützen:
- Domänenorientierte Verantwortung: Alle Domänenowner tragen die Verantwortlichkeiten in den Data Catalog ein. Da alle Zugriff auf den Data Catalog haben, wissen alle Domänen über die Verantwortlichkeiten auch bei anderen Domänen Bescheid.
- Daten als eigenes Produkt: Der Data Catalog dient als zentraler Marktplatz für Datenprodukte. Das heisst, er ermöglicht die Auffindbarkeit der Datenprodukte und der zugehörigen Datenprodukt-Informationen.
- Self-Service Data Platform: Ein Data Catalog ist idealerweise direkt in die Platform integriert. Das bedeutet, dass der Data Catalog bei der Neuerstellung eines Datenprodukten alle relevanten Infos herausziehen kann. Das reduziert den manuellen Aufwand erheblich.
- Federated Coputational Governance: Manche Daten haben eine höhere Sensibilität als andere. In einem Data Catalog können sich Daten klassifizieren lassen und Regeln zur Nutzung der Daten hinterlegt werden. Das gewährleistet, dass Datenstandards eingehalten werden.
Fazit: Kein Kaffee ohne Plan
Ein Data Mesh ohne Data Catalog ist wie eine Büroküche ohne Beschriftung:
Am Ende rührt jemand in einer fremden Tasse – und niemand weiss, wessen Kaffee (oder Datensatz) das war. Denken Sie bei Data Mesh auch an einen Data Catalog, er bringt Ihnen Einsicht in die nötigen Infos, die Sie brauchen.
Dieser Text wurde mit Hilfe von KI optimiert.
