Das Internet der Dinge (IoT) bietet Firmen etliche Möglichkeiten, neue Geschäftsmodelle zu entwickeln. Deren Identifizierung, Evaluierung und Überwachung wird am besten durch entsprechende Business Intelligence (BI)-Anwendungen unterstützt. Jedoch ist das beste BI-tool wenig hilfreich, wenn das zugrundeliegenden Data Warehouse (DWH) nicht flexibel auf neue Datenquellen reagieren kann. Das Konzept des Data Vault verspricht hier eine Lösung zu sein.
Was ist ein Data Vault?
Ein Data Vault ist nichts anderes als eine besondere Art der Datenmodellierung. Es ist eine hybride Modellierungsvariante zwischen der klassischen relationalen Modellierung (3NF) und der dimensionalen Modellierung (Star-Schema). Befürworter des Data Vault sprechen deshalb vom «Besten beider Welten».
Wie funktioniert ein Data Vault?
Ein Data Vault arbeitet mit sogenannten Hubs, Links und Satelliten.
- Hub: Im Data Vault Konzept werden die Schlüssel zu den Geschäftsvorfällen zu einer eigenen Entität; den Hubs.
- Links: verknüpfen die Hubs miteinander, bzw. reflektieren deren m:n Beziehung untereinander.
- Satelliten: hier finden sich die deskriptiven Attribute der Hubs (und Links).
Somit stellen wir schon einmal die Nähe zum dimensionalen Datenmodell mit Fakten- (Hubs) und Dimensions- (Satelliten) Tabellen fest. Nur werden im Data Vault die Hubs über die Links miteinander verbunden, was bei einer herkömmlichen Faktentabelle nicht der Fall ist.
Was ist anders?
Der entscheidende Unterschied jedoch ist, dass der Data Vault eine «No-Update Strategie» verfolgt. Das heisst geänderte Daten, werden nicht wie im klassischen Sinne entsprechend in der Tabelle angepasst, sondern schlicht über einen neuen Satelliten dargestellt. Dies gilt auch für Daten, für welche noch keine Geschäfslogik definiert wurde.
Zusätzlich zu den neuen Daten werden Gültigkeitszeiträume (valid from/until) sowie Angaben zur Quelle (record source) direkt in die Satelliten mitgeladen.
Was macht der Data Vault besser als ein traditionelles DWH?
Durch diese Vorgehensweise werden eine Flexibilität und Skalierbarkeit des DWH bezüglich sich stets ändernden und neuen Quellen ermöglicht, welche mit einem klassischen DWH nicht zu erreichen sind. Aufgrund der Gültigkeitszeiträume und der Quellenangaben sind die Daten zusätzlich historisch genau und eindeutig nachvollziehbar. Der praktische Vorteil; in einem Geschäftsumfeld, in welchem regulatorische «Compliance»-Anforderungen stetig zunehmen, ist die genaue Dokumentation und Nachvollziehbarkeit der Daten von eminenter Wichtigkeit.
Nachteile eines Data Vaults?
Jedoch hat auch der Data Vault seine Nachteile oder besser gesagt, seine Vorteile bedingen gewisse Voraussetzungen. Beispielsweise ist es aufgrund der technischen Konzeption des Data Vault unvermeidbar, dass Daten doppelt und mehrfach vorhanden sind.
„Beim Data Vault stellen alle Daten eine Tatsache dar“.
Single source of Facts
Der oben beschriebene Nachteil muss aber nicht als solcher gesehen werden. Viel eher ist es einfach eine andere Philosophie, welche hinter dem Data Vault steht. Eine traditionelle Datenbank möchte ja durch die verschiedenen Normalisierungsstufen einen Zustand erreichen, indem explizit keine Redundanzen mehr vorhanden sind, es also nur eine Wahrheit der Daten gibt (single source of truth).
Beim Data Vault hingegen gilt, dass alle Daten eine Tatsache darstellen. Und da alle Daten hochgeladen werden (ob mit Geschäfslogik oder ohne) wird stattdessen von „single source of facts“ gesprochen.
Diese Geschäftslogik aber muss früher oder später appliziert werden, ansonsten bleiben die Daten nur bedeutungslose Fakten!