Data Lakehouse: Die Brücke zwischen Data Lake und Data Warehouse

Data Warehouse und Data Lake sind in der Welt der Datenverarbeitung gängige Begriffe. Aber was ist ein Data Lakehouse und welche Vorteile bringt es mit sich?

Data Warehouse

Ein zentrales System in welchem Daten so organisiert werden, dass es das Erstellen von Reports vereinfacht. Das Ziel ist es Analysten und Manager durch Business Intelligence und Datenanalytik bei Geschäftsentscheiden zu unterstützen. Daher ist dieses System für vorverarbeitete, bereinigte und transformierte Daten bestimmt was teuer sein kann und die Skalierung limitieren kann.

Data Lake

In diesem System werden Daten kostengünstig in ihrem Rohdatenformat sowie zur Weiterverarbeitung transformierten Form abgelegt und ist daher ideal für Machine-Learning geeignet. Der Data Lake kann strukturierte, semi-strukturierte, unstrukturierte sowie binäre Daten (z.B. Bild und Ton) beinhalten. Dabei muss man sich Vorfeld keine Gedanken machen für was die Daten im Anschluss gebraucht werden. Das bedeutet aber auch, dass ohne eine angemessene Verwaltung sich Redundanzen aufbauen was zu so genannten Datensümpfe führen kann, in denen man sich noch kaum zurecht findet und daher die Analyse erschwert.

Date Lakehouse

Das Data Lakehouse ist ein Hybrid der beiden voran genannten Systemen. Es kombiniert dabei die Flexibilität und Skalierbarkeit eines Data Lakes mit der organisierten Struktur eines Data Warehouses. Das heisst Daten können kostengünstig in einem Data Lake gespeichert werden und trotzdem so organisiert werden, um das Reporting zu unterstützen.
Vor dem Data Lakehouse musste ein Data Warehouse und ein Data Lake separate erstellt werden. Damit die Daten der verschiedenen Silos zusammen verarbeitet werden können heisst das aber, dass diese zwischen den beiden Systemen verschoben werden müssen.

Kurz gesagt ist ein Data Lakehouse ein Data Warehouse bei dem die Daten in einem Data Lake gespeichert sind. Damit das Data Warehouse aber auf dem Data Lake aufgebaut werden kann, wird eine Metadatenebene dazwischen geschalten. Diese Metadatenebene katalogisiert so zu sagen die vorhandenen Daten im Data Lake und erlaubt Datenverwaltungsfunktionen die bei Data Warehouses eingesetzt werden. Zum Beispiel das Einhalten des ACID (Atomarität, Konsistenz, Isolaion und Beständigkeit) Prinzip für Transaktionen. Damit soll die Entstehung von Datensümpfen verhindert werden.
Ein immer wichtiger werdender Aspekt im Umgang mit Daten ist der Datenschutz. Bei Data Lakes werden Daten unkontrolliert erfasst wodurch die Regelung von Zugriffskontrollen erschwert wird. Mit Hilfe der Metadatenebene implementieren Data Lakehouses hingegen die Möglichkeit der Bestimmung von Dateneigentum und deren Zugriffskontrolle.
Eine schlankes und effizientes Data Lakehouse kann zudem gewährleistet werden indem ein Data Lifecycle Management betrieben wird. Mittels den Metadaten können Daten aufgrund von vordefinierten Regeln archiviert oder gelöscht werden.
Mittels Datenqualitätstools können Daten bereits bei der Erfassung bereinigt und validiert werden. Somit kann die Zuverlässigkeit der Daten sichergestellt werden.

Vorteile eines Data Lakehouses

  • Einheitliche Datenplattform: Alle Daten sind an einem Ort gespeichert, unabhängig von ihrem Format.
  • Verbesserte Verwaltung: Datenqualitätsprobleme können vorgebeugt werden indem beim Hochladen sichergestellt wird, dass die Daten einem definierten Schema entsprechen.
  • Verbesserte Analysemöglichkeiten: Mit einem Data Lakehouse können Unternehmen eine Vielzahl von Analysemethoden anwenden, von traditionellen BI-Tools bis hin zu modernen Machine-Learning-Algorithmen
  • Kosteneffizienz: Durch die Nutzung von Cloud-basierten Technologien können Unternehmen ihre IT-Kosten senken.
  • Skalierbar und zukunftsfähig: Ein Data Lakehouse ist hochskalierbar und können mit wachsenden Datenmengen mithalten. Es ist somit bestens gerüstet für die Anforderungen von KI und Machine-Learning.

 

Beitrag teilen

Robin Küng

Robin bloggt aus dem CAS Business Intelligence & Analytics

Alle Beiträge ansehen von Robin Küng →

Schreibe einen Kommentar