Lakehouse – Die Evolution des Data Warehouses?

In den späteren 80er-Jahren begann die Geschichte des Data Warehouses. War damals die zu analysierende Datenmenge noch überschaubar, stehen Unternehmen heutzutage vor viel grösseren Herausforderungen. Immer grössere, schnellere und unterschiedlichere Daten müssen analysiert werden, um daraus strategische Entscheidungen abzuleiten.

Das Data Warehouse im Wandel der Zeit

Ein Data Warehouse eignet sich hervorragend für strukturierte Daten. Die Anforderungen der Unternehmen haben sich in den letzten Jahren aber gewandelt. Es werden immer mehr Daten produziert, sei es von der Firma selber oder von den potentiellen Kunden. Das Internet und die weltweite Vernetzung haben ebenfalls das Bedürftnis geschürt, weitere Datenquellen in die BI-Analyse aufzunehmen. Diese neuen Datenquellen kommen aber in ganz unterschiedlichen Formaten daher und sind mal strukturiert, mal nicht strukturiert oder semistrukturiert. Die Datenmengen steigen exponentiell an, die Geschwindigkeit wie Daten geliefert werden erhöht sich und die Anforderungen an die Analyse ändern sich in kürzeren Zyklen. Kann das klassische Data Warehouse hier überhaupt noch mithalten?

Seit ihrem Beginn hat sich auch die Data-Warehouse-Technologie ständig weiterentwickelt. Mit der Einführung von Massive Parallel Processing (MPP) ist man nun auch in der Lage, sehr grosse Datenmengen innert kürzester Zeit zu verarbeiten. Jedoch hat diese Technologie auch ihren Preis. Nicht jedes Unternehmen kann sich ein Data Warehouse auf MPP-Technologie leisten.

Für gewisse Daten und Anwendungsfälle ist das Data Warehouse also definitiv nicht das geeignete System, es müssen andere Lösungen gefunden werden.

Ein Datensee entsteht

Vor rund einem Jahrzehnt begannen Unternehmen, Daten aus verschiedenen Quellsystemen im Rohdatenformat in sogenannten «Data Lakes» abzuspeichern. Beim Data Lake handelt es sich um einen sehr grossen Datenspeicher, welcher sowohl strukturierte, wie auch unstrukturierte Daten enthalten kann und welcher sich auch für Big-Data-Analysen einsetzen lässt. Da viel mehr Daten in diesem Speicher abgelegt werden, gibt es auch viel mehr Möglichkeiten, diese Daten auszuwerten. Zudem können die Daten rückwirkend analysiert werden bei geänderten Anforderungen. Dies ist bei einem Data Warehouse nicht einfach so möglich, da unter Umständen die benötigten Daten gar nicht mehr vorhanden sind. Ein weiterer grosser Vorteil eines Data Lakes sind seine geringen Kosten.

Um die Vorteile beider Systeme zu vereinen, entstand mit der Zeit bei vielen Unternehmen eine Mischform der BI-Umgebung. Nebst dem Data Warehouse werden sämtliche Rohdaten in Data Lakes gespeichert und bei Bedarf in das Data Warehouse reingeladen.

Was ist ein Lakehouse?

Mit dem Titel «What is a Lakehouse?» began ein Blogpost[3] der Firma Databricks am 30. Januar 2020. Per Zufall bin ich auf diesen Artikel gestossen und er hat mich fasziniert. Ein Paradigma-Wechsel im Datenmanagement wird sich abzeichnen.

Mit dem Lakehouse oder auch Data Lakehouse versucht man die Vorteile von Data Lakes und Data Warehouses zu vereinen. Das heisst also, die beiden Systeme werden nicht nebeneinander, sondern als ein neuartiges, einzelnes System betrieben. Es entsteht ein neues Systemdesign. Die Implementierung der Datenstrukturen und der Datenverwaltungsfunktionen werden vom Data Warehouse übernommen, die Speicherung erfolgt aber auf dem kostengünstigen und flexiblerem Speicher des Data Lakes.

Vom Data Warehouse zum Lakehouse [2]

Dies hört sich sehr vielversprechend an. Das Lakehouse bietet zum einen grosse Flexibilität, gepaart mit hochverfügbarem Speicher zu einem günstigen Preis. Ich bin gespannt, wie die Entwicklung weitergeht. Ich schätze aber, dass ein Data Warehouse heutzutage noch nicht ersetzt werden kann. In den meisten Anwendungsfällen bietet es immer noch sehr viele Vorzüge. So schnell wird das Data Warehouse also nicht von der Bildfläche verschwinden.

Quellen

[1] Titelbild: https://unsplash.com/photos/7CAuZ6jlNIY

[2] Quelle der Grafik: https://databricks.com/wp-content/uploads/2020/01/data-lakehouse.png

[3] Blogpost der Firma Databricks: https://databricks.com/blog/2020/01/30/what-is-a-data-lakehouse.html

Beitrag teilen

Stefan Koch

Stefan Koch ist Consultant Business Intelligence bei der Trivadis AG und bloggt aus dem Unterricht des CAS "Business Intelligence and Analytics".

Alle Beiträge ansehen von Stefan Koch →

Schreibe einen Kommentar