Datenextraktion im Datawarehouse – welchen Weg schlägst du ein?

Im heutigen Geschäftsumfeld muss ein Unternehmen über zuverlässige Analysen grosser Datenmengen verfügen, die helfen sollen, bessere Entscheidungen zu treffen. Eine wesentliche Herausforderung dabei ist die Verarbeitung der riesigen Datenmengen. Aber wie können so viele Geschäftsinformationen leicht zugänglich gemacht werden? Welche Methoden kannst du verwenden?

Genau solche Fragestellungen werden immer wieder in der Datenbank Community heiss diskutiert.  Im Fokus steht dabei die Auswahl der Datentransformation, bei dem Daten aus einem Quellsystem (CRM, ERP, externe Datenquellen) extrahiert und in das Warehouse übertragen werden. Bei diesem wiederkehrenden Prozess werden Daten in wertvolle, einheitliche Informationen umgewandelt und anschliessend zu Business-Intelligence und Analysezwecken genutzt. Für diesen Prozess gibt es zwei verschiedene Ansätze:

Die ETL Methode (Extraktion, Transformation und Laden)

Diesen Ansatz haben Unternehmen im Umgang mit ihren Daten viele Jahre lang verfolgt und ist die meistverbreitete Methode. Wenn du also ETL zur Bearbeitung von Daten verwendest, müssen zunächst die Daten, welche du von verschiedenen Quellen bezogen hast, umgewandelt und dann in eine Datenbank geladen werden. Dies unabhängig davon, ob du dich vor Ort oder in der Cloud befindest. Wichtig dabei ist die Transformationsphase, welche die Einhaltung der strukturellen Anforderungen der Zieldatenbank sicherstellt.

ETL Modell
ETL Modell (Quelle: eigene Darstellung)

 

 

 

 

 

 

 

 

Die ELT- Methode (Extraktion, Laden und Transformieren)

Ein weiterer Ansatz der Datentransformation ist die ETL-Methode, bei dem Daten zuerst in ihrer Rohform in das gewünschte Datawarehouse geladen werden. Wie der Name schon sagt, kehrt ELT das eher bekannte ETL Konzept um. Anstatt die Daten vor dem Laden umzuwandeln, werden die extrahierten Daten zuerst geladen und dann umgewandelt. Die Transformation findet innerhalb des Datawarehouse selbst statt und, je nach Anwendungsfall, zu einem späteren Zeitpunkt.

ELT Modell
ELT Modell (Quelle: eigene Darstellung)

 

 

 

 

 

 

 

 

ELT und ETL sind also zwei verschiedene Arten der Datenumwandlung im Datawarehouse. Schauen wir uns aber einige der wichtigsten Unterschiede an:

Datengrösse

Ein wesentlicher Unterschied zwischen ETL und ELT ist die Datengrösse. ETL Warehouses funktionieren am besten mit kleineren Datensätzen. ELT Systeme können jedoch grosse Datenmengen verarbeiten.

Datenladezeit

Die ETL- und die ELT-Architektur unterscheiden sich auch hinsichtlich der Gesamtwartezeit für die Übertragung der Rohdaten in das Ziel- Warehouse. ETL ist ein zeitaufwändiger Prozess, da Datenteams sie zur Transformation zunächst in einem Zwischenraum laden müssen. Danach lädt das Datenteam die verarbeiteten Daten in das Ziel. Die ELT Architektur bietet Unterstützung für unstrukturierte Daten. Dadurch entfällt die Notwendigkeit einer Transformation vor dem Laden. So können Benutzende die Daten direkt in ein Datawarehouse übertragen, was ELT weniger zeitaufwändig macht.

Datenanalysezeit

Ein weiterer Unterschied zwischen ETL und ELT ist die Zeit, die für die Durchführung der Analyse benötigt wird. Da Daten in einem ETL-Warehouse transformiert werden, können Datenanalysten sie ohne Verzögerungen analysieren. Die in einem ELT-Warehouse vorhandenen Daten werden jedoch nicht transformiert. Daher müssen Datenanalysten sie bei Bedarf umwandeln. Dieser Ansatz erhöht die Wartezeit für die Datenanalyse.

Kosten

Die Integration der Analyse in den ETL-Prozess ist von Anfang an erforderlich. Die Analysten müssen im Voraus planen, welche Berichte sie erstellen wollen und definieren, wie sie die Daten strukturieren und formatieren. Dies erhöht den Zeitaufwand für die Implementierung und damit  auch die Kosten. Zusätzliche Serverinfrastruktur für Transformationen kann ebenfalls höhere Kosten verursachen.

ELT hat weniger Systeme als ETL, da alle Transformationen im gewünschten Data Warehouse stattfinden. Bei weniger Systemen ist eine geringere Wartung erforderlich, was zu einem einfacheren Daten-Stack und niedrigeren Einrichtungskosten führt.

 

Fazit

Da du jetzt beide Datenverwaltungsstrategien kennst, fragst du dich bestimmt, welche die bessere Option ist?

ETL- und ELT-Prozesse erhöhen die Datenqualität und verbessern die Integration auf ihre eigene Weise. Einen eindeutigen Gewinner gibt es deshalb nicht. Aus der Datenbankspezialist-Perspektive hängt dieser Ansatz von deinen geschäftlichen Anforderungen ab. Unabhängig davon, ob du dich für ETL oder ELT entscheidest, ist eine solide und agile Datenintegrationsstrategie unerlässlich, um sicherzustellen, dass deine Daten von hoher Qualität und für dein Unternehmen nutzbar sind.

 

Weiterführende Links zum Thema:
Beitrag teilen

Dario Preite

Dario Preite ist Specialist Master Data Manager bei der Maagtechnic AG und bloggt aus dem Unterricht des CAS Business Intelligence & Analytics.

Alle Beiträge ansehen von Dario Preite →

Schreibe einen Kommentar