Definition

Was ist ETL (Extract, Transform, Load)?

| Autor / Redakteur: Stefan Luber / Nico Litzel

(Bild: © aga7ta - stock.adobe.com)

Beim ETL-Prozess handelt es sich um mehrere Einzelschritte, durch die sich Daten aus verschiedenen Datenquellen per Extrahieren und Aufbereiten in ein Data Warehouse integrieren lassen. Der Prozess kommt häufig zur Verarbeitung großer Datenmengen im Big-Data- und Business-Intelligence-Umfeld zum Einsatz.

Die Abkürzung ETL steht für die drei englischen Begriffe Extract, Transform und Load. Im Deutschen bedeuten sie Extrahieren, Transformieren und Laden. ETL beschreibt einen Prozess aus mehreren Einzelschritten, mit dem sich Daten aus verschiedenen Quellen in eine Datenbank oder ein Data Warehouse integrieren lassen. Ziel ist es, die integrierten Daten für die weitere Verarbeitung vorzubereiten und bereitzustellen.

Häufig kommt der ETL-Prozess im Umfeld von Big-Data- und Business-Intelligence-Anwendungen zum Einsatz. Besonders die Verarbeitung großer Datenmengen profitiert von der strukturierten ETL-Vorgehensweise. Sind Informationen auf verschiedenen Subsystemen verteilt, liegen redundant vor oder haben eine unterschiedliche Struktur, ist die Anwendung des ETL-Prozesses sinnvoll. Während des Prozesses erfolgt die Zusammenführung und Aufbereitung der heterogen strukturierten Daten verschiedener Quellen. Die Qualität der Daten wird gesichert und ihre Konsistenz im Data Warehouse hergestellt.

Für Anwendungen im Big-Data-Umfeld ist es wichtig, dass die ETL-Prozessschritte mit hoher Geschwindigkeit und geringer Latenzzeit ablaufen. Führende Hersteller von Datenbankmanagementsystemen und Big-Data-Anwendungen, wie IBM, SAP, Oracle oder Microsoft, bieten Produkte, die den ETL-Prozess unterstützen. Zahlreiche ETL-Tools aus dem Open-Source-Umfeld sind ebenfalls verfügbar.

Typische ETL-Einsatzbereiche

Typische Einsatzbereiche für ETL finden sich dort, wo Daten in großen Mengen verarbeitet, bereitgestellt und analysiert werden müssen. Beispiele für Anwendungsgebiete sind:

  • Datenspeicherung in einem Data Warehouse
  • Datenbereitstellung für BI-Anwendungen
  • Datenextraktion aus verteilten Datenbankumgebungen oder cloudbasierten Datenbanken
  • Migration von Daten zwischen verschiedenen Anwendungen
  • Replikation von Daten zu Sicherungs- und Redundanzzwecken

Die drei Hauptphasen des ETL-Prozesses

Der ETL-Prozess ist in drei verschiedene Phasen unterteilt. Diese Phasen sind:

  • Extract: Extraktion der Daten aus den verschiedenen Datenquellen
  • Transform: Transformation der Datenstruktur und Dateninhalte in das Format und Schema der Zieldatenbank
  • Load: Laden der transformierten Daten in die Zieldatenbank oder das Data Warehouse

Extraktion: Die Extraktion ist der erste Schritt des ETL-Prozesses. Hierbei erfolgt die Auswahl der Daten in den verschiedenen Quellsystemen und die Vorbereitung für die Transformationsphase. In den meisten Fällen extrahiert der Prozess nur Teilbereiche aus einzelnen Quelldatenbanken. Extraktionen finden regelmäßig statt, um das Data Warehouse kontinuierlich mit aktualisierten Daten zu versorgen. Auch ereignisgesteuerte oder anfragegesteuerte Extraktionen sind möglich.

Transformation: Der Extraktion schließt sich die Phase der Transformation an. Die gelieferten Daten werden an das Format und das Schema der Zieldatenbank angepasst. Der Transformationsprozess durchläuft wiederum mehrere Einzelschritte. Diese Einzelschritte können beispielsweise folgende sein:

  • Festlegung grundlegender Aspekte der Formatierung
  • Bereinigung fehlerhafter Daten
  • Prüfen auf ähnliche Informationen und Datenduplikate mit anschließendem Löschen und Ausschließen dieser Daten
  • Gruppieren, Sortieren und Aggregieren der Daten
  • finale Anpassung an Zielformate und Zielschemata

Laden: Der dritte und letzte Schritt ist das Laden der zuvor geprüften und angereicherten Daten. In diesem Schritt erfolgt die eigentliche Integration in die Zieldatenbank oder das Data Warehouse. Die Daten werden physisch zum Ziel verschoben, ohne die Datenbank beim Laden lange zu blockieren. Die Integrität der geladenen Daten ist sicherzustellen. Durch ausführliches Protokollieren und Logging sind sämtliche Änderungen im Zielsystem dokumentiert. Über die Protokollierung ist es möglich, bei Bedarf alte Datenstände wieder herzustellen.

Wichtige Eigenschaften eines ETL-Tools

Damit ETL-Tools die drei Prozessphasen vereinfachen, sollten sie folgende Eigenschaften und Funktionen besitzen:

  • viele Schnittstellen zu unterschiedlichen Datenbanksystemen
  • Kompatibilität mit verschiedenen Cloudmodellen
  • Unterstützung hybrider Cloud-Architekturen
  • benutzerfreundliche, intuitiv bedienbare Benutzeroberflächen
  • Möglichkeit der Visualisierung verschiedener ETL-Phasen
  • performante Verarbeitung großer Datenmengen

Tausch der Reihenfolge – vom ETL- zum ELT-Prozess

Nicht immer müssen die drei Einzelschritte in der beschriebenen Reihenfolge stattfinden. Die beiden letzten Schritte Transformation und Laden sind im Big-Data-Umfeld häufig vertauscht. Es handelt sich in diesem Fall um eine Variante von ETL, die das Kürzel ELT beschreibt. Der ELT-Prozess lädt zunächst die Daten in die Zieldatenbank, ohne sie zu transformieren. Alle gesammelten Daten liegen in ihrer Rohform vor. Es entsteht ein sogenannter Data Lake, der aus Daten verschiedenster Formate besteht. Die Transformation findet im Zielsystem mit speziellen Verfahren und Algorithmen erst für die durchzuführenden Auswertungen statt. Diese Vorgehensweise bietet den Vorteil, dass sich Daten zunächst im Zielsystem sammeln und für die Auswertungen bereitstellen lassen. Die bei den Rohdaten ausgeführten Transformationen liefern Ergebnisse, die zusammen mit den Rohdaten im gleichen Data Lake verbleiben.

Kommentare werden geladen....

Kommentar zu diesem Artikel abgeben

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Aktuelle Beiträge zu diesem Thema

Tableau – eine Zukunft unter dem Dach von Salesforce

Nachbericht Tableau Conference Europe 2019

Tableau – eine Zukunft unter dem Dach von Salesforce

Auf der europäischen Kundenkonferenz in Berlin kündigte Tableau, ein Spezialist für Datenvisualisierung, kürzlich eine Reihe von Neuheiten an. Zudem äußerte sich der CEO Adam Selipsky zu den möglichen Auswirkungen der geplanten Übernahme seines Unternehmens durch den Cloud-Giganten Salesforce. lesen

Cubeware baut Solutions Platform weiter aus

Funktionsmodul ergänzt

Cubeware baut Solutions Platform weiter aus

Mit Cubeware Advance erhält die Cubeware Solutions Platform Zuwachs: Das Funktionsmodul ermöglicht Advanced und Predictive Analytics auf Basis der IBM-Software SPSS Modeler. lesen

So gewinnt man die Analytics-Lotterie

Kommentar von Christian Werling, Thoughtspot

So gewinnt man die Analytics-Lotterie

Haben Sie jemals den Lotto-Jackpot geknackt? Wahrscheinlich eher nicht, denn dafür braucht es sechs Richtige plus Zusatzzahl – und die Chance dafür liegt bei 1 zu 140 Millionen – oder um ganz korrekt zu bleiben: bei 1:139.838.160. Trotz dieser lausigen Gewinnquote haben Sie allerdings eine viel bessere Chance, den Lotto-Jackpot zu gewinnen, als einen vorgefertigten Business-Intelligence-Bericht im Vorfeld zu designen, der exakt eine Ihrer spezifischen Fragen zu Daten zu einem bestimmten Zeitpunkt klar beantwortet. lesen

Wie die Cloud hilft, den Bierabsatz zu optimieren

Data Lake in Azure-Cloud beschleunigt Entscheidungsfindung bei AB InBev

Wie die Cloud hilft, den Bierabsatz zu optimieren

Bei der Brauereigruppe AB InBev verbrachten einzelne Mitarbeiter früher bis zu 80 Prozent ihrer Zeit damit, relevante Daten zu identifizieren und aufzubereiten. Über eine zentrale Cloud-Lösung werden heute Daten schneller bereitgestellt, sodass Mitarbeiter mehr Zeit für die Analyse und die strategische Entscheidungsfindung haben. lesen

Digitale Transformation – 10 Punkte, die Unternehmen beachten sollten

Kommentar von Markus Enderlein, Infomotion

Digitale Transformation – 10 Punkte, die Unternehmen beachten sollten

Komplexere Datenwelten, neue Möglichkeiten der Vernetzung und der Wandel etablierter Technologien – die digitale Transformation schreitet in einer Geschwindigkeit voran, die selbst so manchen Branchenexperten verblüfft. Neue Herstellungsprozesse, Services und Märkte entstehen und die Nutzungsmuster und Erwartungen der Konsumenten verändern sich. lesen

Die Grundlage von allem ist Datenintegration

Nachbericht 6. Pentaho User Meeting

Die Grundlage von allem ist Datenintegration

Die Wetter-App zeigt für Frankfurt Regen an. Der Blick aus dem Fenster sagt jedoch: Sonne und zwölf Grad. Die Datenbasis des Wetterdienstes scheint nicht besonders gut zu sein. Oder nur nicht ausreichend integriert? Gute Tipps für Datenintegration hätten die Frankfurter Wetterfrösche direkt vor Ort bekommen können: Mit acht Vorträgen und 80 Teilnehmern fand das Pentaho User Meeting zum 6. Mal in der Mainmetropole statt. lesen

Datenintegration in der Hybrid Cloud-Ära

ETL-Prozesse einfach gestalten

Datenintegration in der Hybrid Cloud-Ära

Das Thema Datenintegration gehört mit zu den größten Herausforderungen beim Management von hybriden und Multi-Cloud-Umgebungen. Schließlich geht es darum, Daten aus verschiedensten Quellen möglichst verlässlich aufzubereiten und zusammenzuführen. Nur wenn der vorhandene Datenpool, neuenglisch auch als „Data Lake“ bekannt, aktuell und vollständig ist, lassen sich daraus verlässliche Analysen ableiten. lesen

Disy schult zu Geo-Analytics und mehr

Akademieprogamm vorgestellt

Disy schult zu Geo-Analytics und mehr

Der Datenanalysespezialist Disy Informationssysteme hat sein Schulungsprogramm rund um die Themen Analyse und Visualisierung von Daten mit geografischem Bezug, Geodatenmanagement und Reporting vorgestellt. lesen

Das kann Azure Databricks

Spark as a Service

Das kann Azure Databricks

Microsoft stellt mit Azure Databricks eine Analyseplattform in Microsoft Azure zur Verfügung, die auf der bekannten Analysesoftware Apache Spark aufbaut. Bei der Entwicklung der Plattform haben die Entwickler von Spark mitgearbeitet. lesen

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 45607950 / Definitionen)