Definition

Was ist ETL (Extract, Transform, Load)?

| Autor / Redakteur: Stefan Luber / Nico Litzel

(Bild: © aga7ta - stock.adobe.com)

Beim ETL-Prozess handelt es sich um mehrere Einzelschritte, durch die sich Daten aus verschiedenen Datenquellen per Extrahieren und Aufbereiten in ein Data Warehouse integrieren lassen. Der Prozess kommt häufig zur Verarbeitung großer Datenmengen im Big-Data- und Business-Intelligence-Umfeld zum Einsatz.

Die Abkürzung ETL steht für die drei englischen Begriffe Extract, Transform und Load. Im Deutschen bedeuten sie Extrahieren, Transformieren und Laden. ETL beschreibt einen Prozess aus mehreren Einzelschritten, mit dem sich Daten aus verschiedenen Quellen in eine Datenbank oder ein Data Warehouse integrieren lassen. Ziel ist es, die integrierten Daten für die weitere Verarbeitung vorzubereiten und bereitzustellen.

Häufig kommt der ETL-Prozess im Umfeld von Big-Data- und Business-Intelligence-Anwendungen zum Einsatz. Besonders die Verarbeitung großer Datenmengen profitiert von der strukturierten ETL-Vorgehensweise. Sind Informationen auf verschiedenen Subsystemen verteilt, liegen redundant vor oder haben eine unterschiedliche Struktur, ist die Anwendung des ETL-Prozesses sinnvoll. Während des Prozesses erfolgt die Zusammenführung und Aufbereitung der heterogen strukturierten Daten verschiedener Quellen. Die Qualität der Daten wird gesichert und ihre Konsistenz im Data Warehouse hergestellt.

Für Anwendungen im Big-Data-Umfeld ist es wichtig, dass die ETL-Prozessschritte mit hoher Geschwindigkeit und geringer Latenzzeit ablaufen. Führende Hersteller von Datenbankmanagementsystemen und Big-Data-Anwendungen, wie IBM, SAP, Oracle oder Microsoft, bieten Produkte, die den ETL-Prozess unterstützen. Zahlreiche ETL-Tools aus dem Open-Source-Umfeld sind ebenfalls verfügbar.

Typische ETL-Einsatzbereiche

Typische Einsatzbereiche für ETL finden sich dort, wo Daten in großen Mengen verarbeitet, bereitgestellt und analysiert werden müssen. Beispiele für Anwendungsgebiete sind:

  • Datenspeicherung in einem Data Warehouse
  • Datenbereitstellung für BI-Anwendungen
  • Datenextraktion aus verteilten Datenbankumgebungen oder cloudbasierten Datenbanken
  • Migration von Daten zwischen verschiedenen Anwendungen
  • Replikation von Daten zu Sicherungs- und Redundanzzwecken

Die drei Hauptphasen des ETL-Prozesses

Der ETL-Prozess ist in drei verschiedene Phasen unterteilt. Diese Phasen sind:

  • Extract: Extraktion der Daten aus den verschiedenen Datenquellen
  • Transform: Transformation der Datenstruktur und Dateninhalte in das Format und Schema der Zieldatenbank
  • Load: Laden der transformierten Daten in die Zieldatenbank oder das Data Warehouse

Extraktion: Die Extraktion ist der erste Schritt des ETL-Prozesses. Hierbei erfolgt die Auswahl der Daten in den verschiedenen Quellsystemen und die Vorbereitung für die Transformationsphase. In den meisten Fällen extrahiert der Prozess nur Teilbereiche aus einzelnen Quelldatenbanken. Extraktionen finden regelmäßig statt, um das Data Warehouse kontinuierlich mit aktualisierten Daten zu versorgen. Auch ereignisgesteuerte oder anfragegesteuerte Extraktionen sind möglich.

Transformation: Der Extraktion schließt sich die Phase der Transformation an. Die gelieferten Daten werden an das Format und das Schema der Zieldatenbank angepasst. Der Transformationsprozess durchläuft wiederum mehrere Einzelschritte. Diese Einzelschritte können beispielsweise folgende sein:

  • Festlegung grundlegender Aspekte der Formatierung
  • Bereinigung fehlerhafter Daten
  • Prüfen auf ähnliche Informationen und Datenduplikate mit anschließendem Löschen und Ausschließen dieser Daten
  • Gruppieren, Sortieren und Aggregieren der Daten
  • finale Anpassung an Zielformate und Zielschemata

Laden: Der dritte und letzte Schritt ist das Laden der zuvor geprüften und angereicherten Daten. In diesem Schritt erfolgt die eigentliche Integration in die Zieldatenbank oder das Data Warehouse. Die Daten werden physisch zum Ziel verschoben, ohne die Datenbank beim Laden lange zu blockieren. Die Integrität der geladenen Daten ist sicherzustellen. Durch ausführliches Protokollieren und Logging sind sämtliche Änderungen im Zielsystem dokumentiert. Über die Protokollierung ist es möglich, bei Bedarf alte Datenstände wieder herzustellen.

Wichtige Eigenschaften eines ETL-Tools

Damit ETL-Tools die drei Prozessphasen vereinfachen, sollten sie folgende Eigenschaften und Funktionen besitzen:

  • viele Schnittstellen zu unterschiedlichen Datenbanksystemen
  • Kompatibilität mit verschiedenen Cloudmodellen
  • Unterstützung hybrider Cloud-Architekturen
  • benutzerfreundliche, intuitiv bedienbare Benutzeroberflächen
  • Möglichkeit der Visualisierung verschiedener ETL-Phasen
  • performante Verarbeitung großer Datenmengen

Tausch der Reihenfolge – vom ETL- zum ELT-Prozess

Nicht immer müssen die drei Einzelschritte in der beschriebenen Reihenfolge stattfinden. Die beiden letzten Schritte Transformation und Laden sind im Big-Data-Umfeld häufig vertauscht. Es handelt sich in diesem Fall um eine Variante von ETL, die das Kürzel ELT beschreibt. Der ELT-Prozess lädt zunächst die Daten in die Zieldatenbank, ohne sie zu transformieren. Alle gesammelten Daten liegen in ihrer Rohform vor. Es entsteht ein sogenannter Data Lake, der aus Daten verschiedenster Formate besteht. Die Transformation findet im Zielsystem mit speziellen Verfahren und Algorithmen erst für die durchzuführenden Auswertungen statt. Diese Vorgehensweise bietet den Vorteil, dass sich Daten zunächst im Zielsystem sammeln und für die Auswertungen bereitstellen lassen. Die bei den Rohdaten ausgeführten Transformationen liefern Ergebnisse, die zusammen mit den Rohdaten im gleichen Data Lake verbleiben.

Kommentare werden geladen....

Kommentar zu diesem Artikel abgeben

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Aktuelle Beiträge zu diesem Thema

Mit Birst zum automatisierten Data Warehouse

Infor und Snowflake kooperieren

Mit Birst zum automatisierten Data Warehouse

Infor, Spezialist für branchenspezifische Business-Software in der Cloud, ist eine Partnerschaft mit der Cloud-Datenplattform Snowflake eingegangen. Ziel ist der gemeinsame Aufbau automatisierter Data Warehouses. lesen

Graph-Datenbank Neo4j wird noch skalierbarer

Neo4j v.4.0

Graph-Datenbank Neo4j wird noch skalierbarer

Neo4j, ein marktführender Anbieter von Graph-Datenbanktools, hat die Version 4.0 seiner Plattform verfügbar gemacht. Zu den Neuerungen gehören unbegrenzte Skalierbarkeit, mandantenfähige Multi-Datenbank-Nutzung, die Integration von Apache Kafka und die besonders für Unternehmen wichtige feingranulare Steuerung von Datensicherheit und Datenschutz. lesen

Langzeitanalysen

Moderne Architekturen zur Datenanalyse – Teil 3

Langzeitanalysen

In den ersten beiden Teilen des Artikels ging es um die optimale Analyse von Echtzeitdaten mithilfe der Cloud. Dabei wurden in Echtzeit einlaufende Geoinformationen und Bezahldaten eines Taxiunternehmens in New York untersucht. Neben solchen Dashboard-Betrachtungen sind oftmals zusätzlich Langzeitanalysen von historischen Daten sinnvoll und gewünscht. lesen

Azure Synapse Analytics – das SQL Data Warehouse der nächsten Generation

Verknüpfung von Data Warehouses und Big Data Analytics

Azure Synapse Analytics – das SQL Data Warehouse der nächsten Generation

Mit Azure Synapse Analytics bietet Microsoft einen Analysedienst, der die Vorteile von Data Warehouses und Big-Data-Analysen miteinander kombiniert. lesen

Exasol und Eoda vereinbaren Partnerschaft

Database meets Data Science

Exasol und Eoda vereinbaren Partnerschaft

Ab sofort sind die Data-Science-Experten von Eoda autorisierter Partner der In-Memory-Datenbankspezialisten von Exasol. Ziel der Kooperation ist eine weitere Professionalisierung von Data Science im Unternehmenseinsatz. lesen

KI + Machine Learning = neue Chancen für das Datenmanagement

Interview mit Dr. Gerhard Svolba, SAS DACH

KI + Machine Learning = neue Chancen für das Datenmanagement

BigData-Insider sprach mit Dr. Gerhard Svolba, Analytic Solutions Architect und Data Scientist bei SAS DACH, wie Big Data und Digitalisierung die Ansprüche an die Datenverarbeitung verändert haben – Agilität, Elastizität und Integrationsfähigkeit sind nur einige Stichpunkte. Moderne Technologien wie Künstliche Intelligenz (KI) und Machine Learning können dabei helfen, wichtige Aufgaben zu automatisieren und Daten dadurch schneller in genau der benötigten Form zur Verfügung zu stellen. lesen

DataOps als Next Level DevOps?

Kommentar von Bastian Wießner, Eoda

DataOps als Next Level DevOps?

Der Begriff DataOps steht für „Data Operations“. Als agiler Ansatz zielt er auf die Art und Weise ab, wie Daten bzw. deren Analysen genutzt, weiterentwickelt, optimiert und zielführend in neue Datenprodukte überführt werden. DataOps ist damit der nächste logische Schritt, der im Bereich Datenanalytik auf den DevOps-Ansatz folgt. lesen

Informatica erweitert Intelligent Data Platform

Neue Anwendungen vorgestellt

Informatica erweitert Intelligent Data Platform

Mit zahlreichen Updates und neuen Anwendungen baut Informatica seine Intelligent Data Platform weiter aus. Zu den Neuheiten zählen unter anderem der KI-basierte Master-Katalog und der Data Marketplace. lesen

Snowflake ermöglicht sicheren internen Datenaustausch

Private Data Exchange vorgestellt

Snowflake ermöglicht sicheren internen Datenaustausch

Mit der Private Data Exchange bietet die Cloud-Data-Platform Snowflake ab sofort einen Hub für den sicheren, zentralen und intern verwalteten Austausch von Daten an. lesen

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Kontaktieren Sie uns über: support.vogel.de/ (ID: 45607950 / Definitionen)