Definition

Was ist ETL (Extract, Transform, Load)?

| Autor / Redakteur: Stefan Luber / Nico Litzel

(Bild: © aga7ta - stock.adobe.com)

Beim ETL-Prozess handelt es sich um mehrere Einzelschritte, durch die sich Daten aus verschiedenen Datenquellen per Extrahieren und Aufbereiten in ein Data Warehouse integrieren lassen. Der Prozess kommt häufig zur Verarbeitung großer Datenmengen im Big-Data- und Business-Intelligence-Umfeld zum Einsatz.

Die Abkürzung ETL steht für die drei englischen Begriffe Extract, Transform und Load. Im Deutschen bedeuten sie Extrahieren, Transformieren und Laden. ETL beschreibt einen Prozess aus mehreren Einzelschritten, mit dem sich Daten aus verschiedenen Quellen in eine Datenbank oder ein Data Warehouse integrieren lassen. Ziel ist es, die integrierten Daten für die weitere Verarbeitung vorzubereiten und bereitzustellen.

Häufig kommt der ETL-Prozess im Umfeld von Big-Data- und Business-Intelligence-Anwendungen zum Einsatz. Besonders die Verarbeitung großer Datenmengen profitiert von der strukturierten ETL-Vorgehensweise. Sind Informationen auf verschiedenen Subsystemen verteilt, liegen redundant vor oder haben eine unterschiedliche Struktur, ist die Anwendung des ETL-Prozesses sinnvoll. Während des Prozesses erfolgt die Zusammenführung und Aufbereitung der heterogen strukturierten Daten verschiedener Quellen. Die Qualität der Daten wird gesichert und ihre Konsistenz im Data Warehouse hergestellt.

Für Anwendungen im Big-Data-Umfeld ist es wichtig, dass die ETL-Prozessschritte mit hoher Geschwindigkeit und geringer Latenzzeit ablaufen. Führende Hersteller von Datenbankmanagementsystemen und Big-Data-Anwendungen, wie IBM, SAP, Oracle oder Microsoft, bieten Produkte, die den ETL-Prozess unterstützen. Zahlreiche ETL-Tools aus dem Open-Source-Umfeld sind ebenfalls verfügbar.

Typische ETL-Einsatzbereiche

Typische Einsatzbereiche für ETL finden sich dort, wo Daten in großen Mengen verarbeitet, bereitgestellt und analysiert werden müssen. Beispiele für Anwendungsgebiete sind:

  • Datenspeicherung in einem Data Warehouse
  • Datenbereitstellung für BI-Anwendungen
  • Datenextraktion aus verteilten Datenbankumgebungen oder cloudbasierten Datenbanken
  • Migration von Daten zwischen verschiedenen Anwendungen
  • Replikation von Daten zu Sicherungs- und Redundanzzwecken

Die drei Hauptphasen des ETL-Prozesses

Der ETL-Prozess ist in drei verschiedene Phasen unterteilt. Diese Phasen sind:

  • Extract: Extraktion der Daten aus den verschiedenen Datenquellen
  • Transform: Transformation der Datenstruktur und Dateninhalte in das Format und Schema der Zieldatenbank
  • Load: Laden der transformierten Daten in die Zieldatenbank oder das Data Warehouse

Extraktion: Die Extraktion ist der erste Schritt des ETL-Prozesses. Hierbei erfolgt die Auswahl der Daten in den verschiedenen Quellsystemen und die Vorbereitung für die Transformationsphase. In den meisten Fällen extrahiert der Prozess nur Teilbereiche aus einzelnen Quelldatenbanken. Extraktionen finden regelmäßig statt, um das Data Warehouse kontinuierlich mit aktualisierten Daten zu versorgen. Auch ereignisgesteuerte oder anfragegesteuerte Extraktionen sind möglich.

Transformation: Der Extraktion schließt sich die Phase der Transformation an. Die gelieferten Daten werden an das Format und das Schema der Zieldatenbank angepasst. Der Transformationsprozess durchläuft wiederum mehrere Einzelschritte. Diese Einzelschritte können beispielsweise folgende sein:

  • Festlegung grundlegender Aspekte der Formatierung
  • Bereinigung fehlerhafter Daten
  • Prüfen auf ähnliche Informationen und Datenduplikate mit anschließendem Löschen und Ausschließen dieser Daten
  • Gruppieren, Sortieren und Aggregieren der Daten
  • finale Anpassung an Zielformate und Zielschemata

Laden: Der dritte und letzte Schritt ist das Laden der zuvor geprüften und angereicherten Daten. In diesem Schritt erfolgt die eigentliche Integration in die Zieldatenbank oder das Data Warehouse. Die Daten werden physisch zum Ziel verschoben, ohne die Datenbank beim Laden lange zu blockieren. Die Integrität der geladenen Daten ist sicherzustellen. Durch ausführliches Protokollieren und Logging sind sämtliche Änderungen im Zielsystem dokumentiert. Über die Protokollierung ist es möglich, bei Bedarf alte Datenstände wieder herzustellen.

Wichtige Eigenschaften eines ETL-Tools

Damit ETL-Tools die drei Prozessphasen vereinfachen, sollten sie folgende Eigenschaften und Funktionen besitzen:

  • viele Schnittstellen zu unterschiedlichen Datenbanksystemen
  • Kompatibilität mit verschiedenen Cloudmodellen
  • Unterstützung hybrider Cloud-Architekturen
  • benutzerfreundliche, intuitiv bedienbare Benutzeroberflächen
  • Möglichkeit der Visualisierung verschiedener ETL-Phasen
  • performante Verarbeitung großer Datenmengen

Tausch der Reihenfolge – vom ETL- zum ELT-Prozess

Nicht immer müssen die drei Einzelschritte in der beschriebenen Reihenfolge stattfinden. Die beiden letzten Schritte Transformation und Laden sind im Big-Data-Umfeld häufig vertauscht. Es handelt sich in diesem Fall um eine Variante von ETL, die das Kürzel ELT beschreibt. Der ELT-Prozess lädt zunächst die Daten in die Zieldatenbank, ohne sie zu transformieren. Alle gesammelten Daten liegen in ihrer Rohform vor. Es entsteht ein sogenannter Data Lake, der aus Daten verschiedenster Formate besteht. Die Transformation findet im Zielsystem mit speziellen Verfahren und Algorithmen erst für die durchzuführenden Auswertungen statt. Diese Vorgehensweise bietet den Vorteil, dass sich Daten zunächst im Zielsystem sammeln und für die Auswertungen bereitstellen lassen. Die bei den Rohdaten ausgeführten Transformationen liefern Ergebnisse, die zusammen mit den Rohdaten im gleichen Data Lake verbleiben.

Kommentare werden geladen....

Kommentar zu diesem Artikel abgeben

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Aktuelle Beiträge zu diesem Thema

Daten-Virtualisierung ist eine Ergänzung, aber kein Ersatz

Kommentar von Mathias Golombek, Exasol

Daten-Virtualisierung ist eine Ergänzung, aber kein Ersatz

Große Datenmengen aus mehreren Quellen werden mithilfe von Data Analytics zu geschäftsrelevanten Zusammenhängen. Üblicherweise werden die dafür benötigten Daten aus den verschiedenen Quellen in die Datenbank repliziert. Doch gerade, wenn die Menge der Daten und die Anzahl der Quellen wachsen, kann es sinnvoll sein, eine virtuelle Datenebene zu schaffen. lesen

Wie Datenanalyse im Unternehmen umgesetzt werden kann

Data Analytics

Wie Datenanalyse im Unternehmen umgesetzt werden kann

Potenziale aus Daten zu heben, steht aktuell im Fokus vieler Unternehmen – gleichzeitig stehen sie vor dem Frage, wie Datenanalyse im eigenen Unternehmen umgesetzt werden kann. Ein Überblick, was beachtet werden muss. lesen

Günstige ML-Anwendungen mit In-Memory Computing

Kommentar von Abe Kleinfeld GridGain Systems

Günstige ML-Anwendungen mit In-Memory Computing

In der digitalen Welt wächst der Druck. Um wettbewerbsfähig zu bleiben, müssen Unternehmen digitale Unternehmen werden. Sie müssen die Fähigkeit entwickeln, riesige Datenmengen in Echtzeit zu verarbeiten, zu analysieren und darauf zu reagieren. lesen

5 Hürden bei der Datenintegration und bewährte Lösungen

Kommentar von Stefan Müller, IT-Novum

5 Hürden bei der Datenintegration und bewährte Lösungen

Unternehmen, die ihre Daten nicht für die Geschäftsausrichtung nutzen können, werden dem Wettbewerbsdruck nicht standhalten können. Doch Daten liegen in unterschiedlichen Formaten vor und an verschiedensten Stellen im und außerhalb des Unternehmens. Zudem sind oft nur zu einem geringen Grad miteinander verknüpft. Dabei ist eine tiefgehende Datenintegration die zwingende Voraussetzung, um Daten sinnvoll zu nutzen lesen

Data Lakes, Marts, Vaults und Warehouses – wo liegt der Unterschied?

Kommentar von Neil Barton, WhereScape

Data Lakes, Marts, Vaults und Warehouses – wo liegt der Unterschied?

Big Data oder Data Analytics sind einige der größten Herausforderungen für die IT unserer Zeit. Viele Unternehmen befinden sich inmitten einer Umstellung auf eine datengesteuerte Ausrichtung ihrer Organisation und sind auf der Suche nach der dazu passenden Dateninfrastruktur. Verschiedene Ansätze versprechen Vorteile – doch vielerorts hakt es schon beim Verstehen der Begrifflichkeit. lesen

So gelingt der Einstieg in die Data Science

Kommentar von Benjamin Aunkofer, Datanomiq

So gelingt der Einstieg in die Data Science

Big Data, Data Science und Machine Learning sind die Buzzwords dieser Jahre und Daten sind der Rohstoff für ... Lassen wir das! Wer bei BigData-Insider liest, der weiß längst, welche Rolle Daten als Rohstoff und Kapital einnehmen und wie gefragt gerade Datenexperten sind. In diesem Artikel wollen wir den Job des Data Scientists mal strukturiert durchleuchten und dann Chancen für einen Quereinstieg ausloten. Auch auf den Data Engineer gehen wir dabei ein. lesen

Tableau – eine Zukunft unter dem Dach von Salesforce

Nachbericht Tableau Conference Europe 2019

Tableau – eine Zukunft unter dem Dach von Salesforce

Auf der europäischen Kundenkonferenz in Berlin kündigte Tableau, ein Spezialist für Datenvisualisierung, kürzlich eine Reihe von Neuheiten an. Zudem äußerte sich der CEO Adam Selipsky zu den möglichen Auswirkungen der geplanten Übernahme seines Unternehmens durch den Cloud-Giganten Salesforce. lesen

Cubeware baut Solutions Platform weiter aus

Funktionsmodul ergänzt

Cubeware baut Solutions Platform weiter aus

Mit Cubeware Advance erhält die Cubeware Solutions Platform Zuwachs: Das Funktionsmodul ermöglicht Advanced und Predictive Analytics auf Basis der IBM-Software SPSS Modeler. lesen

So gewinnt man die Analytics-Lotterie

Kommentar von Christian Werling, Thoughtspot

So gewinnt man die Analytics-Lotterie

Haben Sie jemals den Lotto-Jackpot geknackt? Wahrscheinlich eher nicht, denn dafür braucht es sechs Richtige plus Zusatzzahl – und die Chance dafür liegt bei 1 zu 140 Millionen – oder um ganz korrekt zu bleiben: bei 1:139.838.160. Trotz dieser lausigen Gewinnquote haben Sie allerdings eine viel bessere Chance, den Lotto-Jackpot zu gewinnen, als einen vorgefertigten Business-Intelligence-Bericht im Vorfeld zu designen, der exakt eine Ihrer spezifischen Fragen zu Daten zu einem bestimmten Zeitpunkt klar beantwortet. lesen

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Kontaktieren Sie uns über: support.vogel.de/ (ID: 45607950 / Definitionen)