Definition

Was ist ETL (Extract, Transform, Load)?

| Autor / Redakteur: Stefan Luber / Nico Litzel

(Bild: © aga7ta - stock.adobe.com)

Beim ETL-Prozess handelt es sich um mehrere Einzelschritte, durch die sich Daten aus verschiedenen Datenquellen per Extrahieren und Aufbereiten in ein Data Warehouse integrieren lassen. Der Prozess kommt häufig zur Verarbeitung großer Datenmengen im Big-Data- und Business-Intelligence-Umfeld zum Einsatz.

Die Abkürzung ETL steht für die drei englischen Begriffe Extract, Transform und Load. Im Deutschen bedeuten sie Extrahieren, Transformieren und Laden. ETL beschreibt einen Prozess aus mehreren Einzelschritten, mit dem sich Daten aus verschiedenen Quellen in eine Datenbank oder ein Data Warehouse integrieren lassen. Ziel ist es, die integrierten Daten für die weitere Verarbeitung vorzubereiten und bereitzustellen.

Häufig kommt der ETL-Prozess im Umfeld von Big-Data- und Business-Intelligence-Anwendungen zum Einsatz. Besonders die Verarbeitung großer Datenmengen profitiert von der strukturierten ETL-Vorgehensweise. Sind Informationen auf verschiedenen Subsystemen verteilt, liegen redundant vor oder haben eine unterschiedliche Struktur, ist die Anwendung des ETL-Prozesses sinnvoll. Während des Prozesses erfolgt die Zusammenführung und Aufbereitung der heterogen strukturierten Daten verschiedener Quellen. Die Qualität der Daten wird gesichert und ihre Konsistenz im Data Warehouse hergestellt.

Für Anwendungen im Big-Data-Umfeld ist es wichtig, dass die ETL-Prozessschritte mit hoher Geschwindigkeit und geringer Latenzzeit ablaufen. Führende Hersteller von Datenbankmanagementsystemen und Big-Data-Anwendungen, wie IBM, SAP, Oracle oder Microsoft, bieten Produkte, die den ETL-Prozess unterstützen. Zahlreiche ETL-Tools aus dem Open-Source-Umfeld sind ebenfalls verfügbar.

Typische ETL-Einsatzbereiche

Typische Einsatzbereiche für ETL finden sich dort, wo Daten in großen Mengen verarbeitet, bereitgestellt und analysiert werden müssen. Beispiele für Anwendungsgebiete sind:

  • Datenspeicherung in einem Data Warehouse
  • Datenbereitstellung für BI-Anwendungen
  • Datenextraktion aus verteilten Datenbankumgebungen oder cloudbasierten Datenbanken
  • Migration von Daten zwischen verschiedenen Anwendungen
  • Replikation von Daten zu Sicherungs- und Redundanzzwecken

Die drei Hauptphasen des ETL-Prozesses

Der ETL-Prozess ist in drei verschiedene Phasen unterteilt. Diese Phasen sind:

  • Extract: Extraktion der Daten aus den verschiedenen Datenquellen
  • Transform: Transformation der Datenstruktur und Dateninhalte in das Format und Schema der Zieldatenbank
  • Load: Laden der transformierten Daten in die Zieldatenbank oder das Data Warehouse

Extraktion: Die Extraktion ist der erste Schritt des ETL-Prozesses. Hierbei erfolgt die Auswahl der Daten in den verschiedenen Quellsystemen und die Vorbereitung für die Transformationsphase. In den meisten Fällen extrahiert der Prozess nur Teilbereiche aus einzelnen Quelldatenbanken. Extraktionen finden regelmäßig statt, um das Data Warehouse kontinuierlich mit aktualisierten Daten zu versorgen. Auch ereignisgesteuerte oder anfragegesteuerte Extraktionen sind möglich.

Transformation: Der Extraktion schließt sich die Phase der Transformation an. Die gelieferten Daten werden an das Format und das Schema der Zieldatenbank angepasst. Der Transformationsprozess durchläuft wiederum mehrere Einzelschritte. Diese Einzelschritte können beispielsweise folgende sein:

  • Festlegung grundlegender Aspekte der Formatierung
  • Bereinigung fehlerhafter Daten
  • Prüfen auf ähnliche Informationen und Datenduplikate mit anschließendem Löschen und Ausschließen dieser Daten
  • Gruppieren, Sortieren und Aggregieren der Daten
  • finale Anpassung an Zielformate und Zielschemata

Laden: Der dritte und letzte Schritt ist das Laden der zuvor geprüften und angereicherten Daten. In diesem Schritt erfolgt die eigentliche Integration in die Zieldatenbank oder das Data Warehouse. Die Daten werden physisch zum Ziel verschoben, ohne die Datenbank beim Laden lange zu blockieren. Die Integrität der geladenen Daten ist sicherzustellen. Durch ausführliches Protokollieren und Logging sind sämtliche Änderungen im Zielsystem dokumentiert. Über die Protokollierung ist es möglich, bei Bedarf alte Datenstände wieder herzustellen.

Wichtige Eigenschaften eines ETL-Tools

Damit ETL-Tools die drei Prozessphasen vereinfachen, sollten sie folgende Eigenschaften und Funktionen besitzen:

  • viele Schnittstellen zu unterschiedlichen Datenbanksystemen
  • Kompatibilität mit verschiedenen Cloudmodellen
  • Unterstützung hybrider Cloud-Architekturen
  • benutzerfreundliche, intuitiv bedienbare Benutzeroberflächen
  • Möglichkeit der Visualisierung verschiedener ETL-Phasen
  • performante Verarbeitung großer Datenmengen

Tausch der Reihenfolge – vom ETL- zum ELT-Prozess

Nicht immer müssen die drei Einzelschritte in der beschriebenen Reihenfolge stattfinden. Die beiden letzten Schritte Transformation und Laden sind im Big-Data-Umfeld häufig vertauscht. Es handelt sich in diesem Fall um eine Variante von ETL, die das Kürzel ELT beschreibt. Der ELT-Prozess lädt zunächst die Daten in die Zieldatenbank, ohne sie zu transformieren. Alle gesammelten Daten liegen in ihrer Rohform vor. Es entsteht ein sogenannter Data Lake, der aus Daten verschiedenster Formate besteht. Die Transformation findet im Zielsystem mit speziellen Verfahren und Algorithmen erst für die durchzuführenden Auswertungen statt. Diese Vorgehensweise bietet den Vorteil, dass sich Daten zunächst im Zielsystem sammeln und für die Auswertungen bereitstellen lassen. Die bei den Rohdaten ausgeführten Transformationen liefern Ergebnisse, die zusammen mit den Rohdaten im gleichen Data Lake verbleiben.

Kommentare werden geladen....

Kommentar zu diesem Artikel abgeben

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Aktuelle Beiträge zu diesem Thema

Disy schult zu Geo-Analytics und mehr

Akademieprogamm vorgestellt

Disy schult zu Geo-Analytics und mehr

Der Datenanalysespezialist Disy Informationssysteme hat sein Schulungsprogramm rund um die Themen Analyse und Visualisierung von Daten mit geografischem Bezug, Geodatenmanagement und Reporting vorgestellt. lesen

Das kann Azure Databricks

Spark as a Service

Das kann Azure Databricks

Microsoft stellt mit Azure Databricks eine Analyseplattform in Microsoft Azure zur Verfügung, die auf der bekannten Analysesoftware Apache Spark aufbaut. Bei der Entwicklung der Plattform haben die Entwickler von Spark mitgearbeitet. lesen

Mitarbeiter sind der Schlüssel zur Digitalisierung

Kommentar von Michael Märtin, Atlantis Media

Mitarbeiter sind der Schlüssel zur Digitalisierung

Digitale Technologien sind in den meisten Unternehmen angekommen, doch um wirklich datengetrieben – und damit erfolgreich – arbeiten zu können, fehlen vielen die strategische Planung und der nötige lange Atem. Der technologische Fortschritt allein generiert weder spürbare Wettbewerbsvorteile noch kann er den Gewinn langfristig steigern. Stattdessen sollten Unternehmen strategisch vorgehen und ihre Unternehmenskultur so anpassen, dass sie auch zukünftig wettbewerbsfähig sind. lesen

Warum Self-Service Analytics nur eingeschränkt zu empfehlen ist

Kommentar von Merten Slominsky, MicroStrategy

Warum Self-Service Analytics nur eingeschränkt zu empfehlen ist

Wann haben Sie zuletzt Beethovens 9. Sinfonie selbst gespielt? Gar nicht? Die Frage mag irritieren, ist aber leicht zu beantworten. Wer klassische Musik genießen möchte, kauft sich entweder die CD oder ein Ticket fürs Konzerthaus. Anders ist es bei der Datenanalyse. Self-Service Analytics heißt der Trend, bei dem jeder Mitarbeiter zum BI-Experten ernannt wird. Mit teilweise erheblichen Nachteilen für Unternehmen. lesen

Bologna im Zeichen von IoT Analytics und Smart Citys

Nachbericht Pentaho Community Meeting 2018

Bologna im Zeichen von IoT Analytics und Smart Citys

Auf dem Pentaho Community Meeting in Bologna, das zum elften Mal stattfand, tauschten sich über 220 User aus 25 Ländern zu IoT, Analytics, Machine Learning und Datenintegration aus, 27 Referenten stellten spannende Entwicklungen und Projekte vor. Organisiert wurde das Community-Meeting von Hitachi Vantara sowie dem deutschen Hitachi-Vantara-Partner IT-Novum. lesen

Self-Service Business Intelligence – Chance oder Risiko?

Kommentar von Philipp Lenz, Adesso

Self-Service Business Intelligence – Chance oder Risiko?

Bei Self-Service Business Intelligence (SSBI) erhält der Fachanwender die Freiheit, sich selbstständig an den Datentöpfen innerhalb und an Daten außerhalb der Organisation zu bedienen, die Daten selbstständig aufzubereiten, zu gruppieren sowie darzustellen. Der folgende Artikel geht auf die Chancen und Gefahren von SSBI ein und schlägt Lösungswege für eine funktionierende Umgebung mit der IT und den Fachabteilungen vor. lesen

Disy aktualisiert Geo-ETL-Tool für Talend

Geodaten-Plug-in ausgebaut

Disy aktualisiert Geo-ETL-Tool für Talend

Disy hat sein Geo-Plug-in „GeoSpatial Integration für Talend“ aktualisiert. Es ermöglicht nun unter anderem den Einsatz von WKB-Daten („Well-Known-Binary“) auf der Talend-Plattform. lesen

7 Beispiele für erfolgreiche BI- und Big-Data-Projekte

Kommentar von Stefan Müller, IT-Novum

7 Beispiele für erfolgreiche BI- und Big-Data-Projekte

Angesichts sich immer schneller ändernder Rahmenbedingungen ist die Bedeutung von Datenanalyselösungen rapide gestiegen. Unternehmen müssen in immer kürzerer Zeit immer weitreichendere Entscheidungen treffen. Dazu brauchen sie einen verlässlichen Datenbestand, der einerseits alle Informationen der Organisation enthält und andererseits rasch und unkompliziert ausgewertet werden kann. lesen

Tibco aktualisiert BI-Flaggschiff Spotfire

Nachbericht Tibco Now 2018

Tibco aktualisiert BI-Flaggschiff Spotfire

Tibco Software, ein Spezialist für Daten- und Prozessintegration sowie von Big Data Analytics, hat auf seiner internationalen Anwenderkonferenz Tibco Now in Las Vegas zahlreiche Neuheiten für seine Flaggschiffprodukte präsentiert. Zudem vertieft der Pionier des Informationsbusses seine Kooperation mit Partnern wie AWS und treibt seine IoT-Angebote voran. lesen

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 45607950 / Definitionen)