Definition

Was ist Spark?

| Autor / Redakteur: Stefan Luber / Nico Litzel

(Bild: © aga7ta - stock.adobe.com)

Bei Apache Spark handelt es sich um ein Framework, das unter Open-Source-Lizenz öffentlich verfügbar ist. Es ist ein Top Level Project der Apache Software Foundation und entstand ursprünglich aus einem Forschungsprojekt an der University of California in Berkeley.

Spark ermöglicht es, Datenabfragen auf große Datenmengen aus unterschiedlichen Quellen in hoher Geschwindigkeit und guter Performance auszuführen. Hierfür nutzt das Framework eine verteilte Architektur und Cluster Computing. Viele große Unternehmen unterstützen die Apache Software Foundation und treiben die Entwicklung von Spark weiter voran.

Die Architektur und die verschiedenen Komponenten von Apache Spark

Die Architektur von Spark besteht aus folgenden Einzelkomponenten, die jeweils für spezifische Aufgaben im Gesamtverbund verantwortlich sind:

  • Spark Core
  • Spark SQL
  • Spark Streaming
  • MLlib Machine Learning Library
  • GraphX

Der Spark-Core stellt die Basis des kompletten Systems dar. Er sorgt für die Bereitstellung grundlegender Funktionalitäten, die Verteilung von Aufgaben sowie für das Scheduling und die Steuerung der Ein- und Ausgabeprozesse. Die Datenstruktur im Spark Core basiert auf sogenannten RDDs (Resilient Distributed Datasets). Es handelt sich dabei um eine bestimmte Art von Datenbeständen, die sich über mehrere Rechner verteilen lassen. RDDs stammen entweder aus externen Datenquellen oder entstehen aus internen Datenverarbeitungs- und Filterfunktionen.

Mithilfe von Spark SQL wird es möglich, RDDs so zu wandeln, dass sich SQL-Anfragen ausführen lassen. Hierfür erzeugt Spark SQL aus den RDDs Data Frames als temporäre Tabellen.

Die Aufgabe von Spark Streaming besteht darin, kontinuierliche Datenströme zu verarbeiten. Hierfür entstehen aus den Datenströmen einzelne Pakete, auf denen Datenaktionen ausführbar werden.

Die MLlib Machine Learning Library macht Funktionen im Apache Spark Framework verfügbar, mit denen sich die für das Machine Learning benötigten Algorithmen bedienen lassen. Das verteilte Framework zur Berechnung von Graphen stellt die GraphX-Komponente zur Verfügung.

Die Besonderheiten von Spark

Da Spark darauf ausgelegt ist, die Daten dynamisch im Arbeitsspeicher des Server-Clusters vorzuhalten und direkt dort zu verarbeiten, arbeitet das Framework besonders schnell. In Kombination mit der Parallelisierung von Arbeitsschritten erreicht Apache Spark gegenüber Systemen, deren Datenvorhaltung auf Festplatten oder SSD-Speicher basieren, eine exzellente Performance. Mit Spark können Daten im Tera- und Petabereich analysiert werden. Hierfür unterstützt das System große Cluster bestehend aus einer Vielzahl virtueller oder physischer Server. Durch Skalierung der Spark-Cluster kann die Leistungsfähigkeit fast beliebig erweitert werden.

Eine weitere Stärke des Apache Spark Frameworks ist die Bereitstellung eines äußerst leistungsfähigen Frameworks für das Maschine Learning. Dank der Möglichkeit, große Datenmengen schnell und parallelisiert zu verarbeiten und viele iterative Schleifen binnen kürzester Zeit durchzuführen, werden aufwendige Algorithmen für maschinenbasiertes Lernen optimal unterstützt.

Mögliche Anwendungsbereiche des Frameworks

Apache Spark bietet sich aufgrund seiner Schnelligkeit und der Vielfalt an Möglichkeiten, große Datenmengen aus den unterschiedlichsten Quellen zu verarbeiten, für zahlreiche Anwendungen im Big-Data-Umfeld an. Mittlerweile ist Apache Spark eine etablierte Big-Data-Technologie und wird von vielen großen Unternehmen eingesetzt. Wichtige Anwendungsbereiche von Apache Spark sind:

  • Integration und Zusammenführung von Daten aus verschiedenen Quellen und Systemen,
  • interaktive Analysen von großen Datenmengen,
  • Analyse von Datenströmen in Echtzeit sowie
  • maschinelles Lernen.

Kommentare werden geladen....

Kommentar zu diesem Artikel abgeben

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Aktuelle Beiträge zu diesem Thema

Graph-Datenbanken

E-Book von BigData-Insider

Graph-Datenbanken

Aus dem täglichen Umgang mit dem Internet ist die Nutzung von verknüpften Daten nicht mehr wegzudenken. Seien es Freundschaftskreise auf Facebook und LinkedIn, Taxi-Anforderungen auf Uber oder Empfehlungen auf Amazon und Ebay – immer tritt im Hintergrund eine Datenbank in Aktion, die verwandte Daten sucht und miteinander in Beziehung setzt. Dabei handelt es sich in den meisten Fällen um eine Graph-Datenbank. lesen

Ververica kündigt Stateful Functions für Apache Flink an

Nachbericht Flink Forward Europe 2019

Ververica kündigt Stateful Functions für Apache Flink an

Ververica, vormals Data Artisans und jetzt bei Alibaba, hat kürzlich für seine Stream-Processing-Plattform auf der Entwicklerkonferenz „Flink Forward Europe 2019“ Stateful Functions für Apache Flink angekündigt. Der Quellcode soll der Apache Flink Community zur Verfügung gestellt werden. lesen

So gelingt der Start in die KI ohne zusätzliche Ausgaben

[Gesponsert]

Maschinelles Lernen auf bestehenden Infrastrukturen

So gelingt der Start in die KI ohne zusätzliche Ausgaben

IT-Manager benötigen keine neue Infrastruktur, um das volle Potential der KI auszuschöpfen. Sie können ohne zusätzliche Ausgaben sinnvolle Szenarien aufbauen und testen, gewinnbringend nutzen und bei Bedarf unkompliziert skalieren. lesen

TigerGraph bietet seine Datenbank stundenweise an

Datenbank-as-a-Service

TigerGraph bietet seine Datenbank stundenweise an

Während Unternehmen wie Google oder LinkedIn ihr komplettes Geschäft auf Graph-Datenbanken aufgebaut haben, benötigen andere ein solches Werkzeug nur selten. An diese Kunden richtet sich das jüngste Angebot des kalifornischen Softwareunternehmens TigerGraph: Unter der Bezeichnung „TigerGraph Cloud“ bietet es seine Software „as a Service“ an – wenn es denn sein soll, auch nur für eine Stunde lesen

Künstliche Intelligenz im Eigenbau

Übersicht KI- und ML-Stacks, Teil 2

Künstliche Intelligenz im Eigenbau

Eine kaum noch überschaubare Vielzahl an KI/ML-Frameworks, -Bibliotheken und -Diensten buhlt um die Gunst innovativer Unternehmen. So wird Big Data zur Goldgrube. lesen

Neue Datenbanken braucht das Land

Kommentar von Bruno Šimić, Couchbase

Neue Datenbanken braucht das Land

Die Geschäftswelt ändert sich schneller als je zuvor. Treiber dafür sind die immer größer werdenden Datenbanken der Firmen. Kunden konsumieren immer mehr Daten, weil sie mit immer mehr mobillen und IoT-Geräten Informationen nutzen. Um diese Herausforderungen zu bewältigen, werden verteilte Cloud- und Big-Data-Technologien benötigt. lesen

Databricks will Data Scientists von Routinearbeit entlasten

Apache-Spark-Projekt aus der wirtschaftlichen Perspektive

Databricks will Data Scientists von Routinearbeit entlasten

Welchen Sinn haben die Daten in den Unternehmen, wenn man sie nicht für Machine Learning nutzt? Diese rhetorische Frage stellt David Wyatt, Vice President Europe von Databricks. Als Haupttreiber des Apache-Spark-Projekts stellt das Unternehmen eine Cloud-Plattform bereit, die Data Engineers und Data Scientist zusammenbringen soll. Diese „Unified Analytics Platform“ wird derzeit um zwei Komponenten erweitert: das Projekt „Delta Lake“ zur Aufbereitung von Data Lakes und den Machine-Learning-Katalog „ML Flow“. lesen

Sinequa überarbeitet Benutzeroberfläche

Neues User Experience Framework

Sinequa überarbeitet Benutzeroberfläche

Das Benutzerinterface der Sinequa-Plattform für KI-basierte Suche und Analyse wurde vollständig neu entwickelt. Es bietet nun neue Funktionen und sorgt für eine übersichtlichere Darstellung von Informationen. lesen

Wie die Cloud hilft, den Bierabsatz zu optimieren

Data Lake in Azure-Cloud beschleunigt Entscheidungsfindung bei AB InBev

Wie die Cloud hilft, den Bierabsatz zu optimieren

Bei der Brauereigruppe AB InBev verbrachten einzelne Mitarbeiter früher bis zu 80 Prozent ihrer Zeit damit, relevante Daten zu identifizieren und aufzubereiten. Über eine zentrale Cloud-Lösung werden heute Daten schneller bereitgestellt, sodass Mitarbeiter mehr Zeit für die Analyse und die strategische Entscheidungsfindung haben. lesen

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Kontaktieren Sie uns über: support.vogel.de/ (ID: 44458950 / Definitionen)