Definition

Was ist Spark?

| Autor / Redakteur: tutanch / Nico Litzel

(© aga7ta - Fotolia)

Bei Apache Spark handelt es sich um ein Framework, das unter Open-Source-Lizenz öffentlich verfügbar ist. Es ist ein Top Level Project der Apache Software Foundation und entstand ursprünglich aus einem Forschungsprojekt an der University of California in Berkeley.

Spark ermöglicht es, Datenabfragen auf große Datenmengen aus unterschiedlichen Quellen in hoher Geschwindigkeit und guter Performance auszuführen. Hierfür nutzt das Framework eine verteilte Architektur und Cluster Computing. Viele große Unternehmen unterstützen die Apache Software Foundation und treiben die Entwicklung von Spark weiter voran.

Die Architektur und die verschiedenen Komponenten von Apache Spark

Die Architektur von Spark besteht aus folgenden Einzelkomponenten, die jeweils für spezifische Aufgaben im Gesamtverbund verantwortlich sind:

  • Spark Core
  • Spark SQL
  • Spark Streaming
  • MLlib Machine Learning Library
  • GraphX

Der Spark-Core stellt die Basis des kompletten Systems dar. Er sorgt für die Bereitstellung grundlegender Funktionalitäten, die Verteilung von Aufgaben sowie für das Scheduling und die Steuerung der Ein- und Ausgabeprozesse. Die Datenstruktur im Spark Core basiert auf sogenannten RDDs (Resilient Distributed Datasets). Es handelt sich dabei um eine bestimmte Art von Datenbeständen, die sich über mehrere Rechner verteilen lassen. RDDs stammen entweder aus externen Datenquellen oder entstehen aus internen Datenverarbeitungs- und Filterfunktionen.

Mithilfe von Spark SQL wird es möglich, RDDs so zu wandeln, dass sich SQL-Anfragen ausführen lassen. Hierfür erzeugt Spark SQL aus den RDDs Data Frames als temporäre Tabellen.

Die Aufgabe von Spark Streaming besteht darin, kontinuierliche Datenströme zu verarbeiten. Hierfür entstehen aus den Datenströmen einzelne Pakete, auf denen Datenaktionen ausführbar werden.

Die MLlib Machine Learning Library macht Funktionen im Apache Spark Framework verfügbar, mit denen sich die für das Machine Learning benötigten Algorithmen bedienen lassen. Das verteilte Framework zur Berechnung von Graphen stellt die GraphX-Komponente zur Verfügung.

Die Besonderheiten von Spark

Da Spark darauf ausgelegt ist, die Daten dynamisch im Arbeitsspeicher des Server-Clusters vorzuhalten und direkt dort zu verarbeiten, arbeitet das Framework besonders schnell. In Kombination mit der Parallelisierung von Arbeitsschritten erreicht Apache Spark gegenüber Systemen, deren Datenvorhaltung auf Festplatten oder SSD-Speicher basieren, eine exzellente Performance. Mit Spark können Daten im Tera- und Petabereich analysiert werden. Hierfür unterstützt das System große Cluster bestehend aus einer Vielzahl virtueller oder physischer Server. Durch Skalierung der Spark-Cluster kann die Leistungsfähigkeit fast beliebig erweitert werden.

Eine weitere Stärke des Apache Spark Frameworks ist die Bereitstellung eines äußerst leistungsfähigen Frameworks für das Maschine Learning. Dank der Möglichkeit, große Datenmengen schnell und parallelisiert zu verarbeiten und viele iterative Schleifen binnen kürzester Zeit durchzuführen, werden aufwendige Algorithmen für maschinenbasiertes Lernen optimal unterstützt.

Mögliche Anwendungsbereiche des Frameworks

Apache Spark bietet sich aufgrund seiner Schnelligkeit und der Vielfalt an Möglichkeiten, große Datenmengen aus den unterschiedlichsten Quellen zu verarbeiten, für zahlreiche Anwendungen im Big-Data-Umfeld an. Mittlerweile ist Apache Spark eine etablierte Big-Data-Technologie und wird von vielen großen Unternehmen eingesetzt. Wichtige Anwendungsbereiche von Apache Spark sind:

  • Integration und Zusammenführung von Daten aus verschiedenen Quellen und Systemen,
  • interaktive Analysen von großen Datenmengen,
  • Analyse von Datenströmen in Echtzeit sowie
  • maschinelles Lernen.

Kommentare werden geladen....

Kommentar zu diesem Artikel abgeben

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Aktuelle Beiträge zu diesem Thema

Die wichtigsten Big-Data-Technologien

Überblick

Die wichtigsten Big-Data-Technologien

Big-Data-Anwendungen basieren nicht auf einer einzigen Technologie, sondern sind im Grunde ein Zusammenspiel verschiedener Innovationen. Dafür reichen jedoch herkömmliche Technologien wie zum Beispiel klassische Datenbanken, Data Warehouse- oder Reporting-Lösungen bei weitem nicht aus. lesen

Alexa spricht Splunk

Nachbericht Splunk .conf 2018

Alexa spricht Splunk

Splunk, ein Spezialist für die Analyse von Maschinendaten, adressiert eine breitere Nutzerschicht, nämlich die Mitarbeiter in den Fachbereichen. Zahlreiche neue Funktionen, wie etwa mobile Apps und Sprachausgabe, sollen ihnen das Leben erleichtern. Neben zahlreichen Neuerungen in den Kernprodukten stellte Splunk seine eigene IIoT-Plattform für Industrie 4.0 vor. lesen

Microsoft vereinfacht Entwicklung digitaler Zwillinge

Sichere IoT- und Edge-Lösungen

Microsoft vereinfacht Entwicklung digitaler Zwillinge

Im Rahmen der Ignite 2018 hat Microsoft in Orlando/Florida gezeigt, wie Unternehmen mit Künstlicher Intelligenz (KI), dem Internet der Dinge (IoT) und Edge Computing die Digitalisierung vorantreiben können. lesen

Informatica aktualisiert Big-Data-Plattform

Für Apache-Spark-basierte Clouds

Informatica aktualisiert Big-Data-Plattform

In der nächsten Generation von Informaticas Big-Data-Management-Plattform für Spark-basierte Big Data Clouds sorgt unter anderem Künstliche Intelligenz (KI) für belastbare Informationen und beschleunigte Analysen. lesen

Tibco aktualisiert BI-Flaggschiff Spotfire

Nachbericht Tibco Now 2018

Tibco aktualisiert BI-Flaggschiff Spotfire

Tibco Software, ein Spezialist für Daten- und Prozessintegration sowie von Big Data Analytics, hat auf seiner internationalen Anwenderkonferenz Tibco Now in Las Vegas zahlreiche Neuheiten für seine Flaggschiffprodukte präsentiert. Zudem vertieft der Pionier des Informationsbusses seine Kooperation mit Partnern wie AWS und treibt seine IoT-Angebote voran. lesen

Der IoT-Kalender 2018: Aktualisiert!

Wichtige IoT-Events

Der IoT-Kalender 2018: Aktualisiert!

Das Jahr 2018 ist wieder vollgepackt mit IoT-relevanten Veranstaltungen. Zahlreiche internationale Messen, Kongresse und Konferenzen informieren über aktuelle IIoT- und Industrie-4.0-Trends und -Anwendungen. Damit Sie den Überblick nicht verlieren, stellen wir Ihnen einige Event-Highlights vor. lesen

Das kann die Intel Data Analytics Acceleration Library

Machine Learning und Datenanalyse beschleunigen

Das kann die Intel Data Analytics Acceleration Library

Bei der Verarbeitung von Daten in den Bereichen Big Data und Machine Learning spielt die Leistung eine wesentliche Rolle. Intel unterstützt Entwickler hier mit der kostenlosen Data Analytics Acceleration Library (DAAL). lesen

Hard-und Software-Bundle für Hadoop und Deep Learning

Dell EMC Ready Solutions für KI

Hard-und Software-Bundle für Hadoop und Deep Learning

Mithilfe der „Dell EMC Ready Solutions für KI“ sollen Unternehmen ihre KI-Umgebungen nicht mehr in einzelnen Komponenten beschaffen und zusammenfügen müssen. Stattdessen könnten sie sich auf ein von Dell EMC entwickeltes und validiertes Paket von Best-of-Breed-Software verlassen – einschließlich KI-Frameworks und -Bibliotheken sowie den benötigten Rechen-, Netzwerk- und Speicherkapazitäten. lesen

Wenn schon Big Data, dann aber richtig

Kommentar von Neil Barton, Wherescape

Wenn schon Big Data, dann aber richtig

Nach der Anfangseuphorie hat sich im Bereich Big Data Ernüchterung breit gemacht. Nicht wenige Unternehmen haben kräftig in Big Data investiert und müssen sich nun die Frage gefallen lassen, ob den getätigten Investition denn auch entsprechende Werte für ihr Unternehmen gegenüberstehen. Tatsächlich mündet nur ein Bruchteil von Big-Data-Projekten in der Produktion. Mit diesen fünf grundlegenden Planungstipps kann man Fehlinvestitionen schon in der Planungsphase vermeiden und Big Data im Unternehmen zum Erfolg führen. lesen

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 44458950 / Definitionen)