Definition

Was ist Spark?

| Autor / Redakteur: tutanch / Nico Litzel

(© aga7ta - Fotolia)

Bei Apache Spark handelt es sich um ein Framework, das unter Open-Source-Lizenz öffentlich verfügbar ist. Es ist ein Top Level Project der Apache Software Foundation und entstand ursprünglich aus einem Forschungsprojekt an der University of California in Berkeley.

Spark ermöglicht es, Datenabfragen auf große Datenmengen aus unterschiedlichen Quellen in hoher Geschwindigkeit und guter Performance auszuführen. Hierfür nutzt das Framework eine verteilte Architektur und Cluster Computing. Viele große Unternehmen unterstützen die Apache Software Foundation und treiben die Entwicklung von Spark weiter voran.

Die Architektur und die verschiedenen Komponenten von Apache Spark

Die Architektur von Spark besteht aus folgenden Einzelkomponenten, die jeweils für spezifische Aufgaben im Gesamtverbund verantwortlich sind:

  • Spark Core
  • Spark SQL
  • Spark Streaming
  • MLlib Machine Learning Library
  • GraphX

Der Spark-Core stellt die Basis des kompletten Systems dar. Er sorgt für die Bereitstellung grundlegender Funktionalitäten, die Verteilung von Aufgaben sowie für das Scheduling und die Steuerung der Ein- und Ausgabeprozesse. Die Datenstruktur im Spark Core basiert auf sogenannten RDDs (Resilient Distributed Datasets). Es handelt sich dabei um eine bestimmte Art von Datenbeständen, die sich über mehrere Rechner verteilen lassen. RDDs stammen entweder aus externen Datenquellen oder entstehen aus internen Datenverarbeitungs- und Filterfunktionen.

Mithilfe von Spark SQL wird es möglich, RDDs so zu wandeln, dass sich SQL-Anfragen ausführen lassen. Hierfür erzeugt Spark SQL aus den RDDs Data Frames als temporäre Tabellen.

Die Aufgabe von Spark Streaming besteht darin, kontinuierliche Datenströme zu verarbeiten. Hierfür entstehen aus den Datenströmen einzelne Pakete, auf denen Datenaktionen ausführbar werden.

Die MLlib Machine Learning Library macht Funktionen im Apache Spark Framework verfügbar, mit denen sich die für das Machine Learning benötigten Algorithmen bedienen lassen. Das verteilte Framework zur Berechnung von Graphen stellt die GraphX-Komponente zur Verfügung.

Die Besonderheiten von Spark

Da Spark darauf ausgelegt ist, die Daten dynamisch im Arbeitsspeicher des Server-Clusters vorzuhalten und direkt dort zu verarbeiten, arbeitet das Framework besonders schnell. In Kombination mit der Parallelisierung von Arbeitsschritten erreicht Apache Spark gegenüber Systemen, deren Datenvorhaltung auf Festplatten oder SSD-Speicher basieren, eine exzellente Performance. Mit Spark können Daten im Tera- und Petabereich analysiert werden. Hierfür unterstützt das System große Cluster bestehend aus einer Vielzahl virtueller oder physischer Server. Durch Skalierung der Spark-Cluster kann die Leistungsfähigkeit fast beliebig erweitert werden.

Eine weitere Stärke des Apache Spark Frameworks ist die Bereitstellung eines äußerst leistungsfähigen Frameworks für das Maschine Learning. Dank der Möglichkeit, große Datenmengen schnell und parallelisiert zu verarbeiten und viele iterative Schleifen binnen kürzester Zeit durchzuführen, werden aufwendige Algorithmen für maschinenbasiertes Lernen optimal unterstützt.

Mögliche Anwendungsbereiche des Frameworks

Apache Spark bietet sich aufgrund seiner Schnelligkeit und der Vielfalt an Möglichkeiten, große Datenmengen aus den unterschiedlichsten Quellen zu verarbeiten, für zahlreiche Anwendungen im Big-Data-Umfeld an. Mittlerweile ist Apache Spark eine etablierte Big-Data-Technologie und wird von vielen großen Unternehmen eingesetzt. Wichtige Anwendungsbereiche von Apache Spark sind:

  • Integration und Zusammenführung von Daten aus verschiedenen Quellen und Systemen,
  • interaktive Analysen von großen Datenmengen,
  • Analyse von Datenströmen in Echtzeit sowie
  • maschinelles Lernen.

Kommentare werden geladen....

Kommentar zu diesem Artikel abgeben

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Aktuelle Beiträge zu diesem Thema

KI: Aktuelle Projekte, Use Cases und Trends

IoT-Basics

KI: Aktuelle Projekte, Use Cases und Trends

Neben Blockchain und Bitcoin der momentan größte Hype in der Digitalszene heißt Künstliche Intelligenz. Die wirtschaftliche Bedeutung der Technologie ist enorm, die möglichen Auswirkungen auf die Gesellschaft sind es ebenfalls. Der Artikel gibt einen Überblick über aktuelle Projekte und Use Cases. Außerdem stellen wir jüngste KI-Forschungsvorhaben und -erkenntnisse ins Rampenlicht. lesen

Informatica kündigt umfangreiche Streaming-Lösung an

Daten in Echtzeit analysieren und nutzen

Informatica kündigt umfangreiche Streaming-Lösung an

Ab sofort bietet Informatica die nach eigenen Angaben branchenweit umfangreichste Enterprise-Streaming-Data-Management-Lösung an. Sie ermöglicht Analyse und Verarbeitung von Streaming-Daten in Echtzeit. lesen

So schnell ist das Deep Learning Framework Caffe

Künstliche Intelligenz

So schnell ist das Deep Learning Framework Caffe

Das Deep Learning Framework Caffe ist auf Modularität, Skalierbarkeit und Schnelligkeit ausgelegt. Dadurch lassen sich unter anderem Modelle für Künstliche Intelligenz innerhalb nur weniger Stunden anstatt mehrerer Tage trainieren. lesen

Big-Data-Datenbanken

E-Book von BigData-Insider

Big-Data-Datenbanken

Big-Data-Datenbanken sollen die unterschiedlichsten Datentypen schnell und effizient verarbeiten. Sie lösen die herkömmlichen, überwiegend relationalen Datenbanktypen ab, die meist ein Data Warehouse unterstützen. Sie lösen sie ab, um neue Geschäftsmodelle zu ermöglichen, oder sie ergänzen die Data-Warehouse-Architektur mit notwendige Fähigkeiten, etwa für Data Discovery, Realtime Analytics und Advanced Analytics (Prognose). lesen

Intel Big Data Analytics Platforms im Überblick

Aufeinander abgestimmte Hard- und Software

Intel Big Data Analytics Platforms im Überblick

Geht es um Big-Data-Analysen, müssen Unternehmen auf leistungsstarke Hardware setzen, die optimal mit der Analyse-Software zusammenarbeitet. Hier gibt es verschiedene Anbieter, mit denen Intel kooperiert. lesen

Teradata befindet die Public Cloud reif für Analytics

Nachbericht Teradata Universe London 2018

Teradata befindet die Public Cloud reif für Analytics

Das Thema der diesjährigen „Teradata Universe“ lautete: Analytics in der Cloud. Wie bitte? Cloud ist doch längst ein „Nobrainer“, wie es im Business-Deutsch heißt. Aber nicht im Analytics-Umfeld, kontert Oliver Ratzesberger, Chief Operations Officer (COO) der Teradata Corp., San Diego. Eine durchgängige Analytics-Umgebung, die on premise und mit derselben Lizenz auch in diversen Cloud-Umgebungen laufe, die mit fremden Tools integrierbar und vor allem skalierbar sei – das habe es bislang nicht gegeben. lesen

Machine und Deep Learning für GridGain Professional

Version 2.4 bringt Neuerungen

Machine und Deep Learning für GridGain Professional

Mit der neuen Version 2.4 halten maschinelles Lernen und Deep Learning Einzug in das Continuous Learning Framework der GridGain Professional Edition. Zudem wurde die Apache-Spark-Integration verbessert. lesen

Hortonworks baut DataPlane Services weiter aus

Nachbericht DataWorks Summit Berlin 2018

Hortonworks baut DataPlane Services weiter aus

Hortonworks hat mit dem Data Steward Studio (DSS) einen weiteren Service in seiner DataPlane-Service-Ebene angekündigt. Die DataPlane Services bilden eine Ebene plattformübergreifender Dienste, die auf der Hortonworks Data Platform (HDP) und auf der Hortonworks Data Flow Platform (HDF) aufsetzen. Auch Partnerprodukte können so in der Cloud bereitgestellt und genutzt werden. lesen

Opentext verbessert Informationsmanagement durch KI

Nachbericht Opentext Innovation Tour

Opentext verbessert Informationsmanagement durch KI

Opentext gehört zu den Marktführern im Bereich Enterprise Information Management. Den aktuellen technischen Trends entsprechend, ergänzt der Hersteller sein Angebot nun verstärkt durch intelligente analytische Algorithmen, Sicherheitsfeatures und modernisiert seine Plattformarchitektur. lesen

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 44458950 / Definitionen)