Definition

Was ist Spark?

| Autor / Redakteur: tutanch / Nico Litzel

(© aga7ta - Fotolia)

Bei Apache Spark handelt es sich um ein Framework, das unter Open-Source-Lizenz öffentlich verfügbar ist. Es ist ein Top Level Project der Apache Software Foundation und entstand ursprünglich aus einem Forschungsprojekt an der University of California in Berkeley.

Spark ermöglicht es, Datenabfragen auf große Datenmengen aus unterschiedlichen Quellen in hoher Geschwindigkeit und guter Performance auszuführen. Hierfür nutzt das Framework eine verteilte Architektur und Cluster Computing. Viele große Unternehmen unterstützen die Apache Software Foundation und treiben die Entwicklung von Spark weiter voran.

Die Architektur und die verschiedenen Komponenten von Apache Spark

Die Architektur von Spark besteht aus folgenden Einzelkomponenten, die jeweils für spezifische Aufgaben im Gesamtverbund verantwortlich sind:

  • Spark Core
  • Spark SQL
  • Spark Streaming
  • MLlib Machine Learning Library
  • GraphX

Der Spark-Core stellt die Basis des kompletten Systems dar. Er sorgt für die Bereitstellung grundlegender Funktionalitäten, die Verteilung von Aufgaben sowie für das Scheduling und die Steuerung der Ein- und Ausgabeprozesse. Die Datenstruktur im Spark Core basiert auf sogenannten RDDs (Resilient Distributed Datasets). Es handelt sich dabei um eine bestimmte Art von Datenbeständen, die sich über mehrere Rechner verteilen lassen. RDDs stammen entweder aus externen Datenquellen oder entstehen aus internen Datenverarbeitungs- und Filterfunktionen.

Mithilfe von Spark SQL wird es möglich, RDDs so zu wandeln, dass sich SQL-Anfragen ausführen lassen. Hierfür erzeugt Spark SQL aus den RDDs Data Frames als temporäre Tabellen.

Die Aufgabe von Spark Streaming besteht darin, kontinuierliche Datenströme zu verarbeiten. Hierfür entstehen aus den Datenströmen einzelne Pakete, auf denen Datenaktionen ausführbar werden.

Die MLlib Machine Learning Library macht Funktionen im Apache Spark Framework verfügbar, mit denen sich die für das Machine Learning benötigten Algorithmen bedienen lassen. Das verteilte Framework zur Berechnung von Graphen stellt die GraphX-Komponente zur Verfügung.

Die Besonderheiten von Spark

Da Spark darauf ausgelegt ist, die Daten dynamisch im Arbeitsspeicher des Server-Clusters vorzuhalten und direkt dort zu verarbeiten, arbeitet das Framework besonders schnell. In Kombination mit der Parallelisierung von Arbeitsschritten erreicht Apache Spark gegenüber Systemen, deren Datenvorhaltung auf Festplatten oder SSD-Speicher basieren, eine exzellente Performance. Mit Spark können Daten im Tera- und Petabereich analysiert werden. Hierfür unterstützt das System große Cluster bestehend aus einer Vielzahl virtueller oder physischer Server. Durch Skalierung der Spark-Cluster kann die Leistungsfähigkeit fast beliebig erweitert werden.

Eine weitere Stärke des Apache Spark Frameworks ist die Bereitstellung eines äußerst leistungsfähigen Frameworks für das Maschine Learning. Dank der Möglichkeit, große Datenmengen schnell und parallelisiert zu verarbeiten und viele iterative Schleifen binnen kürzester Zeit durchzuführen, werden aufwendige Algorithmen für maschinenbasiertes Lernen optimal unterstützt.

Mögliche Anwendungsbereiche des Frameworks

Apache Spark bietet sich aufgrund seiner Schnelligkeit und der Vielfalt an Möglichkeiten, große Datenmengen aus den unterschiedlichsten Quellen zu verarbeiten, für zahlreiche Anwendungen im Big-Data-Umfeld an. Mittlerweile ist Apache Spark eine etablierte Big-Data-Technologie und wird von vielen großen Unternehmen eingesetzt. Wichtige Anwendungsbereiche von Apache Spark sind:

  • Integration und Zusammenführung von Daten aus verschiedenen Quellen und Systemen,
  • interaktive Analysen von großen Datenmengen,
  • Analyse von Datenströmen in Echtzeit sowie
  • maschinelles Lernen.

Kommentare werden geladen....

Kommentar zu diesem Artikel abgeben

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Aktuelle Beiträge zu diesem Thema

Hard-und Software-Bundle für Hadoop und Deep Learning

Dell EMC Ready Solutions für KI

Hard-und Software-Bundle für Hadoop und Deep Learning

Mithilfe der „Dell EMC Ready Solutions für KI“ sollen Unternehmen ihre KI-Umgebungen nicht mehr in einzelnen Komponenten beschaffen und zusammenfügen müssen. Stattdessen könnten sie sich auf ein von Dell EMC entwickeltes und validiertes Paket von Best-of-Breed-Software verlassen – einschließlich KI-Frameworks und -Bibliotheken sowie den benötigten Rechen-, Netzwerk- und Speicherkapazitäten. lesen

Wenn schon Big Data, dann aber richtig

Kommentar von Neil Barton, Wherescape

Wenn schon Big Data, dann aber richtig

Nach der Anfangseuphorie hat sich im Bereich Big Data Ernüchterung breit gemacht. Nicht wenige Unternehmen haben kräftig in Big Data investiert und müssen sich nun die Frage gefallen lassen, ob den getätigten Investition denn auch entsprechende Werte für ihr Unternehmen gegenüberstehen. Tatsächlich mündet nur ein Bruchteil von Big-Data-Projekten in der Produktion. Mit diesen fünf grundlegenden Planungstipps kann man Fehlinvestitionen schon in der Planungsphase vermeiden und Big Data im Unternehmen zum Erfolg führen. lesen

Ein erster Blick auf Amazon QuickSight

Business Intelligence aus der Cloud

Ein erster Blick auf Amazon QuickSight

Self-Service BI ist schon seit Jahren der wichtigste Trend im Bereich Business Intelligence. Mitarbeiter in Fachbereichen erstellen Ad-hoc-Abfragen und analysieren Leistungsdaten. Mit QuickSight macht Amazon nun bekannten Cloud-Angeboten wie Qlik, Tableau, Microsoft PowerBI und SAP Lumira Konkurrenz. lesen

Disy schließt Forschungsprojekt erfolgreich ab

Umgang mit Spatial Big Data

Disy schließt Forschungsprojekt erfolgreich ab

Gemeinsam mit Partnern aus Wissenschaft und Praxis hat die Karlsruher Disy Informationssysteme GmbH ein BMBF-Forschungsprojekt rund um Methoden und Werkzeuge zur Verarbeitung großer Mengen von Geodaten erfolgreich abgeschlossen. lesen

SAS stellt KI, Governance und Collaboration in den Vordergrund

Nachbericht SAS Forum Deutschland 2018

SAS stellt KI, Governance und Collaboration in den Vordergrund

Auf seiner Anwenderkonferenz „SAS Forum Deutschland 2018“ in Bonn stellte der US-Analytics-Spezialist SAS seine Self-Service-Analyse-Plattform SAS Viya in der Version 3.3 vor und gewährte Ausblicke auf Version 3.4. Viya ist auf moderne Analytics- und KI-Technologien ausgerichtet, daher sollen auch Grafikprozessoren, Container und Collaboration-Technologien unterstützt werden. lesen

Analytics- und Suchfunktionen von Webfocus ausgebaut

Information Builders

Analytics- und Suchfunktionen von Webfocus ausgebaut

Information Builders hat seine BI- und Analytics-Plattform Webfocus in den Bereichen Advanced Analytics, Content Reusability, Data Management, Intelligent Search und Storytelling erweitert. lesen

Mehr Security, schnellere Analyse und günstige TCO

MapR 6.1 soll Big Data unternehmenstauglicher machen

Mehr Security, schnellere Analyse und günstige TCO

Ein neues „Major Release“ seiner Datenplattform MapR hat der gleichnamige Softwareanbieter aus Santa Clara, Kalifornien, für den kommenden Herbst in Aussicht gestellt: MapR 6.1 ist unter anderem dafür ausgelegt, die Datenanalyse für KI-Anwendungen zu beschleunigen und die Betriebskosten zu senken. lesen

Databricks erweitert Sparks KI-Fähigkeiten mit ML-Framework

Künstliche Intelligenz mit Apache Spark

Databricks erweitert Sparks KI-Fähigkeiten mit ML-Framework

Databricks, Entwickler und Betreuer der Analytics-Plattform Apache Spark, hat mit der Unified Analytics Platform ein neues Machine Learning Framework vorgestellt. Drei zusätzliche Spark-Funktionen sollen die Zusammenarbeit zwischen Datenbereitstellung und KI-Entwicklung plattformübergreifend performant machen lesen

KI: Aktuelle Projekte, Use Cases und Trends

IoT-Basics

KI: Aktuelle Projekte, Use Cases und Trends

Neben Blockchain und Bitcoin der momentan größte Hype in der Digitalszene heißt Künstliche Intelligenz. Die wirtschaftliche Bedeutung der Technologie ist enorm, die möglichen Auswirkungen auf die Gesellschaft sind es ebenfalls. Der Artikel gibt einen Überblick über aktuelle Projekte und Use Cases. Außerdem stellen wir jüngste KI-Forschungsvorhaben und -erkenntnisse ins Rampenlicht. lesen

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 44458950 / Definitionen)