Definition

Was ist Cloudera?

| Autor / Redakteur: Stefan Luber / Nico Litzel

(Bild: © aga7ta - stock.adobe.com)

Bei Cloudera handelt es sich um einen US-amerikanischen Hersteller von Software. Er bietet eine Hadoop-Distribution für die Verarbeitung von großen Datenmengen im Big-Data-Umfeld. Cloudera zählt zu den bekanntesten Anbietern solcher Distributionen.

Cloudera ist ein Unternehmen, das 2008 im kalifornischen Palo Alto gegründet wurde. Das Unternehmen ist spezialisiert auf Software rund um Apache Hadoop und bietet eine eigene Hadoop-Distribution an. Die erste Distribution von Cloudera erschien bereits im Jahr 2009. Für die Hadoop-Distribution CDH (Cloudera Distribution Including Apache Hadoop) existiert ein Abonnement-Modell, das abhängig von der Anzahl der verwendeten Knoten ist. Die wesentlichen Bestandteile von CDH sind neben dem Hadoop Distributed File System (HDFS) und MapReduce Funktionen für die Verwaltung von Clustern, die Integration weiterer Software- und Hardwarekomponenten sowie Features rund um die Hochverfügbarkeit der Systeme und die Sicherheit der Daten.

Die Hadoop-Distribution von Cloudera zählt weltweit zu den bekanntesten Distributionen von Apache Hadoop und ermöglicht den Einsatz im Bereich des High Performance Computings (HPC) und der Big-Data-Anwendungen. Die Lösung lässt sich nutzen, wenn sehr große Datenbestände analysiert und verarbeitet werden müssen. Mögliche Anwendungsgebiete sind im Finanzwesen, in der Logistik, dem Kampagnenmanagement oder im Internet of Things (IoT) und in weiteren Bereichen zu finden. Cloudera stellt für diese Anwendungen eine einheitliche Plattform für das Speichern und Prozessieren aller Daten zur Verfügung.

Cloudera und der Enterprise Data Hub

Eine sehr wichtige und grundlegende Rolle in der Hadoop-Distribution von Cloudera nimmt der sogenannte Enterprise Data Hub ein. Er stellt die Ressourcen bereit, um alle Daten zentral zu speichern, vorzuhalten und zu bearbeiten. Er lässt sich in bestehende Infrastrukturen und Anwendungen integrieren und sorgt für abgesicherte und standardisierte Zugriffsverfahren. Auf Basis des Enterprise Data Hubs können zahlreiche unterschiedliche Enterprise-Anwendungen betrieben werden. Für diese sind interaktive SQL-Aktionen, die Batch-Verarbeitung von Daten, die Suche von Daten und erweiterte Analysemöglichkeiten nutzbar.

Der Enterprise Data Hub zeichnet sich durch Sicherheit, hohen Datenschutz, Stabilität, Robustheit und eine gute Verwaltbarkeit aus. Die Daten können im Enterprise Data Hub so lange wie benötigt in ihrer ursprünglichen Form aufbewahrt werden. Dank seiner Flexibilität und des modularen Aufbaus des Hubs sind die Daten für zahlreiche Aufgaben nutzbar. Die Daten stellen nicht mehr überwiegend einen Kostenfaktor für das Unternehmen dar, sondern werden zu einer Art Unternehmensvermögen. Mithilfe des Enterprise Data Hubs lassen sich sowohl aktuelle Betriebsdaten als auch strategische Langzeitdaten des Unternehmens prozessieren.

Beispielhafte Anwendungen sind:

  • Aktive Archive, die die Offline-Speicherung von Daten auf ausgelagerten Speichermedien
  • überflüssig machen,
  • interaktive Self-Service Tools zur Datensuche als Alternative zu SQL-Abfragen und der Keyword-Suche,
  • erweiterte Analyse von Daten unter Einbeziehung sämtlicher historischer Daten und die
  • performante Transformation von großen Datenmengen für die weitere Verarbeitung zum Beispiel in einem Data Warehouse.

Die Rolle von Hadoop im Cloudera Enterprise Data Hub

Apache Hadoop stellt ein freies Framework zur Verfügung, das hoch skalierbar ist und für verteilt arbeitende Software genutzt werden kann. Es ist in Java geschrieben und basiert im Kern auf dem sogenannten MapReduce-Algorithmus von Google und einem speziellen Dateisystem. Hadoop ermöglicht das Prozessieren riesiger Datenmengen auf verteilten Computersystemen und stellt einen stabilen und flexiblen Core für das Big-Data-Management zur Verfügung.

Obwohl sich Hadoop im Big-Data-Umfeld zu einer Art Standard entwickelt hat, besitzt es in einigen Bereichen noch Schwächen und Lücken. Beispielsweise sind dies Schwächen im Sicherheitsmodell, in der Batch-Verarbeitung oder bei den Standard-Schnittstellen für Abfragen und Suchen. Die Cloudera-Hadoop-Distribution und ihr Enterprise Data Hub basiert auf Hadoop mit seinem speziellen Dateisystem sowie dem MapReduce-Algorithmus, versucht aber die Schwächen und Lücken von Hadoop durch Erweiterungen und Zusatzapplikationen zu beseitigen.

Die verschiedenen Produkte von Cloudera

Die Cloudera-Plattform für Big-Data-Anwendungen ist in verschiedenen Ausprägungen verfügbar. Es existieren sowohl freie, nicht-supportete Produkte als auch supportete Enterprise-Produkte. Zu den freien Produkten zählen CDH oder Cloudera Express. Diese Produktlinie ist für Anwender gedacht, die an einer freien Hadoop-Distribution interessiert sind. Die supportete Enterprise Software Cloudera Enterprise in den Editionen Basic, Flex und Data Hub basieren auf einem jährlichen Abonnement-Modell.

Vorteile der Hadoop-Distribution von Cloudera

Die Hadoop-Distribution von Cloudera bietet einige Vorteile, die sie für den Einsatz im Big-Data-Umfeld und für Datenanalysen im Unternehmen ideal geeignet machen. Diese Vorteile finden sich in den Bereichen:

  • Einheitlichkeit,
  • Sicherheit,
  • Governance,
  • Verwaltung und
  • Offenheit

Es handelt sich bei Cloudera um ein integriertes System mit einem einzigen Datenpool für verschiedene Applikationen und Anwendungen. Die Daten müssen für die weitere Verarbeitung nicht in verschiedenen System vorgehalten oder verschoben werden. Zudem bietet Cloudera verlässliche Sicherheitskonzepte für den Datenschutz und die Authentifizierung mit fein granular einstellbaren Benutzerrechten. Standardmäßig ist das komplette System hoch verfügbar, bietet eine gute Fehlertoleranz und ermöglicht professionelles Daten-Auditing.

Mit zum Funktionsumfang gehören automatisierte Backup-Prozeduren, eine erweiterte Daten- und Systemhaltung sowie Disaster-Recovery-Mechanismen. Das Open-Source-Modell hat zudem den Vorteil, dass es sich um eine offene Plattform handelt, bei der Investitionen in die Technik und das Know-how transparent sind. Proprietäre und nicht kombinierbare Insellösungen werden vermieden.

Kommentare werden geladen....

Kommentar zu diesem Artikel abgeben

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Aktuelle Beiträge zu diesem Thema

Cloudera stellt Data Platform vor

Self-Service-Analysen

Cloudera stellt Data Platform vor

Mit der Cloudera Data Platform (CDP) hat Cloudera ab sofort eine integrierte Datenplattform im Portfolio. Sie soll einfache Implementierung und Anwendung mit leistungsstarken Self-Service-Analysen in hybriden und Multi-Cloud-Umgebungen verbinden. lesen

So lassen sich mit der richtigen Strategie große Datenmengen bewältigen

Kommentar von Daniel Metzger, Cloudera

So lassen sich mit der richtigen Strategie große Datenmengen bewältigen

Mit dem exponentiellen Wachstum des Datenbestands der letzten 20 Jahren steigt das Potenzial für die Transformation von Unternehmen. Laut einer Schätzung von IDC wird die Datenmenge bis 2025 auf 163 Zettabytes ansteigen. Daher überrascht es nicht, dass die Analyse dieser Daten – einschließlich der Speicherung, Verwaltung und abschließender Interpretation – einen immer höheren Stellenwert im Unternehmen einnimmt. lesen

Cloudera und Hortonworks vereinigen ihre Datenplattformen

Nachbericht DataWorks Summit Barcelona

Cloudera und Hortonworks vereinigen ihre Datenplattformen

Auf der diesjährigen DataWorks-Konferenz in Barcelona traten Cloudera und Hortonworks erstmals gemeinsam auf. Im Januar 2019 hatten beide auf Data Science und Big Data spezialisierten Anbieter ihren Zusammenschluss vollzogen. Als ein Ergebnis wird demnächst die neue Enterprise Data Cloud eingeführt, die vollständig auf Open Source basiert. lesen

Cloudera will nächstes Jahr profitabel sein

Nach dem Zusammenschluss mit Hortonworks

Cloudera will nächstes Jahr profitabel sein

Mit Cloudera und Hortonworks haben sich die beiden größten Anbieter im Hadoop-Umfeld zusammengeschlossen. Beide schreiben bislang rote Zahlen. Wolfgang Huber, Senior Regional Sales Director Benelux, Central and Eastern Europe, erläutert im Gespräch mit BigData-Insider, wie aus zwei defizitären Unternehmen ein auch finanziell erfolgreicher Konzern werden soll. lesen

Die Datenlandschaft verändert sich

Prognosen für 2019 von Wolfgang Huber, Cloudera

Die Datenlandschaft verändert sich

2018 war ein Jahr der grundlegenden Veränderungen. Basis dafür waren die Auswirkungen von Datenmanagement und -analyse und natürlich auch die DSGVO. Wolfgang Huber von Cloudera blickt zurück und gibt einen Ausblick auf vier wichtige Technologiebereiche. lesen

Cloudera und Hortonworks schließen Fusion ab

Zusammenschluss vollzogen

Cloudera und Hortonworks schließen Fusion ab

Die beiden Datenspezialisten Cloudera und Hortonworks haben ihre Fusion erfolgreich vollzogen. Gemeinsam wollen die Unternehmen eine Enterprise Data Cloud vom Edge bis hin zu Künstlicher Intelligenz (KI) entwickeln. lesen

Apache Kafka – von Big zu Fast Data

Open-Source-Streaming-Plattform

Apache Kafka – von Big zu Fast Data

Die verteilte Streaming-Plattform Apache Kafka wurde für ein schnelles Verarbeiten und Speichern von Billionen von Datenströmen pro Tag entwickelt. Gleichzeitig stellt sie eine Schnittstelle zum Laden und Exportieren von Datenströmen zu Drittsystemen bereit. lesen

Cloudera sieht großes Machine-Learning-Potenzial in Europa

Marktstudie vorgestellt

Cloudera sieht großes Machine-Learning-Potenzial in Europa

Im Rahmen einer Studie hat sich Cloudera mit den Marktchancen für Machine Learning in europäischen Unternehmen befasst. Sie zeigt, dass maschinelles Lernen in immer mehr Anwendungsbereichen zum Einsatz kommt. lesen

Die wichtigsten Big-Data-Technologien

Überblick

Die wichtigsten Big-Data-Technologien

Big-Data-Anwendungen basieren nicht auf einer einzigen Technologie, sondern sind im Grunde ein Zusammenspiel verschiedener Innovationen. Dafür reichen jedoch herkömmliche Technologien wie zum Beispiel klassische Datenbanken, Data Warehouse- oder Reporting-Lösungen bei weitem nicht aus. lesen

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Kontaktieren Sie uns über: support.vogel.de/ (ID: 44757420 / Definitionen)