Spark- und Kafka-Unterstützung

Pentaho Data Integration erhält umfangreiche Ergänzungen

| Autor / Redakteur: Martin Hensel / Nico Litzel

Pentaho hat fünf Neuerungen für seine Big-Data-Plattform vorgestellt.
Pentaho hat fünf Neuerungen für seine Big-Data-Plattform vorgestellt. (Bild: Pentaho)

Pentaho hat zahlreiche Verbesserungen angekündigt, die schneller zu Ergebnissen bei Big-Data-Projekten führen sollen. Dazu zählen beispielsweise Spark- und Kafka-Support, eine verbesserte Metadaten-Einspeisung und eine optimierte Hadoop-Sicherheit.

Die Neuerungen sollen eine manuelle Programmierung überflüssig machen und erweiterte Sicherheit sowie Unterstützung von Big-Data-Technologien bieten. IT-Teams sollen dadurch schneller Nutzen aus Big-Data-Projekten mit bestehenden Ressourcen ziehen können.

Spark-Integration erweitert

So hat Pentaho die bestehende Spark-Integration seiner Plattform ausgeweitet. Datenanalysten können nun SQL in Spark nutzen, um via Pentaho Data Integration (PDI) Spark-Daten abzufragen und zu verarbeiten. Die erweiterte PDI-Orchestrierung für Spark Streaming, Spark SQL und maschinelle Spark-Lerntechniken (Spark MLlib und Spark ML) sowie Python-basierte Spark-Applikationen soll zudem Koordination, Terminierung, Wiederverwendung und Verwaltung von Spark-Anwendungen in Daten-Pipelines erleichtern.

Schnellere Metadaten-Einspeisung

Die erweiterten Funktionen für die Metadaten-Einspeisung ermöglichen unter anderem einen schnelleren Onboarding-Prozess von vielen, sich stetig ändernden Datenquellen. Transformationen lassen sich während der Laufzeit dynamisch generieren, was für hohe Kosteneinsparungen sorgt. Pentaho hat die bestehenden Funktionen für die Metadaten-Einspeisung um 30 kompatible PDI-Transformationsschritte erweitert. Dazu zählen Abläufe in Hadoop, Hbase, JSON, XML, Vertics, Greenplum und anderen Big-Data-Quellen.

Weitere Neuerungen

Zudem wurde die Integration von Datensicherheitsanwendungen für Hadoop ausgebaut, um verbesserte Big Data Governance zu ermöglichen. Neu an Bord sind etwa eine erweiterte Kerberos-Integration für sichere Authentifizierung in Multi-User-Umgebung sowie Apache-Sentry-Support, um Regeln für den Zugriff auf bestimmte Hadoop-Datensätze durchzusetzen. Pentaho hat zudem das Senden und Empfangen von Daten aus Kafka ergänzt, um durchgehende Datenverarbeitungsfälle in PDI zu erleichtern. Auch ist jetzt die Dateiausgabe in den Formaten Avro und Parquet möglich.

Kommentare werden geladen....

Kommentar zu diesem Artikel abgeben

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Kontaktieren Sie uns über: support.vogel.de/ (ID: 44304664 / Infrastruktur)