Suchen

Spark- und Kafka-Unterstützung Pentaho Data Integration erhält umfangreiche Ergänzungen

| Autor / Redakteur: Martin Hensel / Nico Litzel

Pentaho hat zahlreiche Verbesserungen angekündigt, die schneller zu Ergebnissen bei Big-Data-Projekten führen sollen. Dazu zählen beispielsweise Spark- und Kafka-Support, eine verbesserte Metadaten-Einspeisung und eine optimierte Hadoop-Sicherheit.

Firma zum Thema

Pentaho hat fünf Neuerungen für seine Big-Data-Plattform vorgestellt.
Pentaho hat fünf Neuerungen für seine Big-Data-Plattform vorgestellt.
(Bild: Pentaho)

Die Neuerungen sollen eine manuelle Programmierung überflüssig machen und erweiterte Sicherheit sowie Unterstützung von Big-Data-Technologien bieten. IT-Teams sollen dadurch schneller Nutzen aus Big-Data-Projekten mit bestehenden Ressourcen ziehen können.

Spark-Integration erweitert

So hat Pentaho die bestehende Spark-Integration seiner Plattform ausgeweitet. Datenanalysten können nun SQL in Spark nutzen, um via Pentaho Data Integration (PDI) Spark-Daten abzufragen und zu verarbeiten. Die erweiterte PDI-Orchestrierung für Spark Streaming, Spark SQL und maschinelle Spark-Lerntechniken (Spark MLlib und Spark ML) sowie Python-basierte Spark-Applikationen soll zudem Koordination, Terminierung, Wiederverwendung und Verwaltung von Spark-Anwendungen in Daten-Pipelines erleichtern.

Schnellere Metadaten-Einspeisung

Die erweiterten Funktionen für die Metadaten-Einspeisung ermöglichen unter anderem einen schnelleren Onboarding-Prozess von vielen, sich stetig ändernden Datenquellen. Transformationen lassen sich während der Laufzeit dynamisch generieren, was für hohe Kosteneinsparungen sorgt. Pentaho hat die bestehenden Funktionen für die Metadaten-Einspeisung um 30 kompatible PDI-Transformationsschritte erweitert. Dazu zählen Abläufe in Hadoop, Hbase, JSON, XML, Vertics, Greenplum und anderen Big-Data-Quellen.

Weitere Neuerungen

Zudem wurde die Integration von Datensicherheitsanwendungen für Hadoop ausgebaut, um verbesserte Big Data Governance zu ermöglichen. Neu an Bord sind etwa eine erweiterte Kerberos-Integration für sichere Authentifizierung in Multi-User-Umgebung sowie Apache-Sentry-Support, um Regeln für den Zugriff auf bestimmte Hadoop-Datensätze durchzusetzen. Pentaho hat zudem das Senden und Empfangen von Daten aus Kafka ergänzt, um durchgehende Datenverarbeitungsfälle in PDI zu erleichtern. Auch ist jetzt die Dateiausgabe in den Formaten Avro und Parquet möglich.

Artikelfiles und Artikellinks

(ID:44304664)