Zehn Jahre Datenmanagement, zehn Jahre Anwenderaustausch Das Pentaho User Meeting feiert 10-jähriges Bestehen

Ein Gastbeitrag von Christopher Keller * 7 min Lesedauer

Anbieter zum Thema

Von Business Intelligence zu Künstlicher Intelligenz – die Datenwelt hat sich in den vergangenen zehn Jahren rapide verändert. Standen vor einer Dekade noch ETL-Prozesse und traditionelles Data Warehousing im Vordergrund, bewegen heute Themen wie Realtime Streaming und Machine Learning die Unternehmen. Diese Entwicklung spiegelte sich auch in den Fragen und Erfahrungsberichten auf den Pentaho User Meetings wider, die seit zehn Jahren stattfinden.

Rund 80 Anwender nahmen online am zehnten Pentaho User Meeting teil. Acht Erfahrungsberichte von Organisationen wie der Bundesdruckerei, dem Wahnbachtalsperrenverband und der Blechwarenfabrik Limburg sorgten für interessante Einblicke.(Bild:  IT-Novum)
Rund 80 Anwender nahmen online am zehnten Pentaho User Meeting teil. Acht Erfahrungsberichte von Organisationen wie der Bundesdruckerei, dem Wahnbachtalsperrenverband und der Blechwarenfabrik Limburg sorgten für interessante Einblicke.
(Bild: IT-Novum)

Auf der 10. Ausgabe des Anwendertreffens, das von Anfang an von Pentaho-Partner IT-Novum organisiert wird, zeigte sich: Pentaho ist als Open-Source-Datenplattform diese Entwicklung von Anfang an mitgegangen. Die Open-Source-Datenplattform ist bis heute das Tool der Wahl, um Daten aus allen möglichen Quellen effizient zu sammeln, zu analysieren und in aussagekräftige Einblicke zu verwandeln. Die zehntausenden Anwender weltweit zeigen die Vielseitigkeit der Plattform. Ihre Stärke resultiert aus der den vielen Schnittstellen, mit denen sich alle Usecases abdecken lassen, der offenen Architektur und der starken Community dahinter.

Die starke Community zeigte sich in 80 Anwendern, die online an dem halbtägigen User Meeting teilnahmen, und den acht Erfahrungsberichten von Organisationen wie der Bundesdruckerei, dem Wahnbachtalsperrenverband und der Blechwarenfabrik Limburg.

Pentaho ermöglicht das „daten-fitte“ Unternehmen

Den Auftakt des 10. Pentaho User Meetings bildete der Impulsvortrag von Ajay Vohora, der beim Hersteller Hitachi Vantara den Bereich Software, Data & AI Products leitet. Er wies darauf hin, dass KI wird immer stärker in tägliche Aufgaben integriert wird, damit Mitarbeiter und Kunden bessere Entscheidungen treffen können. Pentaho hat dazu schon vor geraumer Zeit umfänglich KI- und Machine-Learning-Funktionen implementiert und macht damit Unternehmen „daten-fit“.

Das größte Hindernis auf dem Weg zur „daten-fitten“ Organisation sind laut Vohora falsche Architekturentscheidungen. Da KI-Anwendungen täglich wachsen, steigen gleichzeitig die Anforderungen an die Daten: Datenqualität und -verlässlichkeit müssen im gleichen Grade zunehmen. Nach einer Kundenumfrage von Hitachi Vantara stellt das Vertrauen in die eigenen Daten, ihre Herkunft und Qualität derzeit die größte Herausforderung dar. Nötig seien nicht nur ein „single point of access“ zu den Daten, sondern auch eine „single version of truth“. Pentaho schafft das, indem es die Datenproduzenten (datenerzeugende Anwendungen und Datenquellen) mit den Datenkonsumenten (Analyse, Auswertungen, Berichte) über Datenintegration, Datenkataloge und Data Lakehouses verbindet.

Bundesdruckerei: digitale Souveränität dank Pentaho

Als organisationsweite Plattform für Daten und Anwendungen mit höchsten Sicherheitsanforderungen wird Pentaho bei der Bundesdruckerei eingesetzt. Marco Grätz und Martin Fischer stellten das beeindruckende Projekt vor, mit dessen Umfang sich wohl ein eigenes Anwendertreffen füllen ließe.

Pentaho wurde 2010 für das Controlling der Produktion des elektronischen Personalausweises eingeführt und sukzessive auf die weiteren digitalen Produkte der Behörde ausgerollt. Sollte die Software anfangs vor dem Verlust der mit dem Ausweis in Verbindung stehenden Daten schützen, setzte die Bundesdruckerei damit 2013 das Reportingsystem und Produktions-Dashboards um, mit denen sie anderen Behörden Auskunft zum Status des Ausweisdokuments geben konnte. Heute werden mehrere 100 Reports täglich erstellt, darunter Dokumentenlisten für die Logistik und die Produktionssteuerung. 2016 wurde die Lösung um SAP-Daten erweitert, wofür der SAP Connector zum Einsatz kam.

Mit Pentaho integriert die Behörde Messwerte und Produktionsdaten aus den zahlreichen Fertigungsanlagen über ETL-Prozesse und setzt verschiedene Auswertungen um. Der Einsatz geht dabei über reine BI-Themen hinaus, weil Pentaho als Anwendungsplattform für Leitstände in der Produktion zur Erfassung der Maschinenauslastung zum Einsatz kommt, aber auch für die Umsetzung von Infoportalen, Behördenportalen etc.

Cloud-Migration von Enterprise Asset Management-Daten

Dass sich Pentaho erfolgreich für Datenprozesse in der Cloud einsetzen lässt, zeigten Lukas Alfa und Daniel Jung von Blechwarenfabrik Limburg. Migriert wurden die Informationen aus Ultimo, dem Enterprise Asset Management, mit dem der Verpackungshersteller die Effizienz und den reibungslosen Betrieb seiner Produktionsanlagen sicherstellt. Dank Pentaho konnten alle beteiligten Datenintegrationsprozesse abgedeckt werden, sodass nun Analysen und Reports auf Cloud-Daten ausgeführt werden können.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Zu Beginn des Projekts führten die beiden Referenten zunächst Interviews mit den betroffenen Fachabteilungen, um ihre Anforderungen festzuhalten und zu priorisieren. Im Anschluss dokumentierten sie die bereits bestehenden Datenintegrationsprozesse und untersuchten, wo zukünftig Änderungen auftreten und die Prozesse umgestellt werden müssen. Zusätzlich identifizierten sie die potenziellen Herausforderungen, die das Projekt gefährden konnten wie die Auswahl einer geeigneten Technologie für heutige und künftige Anforderungen, Änderungen der Datenbank in Bezug auf Aufbau und Namensgebung oder die notwendige Internetverbindung.

Für die Datenübertragung wählten Lukas Alfa und Daniel Jung die RESTful-API, da das Unternehmen damit bereits Erfahrungen gemacht hatte. Da die EAM-Software Ultimo jedoch nur 1.000 Objekte pro Anfrage zurückgibt, mussten sie in Pentaho eine Schleife entwickeln. Auch für das Zusammenführen von EAM-Daten und bereits integrierter ERP-Daten in einer gemeinsamen Dimension war es nötig, eine eigene Logik im Table Input Step zu entwickeln. Die Jobs werden nächtlich ausgeführt und die Daten in das Core Data Warehouse geladen.

Auf die neuen Faktentabellen greifen 500 Mitarbeiter zu und tragen damit weiterhin dem Ansatz Rechnung, Zugriff auf die Daten aller Abteilungen zu haben und im Gegenzug auch allen Abteilungen Zugang auf die Informationen via Dashboards, Reports und Analysen zu geben. Das Fazit der Referenten: Das Pilotprojekt Cloud-Migration konnte mithilfe von Pentaho Data Integration erfolgreich umgesetzt werden, sodass zukünftige Cloud-Datenintegrationen keine Schwierigkeit mehr darstellen dürften.

Effizienzgewinn im Gashandel

Die Rolle des unverzichtbaren und universellen „Taschenmessers“ nimmt Pentaho seit elf Jahren schon beim Gashändler VNG Handel & Vertrieb ein. Jens Junker, der maßgeblich dabei geholfen hat, das Tool einzuführen und weiterzuentwickeln, stellte in seinem Vortrag nicht nur vier Anwendungsfälle in seinem Unternehmen dar, sondern gab dabei auch einen Einblick in die turbulenten vergangenen Jahre auf dem Energiemarkt.

Im ersten Anwendungsfall ging es um Automatisierungen im regulatorischen Reporting. Gashändler müssen bestimmte Transparenzverordnungen einhalten wie EMIR (European Market Infrastructure Regulation) und REMIT (Regulation on Wholesale Energy Market Integrity and Transparency). Dazu sind sogenannte Unique Transaction Identifier (UTI) nötig, mit denen jede Transaktion identifiziert werden kann. Pentaho wird zum einen eingesetzt, um die UTI zu generieren. Dazu lädt Pentaho von einem FTP-Server Reports, extrahiert die Daten, generiert die UTI und schreibt diese in die Datenbank des Zielsystems. Zum anderen fungiert Pentaho als klassisches Schnittstellenwerkzeug und lädt Reports der Börse per FTP, bringt sie in das entsprechende Zielformat und schickt sie per Webservice an ein weiteres System.

Bereits beim sechsten Pentaho User Meeting hatte Junker vorgestellt, wie VNG Handel & Vertrieb Portfoliobewertungen (Valuations) aus dem Energy Trading and Risk Management-System (ETRM) archiviert. Durch die Weiterentwicklung dieses Prozesses konnten die IT-Kosten stark gesenkt werden. Im Jahr 2019 fielen täglich noch 7,6 Millionen Zeilen à 125 Spalten an, heute sind es bereits elf Millionen Zeilen à 150 Spalten. Ein ETL-Prozess extrahiert diese Daten von der ETRM-Datenbank und schreibt sie komprimiert auf ein Netzlaufwerk.

Die Komprimierung erzielt eine Einsparung von ca. 91 Prozent des Speicherplatzes. Gesteuert wird dieser Prozess per Webservice direkt aus dem ETRM-System heraus. Nach Bedarf kann der Anwender die Daten auch wiederherstellen, wofür es einen zweiten Pentaho Job gibt, der die komprimierten Daten einliest und wieder zurück in die ETRM-Datenbank schreibt.

Pentaho wird zu einem nachrichtenbasierten System

Als weiteres Highlight der letzten Jahre stellte Junker die Umsetzung des IT-Novum Frameworks vor, durch die Pentaho zu einem nachrichtenbasierten System wurde. Dazu entwickelte IT-Novum zwei neue Steps, Jobs und Transformationen. Mit dem Framework ist es möglich, Daten im http-message-body an Pentaho zu übermitteln, um sie weiter verarbeiten zu können. Der Aufruf kann synchron oder asynchron erfolgen, eine beliebige Response kann zurückgegeben werden, die das Quellsystem auswerten kann. Für neue ETL-Prozesse müssen Pentaho-Anwender nur eine Logik-Transformation erstellen und diese per Konfiguration in das Framework einbinden, um zum Beispiel webservice-basiert XML-Daten auswerten und verarbeiten zu können.

Als neuesten Anwendungsfall präsentierte Junker eine Umsetzung auf Basis von ETL-Metadata Injection. Viele Pentaho-Anwender würden einen ähnlichen Evolutionsprozess durchlaufen, in dessen ersten Phase Jobs und Transformationen erstellt werden, die über die Zeit anwachsen. Später wird häufig festgestellt, dass sich Transformationen und Jobs ähneln. Mit Metadata Injections und Parametrisierung können generische ETL-Prozesse erstellt werden. Dadurch konnten im Reporting des Unternehmens ca. 30 Transformationen durch nur sechs Transformationen abgebildet werden. Dies brachte nicht nur eine hohe Zeitersparnis, sondern auch ein übersichtlicheres Pentaho Enterprise Repository.

Vom Batch zum Stream

Die grundlegende Veränderung, welche die ETL-Welt durch den Wechsel von batch-orientierten Prozessen zu stream-orientierten Abläufen erlebt, beschrieb Philipp Heck von IT-Novum in seinem Vortrag. Diese Transformation stellt für viele Systeme, auch für Pentaho, eine Herausforderung dar. Open Source-Lösungen bieten jedoch den Vorteil, dass sie sich schnell an neue Technologien anpassen lassen.

Insbesondere ältere Pentaho-Steps stießen in der Vergangenheit an ihre Grenzen, da sie den neuen Anforderungen der sich entwickelnden Landschaft nicht optimal gerecht wurden. Als Antwort darauf wurde von IT-Novum ein neuer und verbesserter Pentaho-Kafka-Step entwickelt, der es ermöglicht, relationale Daten und Streaming-Daten in einem modernen Batch-Verfahren auszulesen. Diese innovative Lösung erlaubt die effiziente Integration beider Datenwelten im Data Warehouse und vereint somit das Beste aus beiden Ansätzen.

Verbindung zur SAP-Welt

Alexander Keidel gab tief greifende Informationen über die Evolution und den aktuellen Stand des SAP Connectors. Entstanden aus Anforderungen aus der Community, hat sich der SAP Connector seit seinem ersten Release signifikant weiterentwickelt. Ursprünglich für zwei Plug-ins konzipiert, unterstützt er nun sieben Plug-ins, die die Funktionalität von Pentaho erweitern. Dies spiegelt sich in einer schnelle und breiten Akzeptanz und der starken Integration innerhalb der Community und bei namhaften Anwendern wider. Ein Beispiel hierfür ist das Unternehmen Bell Canada, das den SAP Connector nutzt, um SAP-Berichte automatisch in das Data Warehouse zu integrieren.

Laut Keidel sieht die Zukunft des SAP Connectors vielversprechend aus, besonders für Anwender der SAP Cloud: neue Funktionen sollen vor allem Abfragen über die SAP ODATA-Schnittstellen erleichtern. Aber auch für On-Premises User sind interessante Neuerungen geplant. Insbesondere die Implementierung von Change-Data-Capture (CDC) und die vereinfachte Rückführung von Daten in SAP-Systeme stehen im Fokus der nächsten Schritte.

Das nächste Pentaho User Meeting findet im Juni 2024 statt. Weitere Informationen finden sich unter Pentaho User Meeting Vol. 11.

* Christopher Keller ist Director Big Data Analytics & IoT bei IT-Novum.

(ID:49806050)