Von Business Intelligence zu Künstlicher Intelligenz – die Datenwelt hat sich in den vergangenen zehn Jahren rapide verändert. Standen vor einer Dekade noch ETL-Prozesse und traditionelles Data Warehousing im Vordergrund, bewegen heute Themen wie Realtime Streaming und Machine Learning die Unternehmen. Diese Entwicklung spiegelte sich auch in den Fragen und Erfahrungsberichten auf den Pentaho User Meetings wider, die seit zehn Jahren stattfinden.
Rund 80 Anwender nahmen online am zehnten Pentaho User Meeting teil. Acht Erfahrungsberichte von Organisationen wie der Bundesdruckerei, dem Wahnbachtalsperrenverband und der Blechwarenfabrik Limburg sorgten für interessante Einblicke.
(Bild: IT-Novum)
Auf der 10. Ausgabe des Anwendertreffens, das von Anfang an von Pentaho-Partner IT-Novum organisiert wird, zeigte sich: Pentaho ist als Open-Source-Datenplattform diese Entwicklung von Anfang an mitgegangen. Die Open-Source-Datenplattform ist bis heute das Tool der Wahl, um Daten aus allen möglichen Quellen effizient zu sammeln, zu analysieren und in aussagekräftige Einblicke zu verwandeln. Die zehntausenden Anwender weltweit zeigen die Vielseitigkeit der Plattform. Ihre Stärke resultiert aus der den vielen Schnittstellen, mit denen sich alle Usecases abdecken lassen, der offenen Architektur und der starken Community dahinter.
Die starke Community zeigte sich in 80 Anwendern, die online an dem halbtägigen User Meeting teilnahmen, und den acht Erfahrungsberichten von Organisationen wie der Bundesdruckerei, dem Wahnbachtalsperrenverband und der Blechwarenfabrik Limburg.
Pentaho ermöglicht das „daten-fitte“ Unternehmen
Den Auftakt des 10. Pentaho User Meetings bildete der Impulsvortrag von Ajay Vohora, der beim Hersteller Hitachi Vantara den Bereich Software, Data & AI Products leitet. Er wies darauf hin, dass KI wird immer stärker in tägliche Aufgaben integriert wird, damit Mitarbeiter und Kunden bessere Entscheidungen treffen können. Pentaho hat dazu schon vor geraumer Zeit umfänglich KI- und Machine-Learning-Funktionen implementiert und macht damit Unternehmen „daten-fit“.
Das größte Hindernis auf dem Weg zur „daten-fitten“ Organisation sind laut Vohora falsche Architekturentscheidungen. Da KI-Anwendungen täglich wachsen, steigen gleichzeitig die Anforderungen an die Daten: Datenqualität und -verlässlichkeit müssen im gleichen Grade zunehmen. Nach einer Kundenumfrage von Hitachi Vantara stellt das Vertrauen in die eigenen Daten, ihre Herkunft und Qualität derzeit die größte Herausforderung dar. Nötig seien nicht nur ein „single point of access“ zu den Daten, sondern auch eine „single version of truth“. Pentaho schafft das, indem es die Datenproduzenten (datenerzeugende Anwendungen und Datenquellen) mit den Datenkonsumenten (Analyse, Auswertungen, Berichte) über Datenintegration, Datenkataloge und Data Lakehouses verbindet.
Als organisationsweite Plattform für Daten und Anwendungen mit höchsten Sicherheitsanforderungen wird Pentaho bei der Bundesdruckerei eingesetzt. Marco Grätz und Martin Fischer stellten das beeindruckende Projekt vor, mit dessen Umfang sich wohl ein eigenes Anwendertreffen füllen ließe.
Pentaho wurde 2010 für das Controlling der Produktion des elektronischen Personalausweises eingeführt und sukzessive auf die weiteren digitalen Produkte der Behörde ausgerollt. Sollte die Software anfangs vor dem Verlust der mit dem Ausweis in Verbindung stehenden Daten schützen, setzte die Bundesdruckerei damit 2013 das Reportingsystem und Produktions-Dashboards um, mit denen sie anderen Behörden Auskunft zum Status des Ausweisdokuments geben konnte. Heute werden mehrere 100 Reports täglich erstellt, darunter Dokumentenlisten für die Logistik und die Produktionssteuerung. 2016 wurde die Lösung um SAP-Daten erweitert, wofür der SAP Connector zum Einsatz kam.
Mit Pentaho integriert die Behörde Messwerte und Produktionsdaten aus den zahlreichen Fertigungsanlagen über ETL-Prozesse und setzt verschiedene Auswertungen um. Der Einsatz geht dabei über reine BI-Themen hinaus, weil Pentaho als Anwendungsplattform für Leitstände in der Produktion zur Erfassung der Maschinenauslastung zum Einsatz kommt, aber auch für die Umsetzung von Infoportalen, Behördenportalen etc.
Cloud-Migration von Enterprise Asset Management-Daten
Dass sich Pentaho erfolgreich für Datenprozesse in der Cloud einsetzen lässt, zeigten Lukas Alfa und Daniel Jung von Blechwarenfabrik Limburg. Migriert wurden die Informationen aus Ultimo, dem Enterprise Asset Management, mit dem der Verpackungshersteller die Effizienz und den reibungslosen Betrieb seiner Produktionsanlagen sicherstellt. Dank Pentaho konnten alle beteiligten Datenintegrationsprozesse abgedeckt werden, sodass nun Analysen und Reports auf Cloud-Daten ausgeführt werden können.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
Zu Beginn des Projekts führten die beiden Referenten zunächst Interviews mit den betroffenen Fachabteilungen, um ihre Anforderungen festzuhalten und zu priorisieren. Im Anschluss dokumentierten sie die bereits bestehenden Datenintegrationsprozesse und untersuchten, wo zukünftig Änderungen auftreten und die Prozesse umgestellt werden müssen. Zusätzlich identifizierten sie die potenziellen Herausforderungen, die das Projekt gefährden konnten wie die Auswahl einer geeigneten Technologie für heutige und künftige Anforderungen, Änderungen der Datenbank in Bezug auf Aufbau und Namensgebung oder die notwendige Internetverbindung.
Für die Datenübertragung wählten Lukas Alfa und Daniel Jung die RESTful-API, da das Unternehmen damit bereits Erfahrungen gemacht hatte. Da die EAM-Software Ultimo jedoch nur 1.000 Objekte pro Anfrage zurückgibt, mussten sie in Pentaho eine Schleife entwickeln. Auch für das Zusammenführen von EAM-Daten und bereits integrierter ERP-Daten in einer gemeinsamen Dimension war es nötig, eine eigene Logik im Table Input Step zu entwickeln. Die Jobs werden nächtlich ausgeführt und die Daten in das Core Data Warehouse geladen.
Auf die neuen Faktentabellen greifen 500 Mitarbeiter zu und tragen damit weiterhin dem Ansatz Rechnung, Zugriff auf die Daten aller Abteilungen zu haben und im Gegenzug auch allen Abteilungen Zugang auf die Informationen via Dashboards, Reports und Analysen zu geben. Das Fazit der Referenten: Das Pilotprojekt Cloud-Migration konnte mithilfe von Pentaho Data Integration erfolgreich umgesetzt werden, sodass zukünftige Cloud-Datenintegrationen keine Schwierigkeit mehr darstellen dürften.
Effizienzgewinn im Gashandel
Die Rolle des unverzichtbaren und universellen „Taschenmessers“ nimmt Pentaho seit elf Jahren schon beim Gashändler VNG Handel & Vertrieb ein. Jens Junker, der maßgeblich dabei geholfen hat, das Tool einzuführen und weiterzuentwickeln, stellte in seinem Vortrag nicht nur vier Anwendungsfälle in seinem Unternehmen dar, sondern gab dabei auch einen Einblick in die turbulenten vergangenen Jahre auf dem Energiemarkt.
Im ersten Anwendungsfall ging es um Automatisierungen im regulatorischen Reporting. Gashändler müssen bestimmte Transparenzverordnungen einhalten wie EMIR (European Market Infrastructure Regulation) und REMIT (Regulation on Wholesale Energy Market Integrity and Transparency). Dazu sind sogenannte Unique Transaction Identifier (UTI) nötig, mit denen jede Transaktion identifiziert werden kann. Pentaho wird zum einen eingesetzt, um die UTI zu generieren. Dazu lädt Pentaho von einem FTP-Server Reports, extrahiert die Daten, generiert die UTI und schreibt diese in die Datenbank des Zielsystems. Zum anderen fungiert Pentaho als klassisches Schnittstellenwerkzeug und lädt Reports der Börse per FTP, bringt sie in das entsprechende Zielformat und schickt sie per Webservice an ein weiteres System.
Bereits beim sechsten Pentaho User Meeting hatte Junker vorgestellt, wie VNG Handel & Vertrieb Portfoliobewertungen (Valuations) aus dem Energy Trading and Risk Management-System (ETRM) archiviert. Durch die Weiterentwicklung dieses Prozesses konnten die IT-Kosten stark gesenkt werden. Im Jahr 2019 fielen täglich noch 7,6 Millionen Zeilen à 125 Spalten an, heute sind es bereits elf Millionen Zeilen à 150 Spalten. Ein ETL-Prozess extrahiert diese Daten von der ETRM-Datenbank und schreibt sie komprimiert auf ein Netzlaufwerk.
Die Komprimierung erzielt eine Einsparung von ca. 91 Prozent des Speicherplatzes. Gesteuert wird dieser Prozess per Webservice direkt aus dem ETRM-System heraus. Nach Bedarf kann der Anwender die Daten auch wiederherstellen, wofür es einen zweiten Pentaho Job gibt, der die komprimierten Daten einliest und wieder zurück in die ETRM-Datenbank schreibt.
Pentaho wird zu einem nachrichtenbasierten System
Als weiteres Highlight der letzten Jahre stellte Junker die Umsetzung des IT-Novum Frameworks vor, durch die Pentaho zu einem nachrichtenbasierten System wurde. Dazu entwickelte IT-Novum zwei neue Steps, Jobs und Transformationen. Mit dem Framework ist es möglich, Daten im http-message-body an Pentaho zu übermitteln, um sie weiter verarbeiten zu können. Der Aufruf kann synchron oder asynchron erfolgen, eine beliebige Response kann zurückgegeben werden, die das Quellsystem auswerten kann. Für neue ETL-Prozesse müssen Pentaho-Anwender nur eine Logik-Transformation erstellen und diese per Konfiguration in das Framework einbinden, um zum Beispiel webservice-basiert XML-Daten auswerten und verarbeiten zu können.
Als neuesten Anwendungsfall präsentierte Junker eine Umsetzung auf Basis von ETL-Metadata Injection. Viele Pentaho-Anwender würden einen ähnlichen Evolutionsprozess durchlaufen, in dessen ersten Phase Jobs und Transformationen erstellt werden, die über die Zeit anwachsen. Später wird häufig festgestellt, dass sich Transformationen und Jobs ähneln. Mit Metadata Injections und Parametrisierung können generische ETL-Prozesse erstellt werden. Dadurch konnten im Reporting des Unternehmens ca. 30 Transformationen durch nur sechs Transformationen abgebildet werden. Dies brachte nicht nur eine hohe Zeitersparnis, sondern auch ein übersichtlicheres Pentaho Enterprise Repository.
Vom Batch zum Stream
Die grundlegende Veränderung, welche die ETL-Welt durch den Wechsel von batch-orientierten Prozessen zu stream-orientierten Abläufen erlebt, beschrieb Philipp Heck von IT-Novum in seinem Vortrag. Diese Transformation stellt für viele Systeme, auch für Pentaho, eine Herausforderung dar. Open Source-Lösungen bieten jedoch den Vorteil, dass sie sich schnell an neue Technologien anpassen lassen.
Insbesondere ältere Pentaho-Steps stießen in der Vergangenheit an ihre Grenzen, da sie den neuen Anforderungen der sich entwickelnden Landschaft nicht optimal gerecht wurden. Als Antwort darauf wurde von IT-Novum ein neuer und verbesserter Pentaho-Kafka-Step entwickelt, der es ermöglicht, relationale Daten und Streaming-Daten in einem modernen Batch-Verfahren auszulesen. Diese innovative Lösung erlaubt die effiziente Integration beider Datenwelten im Data Warehouse und vereint somit das Beste aus beiden Ansätzen.
Verbindung zur SAP-Welt
Alexander Keidel gab tief greifende Informationen über die Evolution und den aktuellen Stand des SAP Connectors. Entstanden aus Anforderungen aus der Community, hat sich der SAP Connector seit seinem ersten Release signifikant weiterentwickelt. Ursprünglich für zwei Plug-ins konzipiert, unterstützt er nun sieben Plug-ins, die die Funktionalität von Pentaho erweitern. Dies spiegelt sich in einer schnelle und breiten Akzeptanz und der starken Integration innerhalb der Community und bei namhaften Anwendern wider. Ein Beispiel hierfür ist das Unternehmen Bell Canada, das den SAP Connector nutzt, um SAP-Berichte automatisch in das Data Warehouse zu integrieren.
Laut Keidel sieht die Zukunft des SAP Connectors vielversprechend aus, besonders für Anwender der SAP Cloud: neue Funktionen sollen vor allem Abfragen über die SAP ODATA-Schnittstellen erleichtern. Aber auch für On-Premises User sind interessante Neuerungen geplant. Insbesondere die Implementierung von Change-Data-Capture (CDC) und die vereinfachte Rückführung von Daten in SAP-Systeme stehen im Fokus der nächsten Schritte.
Das nächste Pentaho User Meeting findet im Juni 2024 statt. Weitere Informationen finden sich unter Pentaho User Meeting Vol. 11.
* Christopher Keller ist Director Big Data Analytics & IoT bei IT-Novum.