Nachbericht Pentaho User Meeting 2020 Voller Erfolg für virtuelles Anwendertreffen
Anbieter zum Thema
Dass Datenintegration ein Schlüsselthema für Unternehmen ist, hat sich nicht erst während der Corona-Krise gezeigt. Aber vielen Organisationen dürften erst der Lockdown die Vorteile von Datenmanagement vor Augen geführt haben, als hunderttausende von MitarbeiterInnen plötzlich von zu Hause aus arbeiteten.

Die Chancen, die Plattformen für die Zusammenführung, Aufbereitung und Auswertung von Daten für Organisationen bergen, standen deshalb auch im Fokus des 7. Pentaho User Meetings. Obwohl (oder vielleicht genau deswegen) das Anwendertreffen zum ersten Mal virtuell stattfand, nahmen knapp 120 Pentaho-Anwender an dem zentralen Wissens- und Erfahrungsaustauschevent teil.
Pentaho und Lumada
Zum Auftakt des Treffens stellte Jens Bleuel von Hitachi Vantara Neuerungen in Pentaho, die Einbettung in die Lumada-Plattform und die Roadmap für die verschiedenen Module vor.
Seit dem Kauf von Pentaho vor drei Jahren hat Hitachi Vantara den Fokus und die Zusammensetzung des Stacks ständig weiterentwickelt. Der Fokus von Lumada liegt auf der Abdeckung des gesamten Datenlebenszyklus, von der Einbindung verschiedener Datenquellen bis zur Auswertung von Video- und IoT-Daten unter Beachtung von DSGVO-Regelungen und ihrer Bereitstellung in Self-Service-Applikationen.
Pentaho bleibt Open Source
Die mit Spannung erwartete Aussage zur Zukunft von Pentaho in Lumada nahm Jens Bleuel gleich vorweg: Pentaho ist und bleibt ein kritischer und essenzieller Teil der Plattform. Die Funktionalitäten von Pentaho werden momentan umgebaut und modernisiert, um sie an die Anforderungen der Cloud anzupassen und noch mehr Self-Service-Zugänge zu den Daten anzubieten – das alles webbasiert und ohne Client-Installationen.
Die Pläne für das Business Analytics-Modul von Pentaho umfassen vor allem die Erfüllung der täglichen Anforderungen von Data Engineers und Data Scientists im KI- und ML-Bereich. Ziel ist es, alle Datenanwender zu unterstützen, vom Data Engineer über Data Stewards bis zu den Analysten, Data Scientists und Fachanwendern. Während Pentaho selbst schon immer diesen breiten Anwenderfokus gehabt hatte, gelingt Hitachi Vantara durch die Integration in Lumada erstmals auch die Abdeckung von Edge-to-Cloud bis Multi-Cloud-Szenarien. Lumada dient dabei der zentralen Steuerung der Prozesse.
Die Roadmap für Pentaho Analytics umfasst insbesondere:
- moderneres Dashboarding
- aktuelle und erweiterbare Library für Visualisierungen
- Rich Applications
- ML-Entwicklung und Deployment
Roadmap für Pentaho Data Integration
Für die am weitesten verbreitete Pentaho-Komponente, Pentaho Data Integration, umfasst die Roadmap ein zentrales Scheduling, die Ausführung und das Monitoring von Datenströmen, Kubernetes- und Container-basierte Ausführung, Zugangskontrollen für Datenströme, GIT-basiertes Repository für Datenströme und einen webbasierten Datenfluss-Designer.
Ablösung von Inubit durch Pentaho
Das große Potenzial, das in Pentaho Data Integration (PDI) steckt, brachte der erste Anwendervortrag zum Vorschein: Jens Junker vom Gashändler VNG Handel & Vertrieb berichtete über die Ablösung des Prozesstools Inubit durch PDI. Das Unternehmen hat PDI seit 2012 im Einsatz und damit verschiedene Softwarelösungen abgelöst, u. a. PowerMart und OWB. Seitdem laufen über PDI z. B. fast alle Datenprozesse, die für die Erfüllung der Compliance-Anforderungen im Energiehandel notwendig sind.
VNG führte Inubit 2014 für das Business Prozess Management und die Prozessmodellierung ein. Das System basiert darauf, dass XML-Nachrichten eingehen, transformiert und weitergereicht werden, es handelt sich also um ein nachrichtenbasiertes System. Das unübersichtliche XML-Format ist laut Jens Junker ein entscheidender Nachteil von Inubit. Pentaho Data Integration verfügt dagegen über ein visuelles Frontend, das auch für Nicht-IT-Experten verständlich und schnell erlernbar ist.
Durch die Inubit-Ablösung sollten Wartungs- und Supportkosten verringert und der Betriebsaufwand verbessert werden. Durch die sieben Quell- und neun Zielsysteme sowie zwölf zu migrierende Prozesse war das Projekt sehr komplex. Zu den Businessprozessen gehörten unter anderem Settlements, das regulatorische Reporting, Lastgang, Prognosen sowie die Steuerung von externen Prozessen. Dank eines Frameworks, das von Pentaho-Partner IT-Novum entwickelt wurde, konnten Prozesse einfach in PDI abgebildet werden.
Herausforderungen
Während des Projekts sah sich das VNG-Team mit einigen Herausforderungen konfrontiert. Neben der aus dem Lockdown folgenden Home-Office-Pflicht wurden nach dem Absturz des Ölpreises Mitarbeiter in andere interne Projekte abgezogen. Am meisten Kopfzerbrechen bereiteten jedoch die Laufzeiten von Pentaho. Da in einige Prozesse Endanwender involviert waren, galten für die Laufzeiten auf einmal andere Anforderungen. Nach der Migration auf eine neuere Pentaho-Version konnte die Laufzeit von 25 auf 6 Sekunden gesenkt werden (in Version 8.3.0.1 war im „Replace in string“ der Step „Yes/No“ für „use RegEx“ vertauscht).
Wie Jens Junker berichtete, soll nach der Übertragung aller Funktionen von Inubit in Pentaho die Infrastruktur dahingehend überprüft werden, ob Pentaho mit der Kombination PostgreSQL – Linux besser zusammenarbeitet als mit dem bislang eingesetzten Duo Oracle – Windows. Geplant ist, die Migration bis Ende des Jahres abzuschließen, die Pentaho-Infrastruktur umzubauen und Pentaho auf Version 9.X zu aktualisieren.
Auf die Frage eines Teilnehmers hin nach Performance-Unterschieden zwischen Inubit und Pentaho stellte Jens Junker klar, dass Pentaho mit den XML-Dateien von Inubit sehr gut umgehen kann und einen klaren Zeitvorteil bei der Übertragung von großen Datenmengen bringt. Während diese vor der Umstellung mehrere Stunden brauchten, schlagen sie bei Pentaho mit nur 20 Minuten zu Buche.
Die neue SAP-Welt
Um eine etablierte Software ging es auch im nächsten Vortrag von Stefan Müller, IT-Novum, wobei hier nicht ihre Ablösung, sondern ihre Verbesserung durch smarte Ergänzung im Mittelpunkt stand. Die Welt der SAP-Anwender gestaltete sich früher einfach: SAP BW und SAP ERP waren im Einsatz, liefen stabil und es gab mehr oder weniger flexible Integrationen. Seitdem sind jedoch viele neue Datenquellen dazugekommen, die meisten davon stammen aus der Welt außerhalb von SAP. Zudem müssen viel mehr Geschäftskennzahlen als noch vor zehn Jahren ausgewertet werden, wofür Informationen aus anderen Systemen nötig sind, die teils auch in der Cloud liegen.
Stefan Müller machte klar, dass die Cloud einen entscheidenden Vorteil besitzt: Liegen nämlich Daten in der Cloud, lassen sie sich nicht nur einfach anderen Anwendergruppen wie Business Analysten, Lieferanten oder Kunden zur Verfügung stellen. Sie können auch mit Daten aus weiteren Quellsystemen verschnitten werden, um ganz neue Analysen zu ermöglichen. Durch Pentaho Data Integration lässt sich ein gesamtes Data Warehouse in die Cloud von Snowflake migrieren, einem der momentan am stärksten wachsenden Cloud-Anbieter.
Die Snowflake-Cloud ist dabei besonders interessant für Analytics-affine Unternehmen, da ihre Architektur speziell für die Integration und Auswertung von Daten entwickelt wurde. Die Plattform ist neutral gegenüber der Cloud-Infrastruktur und auf AWS und Azure verfügbar. Hostet ein Anwender dort bereits Daten, können diese ohne viel Aufwand in Snowflake geladen werden. Aber auch von On-Premises oder bei komplexeren Datenstrukturen ist das Datenladen sehr effizient, denn beinahe alle klassischen und jüngeren ETL-/ELT-Werkzeuge besitzen einen Konnektor zu Snowflake.
Wie sich SAP-Daten mitsamt der Datenbankstruktur in Snowflake migrieren und danach kontinuierlich beladen lassen, zeigt dieses Video. Für die Ladeprozesse kommt PDI zum Einsatz.
Vom Datensumpf zum Datensee
Um die neueste Produktakquisition von Hitachi Vantara drehte sich der Beitrag zur Datenkatalogsoftware. Der auf der Waterline-Lösung basierende Data Catalog wurde wie Pentaho in die Lumada-Plattform integriert und bietet einen innovativen Ansatz für das Datenmanagement.
Laut Forrester verbringen Analysten 60 Prozent ihrer Zeit mit der Suche nach Daten. Während das Thema Data Onboarding mittlerweile auf dem Markt angekommen ist, wächst die Datenflut immer stärker. Das erschwert die eigentliche Datennutzung enorm und der Druck auf IT-Abteilungen nimmt zu, Daten aufzubereiten und zur Verfügung zu stellen. Ziel der IT muss es daher sein, Analysten in die Lage zu versetzen, selbst nach Daten zu suchen und Analysen durchzuführen.
Datenkataloge helfen dabei, die mühsam aufgebauten Data Lakes entspannt abzufischen. Der Begriff „Data Lake“ hat sich in den letzten Jahren gewandelt und meint inzwischen das Data Warehouse zusammen mit Hadoop, Clouds und weiteren Data Warehouses im Unternehmen. Das Wissen, das in diesen ganzen Daten liegt, muss zusammengeführt werden, um Wissen daraus schöpfen zu können.
Unternehmen sehen sich dabei mit diesen Herausforderungen konfrontiert:
- Wissen, welche Daten vorhanden sind
- Die richtigen Daten schnell finden
- Compliance und Governance-Auflagen erfüllen
- Redundanzen eliminieren
- Prozesse optimieren
Die Lösung ist, alle Daten zu taggen und ihnen dadurch einen Business-Kontext zu geben. Doch stoßen Data Stewards hier schnell an ihre Grenzen. Mag es bei einigen Tabellen noch realistisch sein, Daten manuell zu beschriften, muss der Tagging-Prozess bei mehreren hundert Datenquellen automatisiert werden.
Die Data Catalog-Lösung von Hitachi Vantara basiert auf KI- und ML-Technologien und ermöglicht die Automatisierung der manuellen Kategorisierung. Das garantiert Organisationen eine sehr gute Katalogqualität, sorgt für eine hohe Anwenderzufriedenheit und macht Kapazitäten für wichtigere Tätigkeiten frei. Durch ML-Technologien lernt die Software bei jeder Nutzung dazu und wird dadurch immer besser.
Geodaten DSGVO-konform auswerten
Wie man Datenschutzrichtlinien bei der Auswertung personengebundener Daten einhält, behandelte der nächste Vortrag. Lars Behrens vom Geoinformationsanbieter ESRI und Alex Keidel von IT-Novum erklärten anhand einer Live-Demo die Bedeutung der Pseudonymisierung von Bewegungsprofilen und Datenanreicherung.
Geodaten werden für digitale Anwendungen immer beliebter, da sie zahlreiche Vorteile haben: Die in mobilen Endgeräten anfallenden Bewegungsdaten des Geräteinhabers lassen sich auf eine (Land)Karte bringen und können dadurch in Echtzeit aktuelle Positionen von Personen, Fahrzeugen oder anderen beweglichen Objekten darstellen.
Zudem kann man Positionsdaten mit weiteren Informationen anreichern, die bereits in einem Datensystem, z. B. Pentaho Data Warehouse, liegen. Damit kann man weitere Erkenntnisse für Entscheidungsprozesse bereitstellen.
Wie die beiden Referenten betonten, müssen für eine derartige Datennutzung jedoch die geltenden Datenschutzanforderungen erfüllt werden. Die Daten müssen deshalb pseudonymisiert werden.
Durch die dynamische Pseudonymisierung von Daten werden die Nutzdaten von den Daten getrennt, die eine natürliche Person direkt oder indirekt identifizieren können. Dabei können weitere Attribute hinzugefügt werden, um später in berechtigten Fällen (z. B. Strafverfolgung) die Person wieder identifizieren zu können. Der Schlüssel, der die Rückverbindung der Nutzdaten mit den personenbezogenen Daten ermöglicht, ist nur einer genau definierten Personengruppe zugänglich.
Derartig pseudonymisierte Geodaten lassen sich überall dort einsetzen, wo die aktuelle Position einen Mehrwert in konkreten Arbeitsprozessen bietet. Dazu gehören die Einsatzplanung bei der Polizei genauso wie die Nachverfolgung von Fahrzeugflotten im Außendienst oder Wartungsarbeiten an Infrastruktureinrichtungen.
Der Einsatz von Pseudonymisierung hilft also, gesetzeskonform Mehrwert aus personenbezogenen Daten zu gewinnen, so auch aus den für verschiedenste Anwendungen immer attraktiver werdenden Geodaten und Bewegungsprofilen.
Trotz oder vielleicht wegen des Online-Formats war die erste virtuelle Version des Pentaho User Meetings ein voller Erfolg. Eine Neuauflage im nächsten Jahr ist bereits in Planung, bei entsprechenden Umständen auch als Kombination von Präsenz- und Online-Event.
* Stefan Müller ist Director Big Data Analytics bei IT-Novum
(ID:46922228)