Nachbericht Pentaho Community Meeting 2018

Bologna im Zeichen von IoT Analytics und Smart Citys

| Autor / Redakteur: Stefan Müller / Nico Litzel

Das elfte Pentaho Community Meeting fand dieses Jahr im schönen Bologna statt.
Das elfte Pentaho Community Meeting fand dieses Jahr im schönen Bologna statt. (Bild: IT-Novum)

Auf dem Pentaho Community Meeting in Bologna, das zum elften Mal stattfand, tauschten sich über 220 User aus 25 Ländern zu IoT, Analytics, Machine Learning und Datenintegration aus, 27 Referenten stellten spannende Entwicklungen und Projekte vor. Organisiert wurde das Community-Meeting von Hitachi Vantara sowie dem deutschen Hitachi-Vantara-Partner IT-Novum.

Nach dem Kauf von Pentaho vor zwei Jahren setzt Hitachi Vantara vor allem auf den Ausbau der Big-Data-Analytics- und IoT-Funktionalitäten der Plattform. Mit Pentaho möchte Hitachi in der Datenreise die bestehenden Lücken zwischen der Integration der Informationen und Verarbeitung bis zur Erkenntnisgewinnung schließen. Von den jährlich 2,8 Milliarden US-Dollar an Forschungsinvestitionen gehen fast die Hälfte in den IoT- und Big-Data-Bereich, 2.500 bewilligte Patente hält Hitachi in diesem Sektor. Thomson Reuter zählt das Unternehmen zu den Top 100 Global Innovators.

Pedro Alves
Pedro Alves (Bild: IT-Novum)

Die von Entwicklern und Anwendern mit Spannung erwarteten Aussagen zur Strategie mit und Ausrichtung von Pentaho kamen von Pedro Alves, der von seiner früheren Rolle als Pentaho Community Manager bei Hitachi Vantara zum Leiter Produktdesign aufgestiegen und damit immer noch verantwortlich für Pentaho ist. Als wichtigste Ziele für die Weiterentwicklung von Pentaho nannte Alves die Integration ins Hitachi-Ökosystem und die bessere Anbindung von Daten in der Cloud sowie optimierte Auswertungen und Visualisierungen.

CERN: Herausforderungen einer großen Organisation

Gabriele Thiede und Jan Janke vom CERN
Gabriele Thiede und Jan Janke vom CERN (Bild: IT-Novum)

Die zweite Keynote gehörte Gabriele Thiede und Jan Janke vom CERN, einem der größten Anwender von Pentaho. Mit 23.000 Mitarbeitern ist das CERN nicht nur eine riesige Forschungsorganisation, sondern auch eine eigene Welt für sich: es betreibt nicht nur Banken, Postfilialen und Feuerwehrwachen, sondern besitzt auch ein eigenes Sozialversicherungs- und Rentensystem und Servicestellen für die Beantragung von Arbeits- und Aufenthaltsgenehmigungen, Kfz-Zulassungen etc. der Mitarbeiter.

Mit Pentaho verarbeitet das CERN die hier anfallenden Daten(prozesse). Informationen aus Personal-, Finanz-, Logistik-, ERP- und weiteren Systemen werden in einem Data Warehouse gespeichert und in Fast-Echtzeit mit einer Verzögerung von zwei bis 15 Minuten gehalten. Für die vielen ETL-Prozesse setzt das CERN ausschließlich Pentaho Data Integration ein, für Auswertungen und Visualisierungen kommen Pentaho Business Analytics und CTools zum Einsatz.

Self-Service-Analysen und Reports

Direkt mit Pentaho arbeiten einige hundert Fachanwender beim CERN. Die mit Pentaho erstellten Auswertungen, Formulare und offizielle Dokumente stehen jedoch der gesamten Organisation zur Verfügung. Das sind z. B. Berichte, Zertifikate und Bescheinigungen wie die jährliche Personalstatistik für die Mitgliederstaaten oder die zahlreichen Formulare für die Zollbestimmungen. Für Self-Service-Auswertungen für alle Mitarbeiter steht ein eigenes Portal bereit. Auch im Einkauf nutzt das CERN Pentaho, um in einem Live-Dashboard die Ausgaben für Material und Services pro Lieferantenland zu überwachen.

Zeitreisen mit PDI

In einer so großen und komplexen Organisation wie dem CERN steht die Verarbeitung und Auswertung von Daten ständig vor neuen Herausforderungen. Beispielsweise bildet die Datenbasis nicht immer die Realität ab, da es zu rückwärtigen Datenveränderungen kommen kann. Um dennoch reproduzierbare Statistiken und Berichte erstellen zu können, reist das CERN regelmäßig zurück in die Zeit: Ein bitemporales Datenmodell im Data Warehouse bildet eine zweite Zeitdimension und damit zwei Wirklichkeiten ab, eine geschäftliche und eine technische. Auf diese Weise ist es möglich, den Stand der Daten zu einem beliebigen Zeitpunkt nachzuvollziehen.

Weitere Herausforderungen betreffen die Einbindung von Daten aus der Cloud und die Einführung von Predictive Analytics. Das CERN plant zudem, Machine-Learning-Algorithmen einzusetzen, die auf Modellen mit historischen Daten basieren.

Das größte Kontrollzentrum Asiens basiert auf Pentaho

Der indische Bundesstaat Andhra Pradesh hat einen „Echtzeitkontrollraum“ zur besseren Versorgung seiner 50 Millionen Einwohner eingeführt.
Der indische Bundesstaat Andhra Pradesh hat einen „Echtzeitkontrollraum“ zur besseren Versorgung seiner 50 Millionen Einwohner eingeführt. (Bild: IT-Novum)

In einer ähnlichen Größenordnung wie das CERN befindet sich das Realtime-Governance-Projekt, das Gianluca Andreis vorstellte, Engineering Head Coach im Bereich Smart Spaces and Video Intelligence von Hitachi. Der indische Bundesstaat Andhra Pradesh hat einen „Echtzeitkontrollraum“ zur besseren Versorgung seiner 50 Millionen Einwohner eingeführt. Im riesigen Real-Time Governance Center (RTG) wertet die Regierung große Datenmengen aus, um die öffentliche Infrastruktur, Sozialprogramme, Verkehr, Wetter, Bodenbeschaffenheit etc. zu überwachen, bei Problemen rechtzeitig Maßnahmen treffen und natürliche Ressourcen besser nutzen zu können.

Das RTG ist die Reaktion auf die rasant zugenommene Landflucht und Bevölkerungsverschiebung von anderen Teilen Indiens nach Andhra Pradesh. Mit einer Fläche kleiner als Italien steht der Bundesstaat unter starkem Handlungsdruck, weiterhin die Versorgung der Bevölkerung und die öffentliche Sicherheit gewährleisten zu können. Das System führt Daten zusammen, die Sensoren und Kameras (teils in Drohnen zur Monsunüberwachung) sammeln und die in Pentaho integriert und aufbereitet werden. Die Visualisierung in Ad-hoc-Dashboards erfolgt über die Hitachi Visualization Suite. Beim RTG handelt es sich um das größte Datenkontrollzentrum in Asien.

Kostenoptimierungen im Gesundheitsbereich

Pentaho als effizienter Wegweiser im (Daten)dschungel des stark regulierten Gesundheitssektors Italiens war Inhalt des Vortrags von Giorgio Grillini und Virgilio Pierini. Die beiden Softwarearchitekten erstellten für ein Budget von nur 40.000 Euro eine Data-Warehouse- und Reportinglösung für die Akteure im italienischen Gesundheitssystem, die einen zentralen Zugriff auf medizinische Daten und Auswertungen aus 30 Datensystemen bietet.

Gesundheitsämter, Krankenhäuser und Arztpraxen können über ein Analyse-Frontend eigenständig und datenbasiert therapeutische Entscheidungen treffen. Betroffen sind nicht nur Abwägungen zwischen wirksamen und weniger wirksamen Medikamenten, sondern auch ob sich mit günstigen Generika der gleiche Therapieeffekt einstellt wie mit teuren Markenprodukten. So ist es z. B. möglich, den genauen Wirkungsgrad einer Arznei innerhalb einer bestimmten Altersgruppe mit festgelegten Eigenschaften herauszufinden, z. B. hoher Cholesterinspiegel, Übergewicht oder Geschlecht.

Die Herausforderungen des Projekts lagen vor allem in den gesetzlichen Rahmenbedingungen, die der Umgang mit medizinischen Daten unterliegt. Aufgrund verschiedener regionaler, nationaler und europäischer Vorgaben (DSGVO) lagen die Daten in unterschiedlichen Formaten und Nutzungsbestimmungen vor und mussten auf ein einheitliches, rechtskonformes Format gebracht werden. Um zudem Datenauswertungen in der Cloud ermöglichen zu können, anonymisiert ein eigens entwickeltes Codierprogramm auf einer Anonymisierungsinstanz die Daten.

Ein weiterer Usecase aus dem Gesundheitsbereich zeigte, wie ETL den Wert eines Softwareprodukts enorm steigern kann. Dental Trey, ein italienisches Unternehmen mit einem Umsatz von 40 Millionen Euro im Bereich Zahnprodukte, hat seine Software um Pentaho-basierte ETL-Strecken erweitert, die Daten aus verschiedenen Wettbewerberlösungen integrieren. Die Anwender der Software profitieren dadurch von einer stark erweiterten Datenbasis für ihre Auswertungen, z. B. zum Einsatz und Nutzen von Medikamenten.

Eine Zusammenfassung aller Vorträge findet sich im Live-Blog vom Event.

Weitere Entwicklungen und Vorträge umfassten unter anderem:

  • Integration und Auswertung von Daten aus IT-Service-Management-Systemen für Multiprovider-Anbieter: Über die offenen Schnittstellen von Pentaho können Informationen aus verschiedensten Helpdesk-, IT-Monitoring- oder IT-Dokumentationssystemen in ein Data Warehouse geladen und dort mit anderen Daten integriert werden. Die Plattform openLighthouse erlaubt einen ganzheitlichen Blick auf alle IT-Services, auch auf die in der Cloud.
  • Auswertung von Daten aus SAP-Systemen: Mit Pentaho lassen sich Informationen aus SAP (ERP, BW, HANA) integrieren und mit anderen Daten, z. B. aus der SAP Cloud Platform oder Drittsystemen integrieren. Der SAP/Pentaho Connector unterstützt derzeit die SAP Steps SAP ERP Table Input, SAP BW/ERP RFC Executor und SAP BW DSO Input, weitere Steps sind in Vorbereitung.
  • Big Data OLAP mit Pentaho, Kylin und Hadoop: Der Aufbau von Big-Data-Landschaften gehört zu den komplexesten IT-Projekten. Ein Modell für eine vollständig aus offenen Technologien bestehende Big-Data-Landschaft stellte das spanische Softwarehaus strateBI vor. Mit Pentaho, Apache Kylin, PostgreSQL und einem Hadoop-Cluster können skalierbare und hochperformante Systeme für große Datenmengen erstellt werden. Eine Online-Demo und Benchmark zur Abfragenperformanz ist hier abrufbar.
  • Realtime Streaming mit Raspberry PI und PDI: Aus dem Musikbereich stammte der Usecase zum Echtzeit-Streamen von Daten bei Millionen gleichzeitiger Anwender. Mit einer einfachen und zudem kostengünstigen Kombination aus Pentaho Data Integration und der verteilten Streaming-Plattform Apache Kafka (genutzt u. a. von Twitter, Netflix und Airbnb) auf einem Raspberry PI ist es möglich, ein Realtime Streaming mit hoher Leistung und Skalierung bei geringem Budget umzusetzen.
  • Self-Service BI für Fachanwender: Die Bedürfnisse von Fachabteilungen und technischen Usern lassen sich selten miteinander in Einklang bringen. Das von Nuno Pereira, Hitachi Vantara, präsentierte Self-Service Dashboard schafft es, die Anforderungen beider Gruppen abzudecken. Entwickelt für einen Kunden aus dem Telematikbereich zur Auswertung von Verkehrsdaten, deckt das Dashboard durch den Einsatz von Analyse-Widgets die Wünsche aller Nutzergruppen im Unternehmen ab: Entwickler können eigene Widgets selbst erstellen, anpassen und eine Widget-Bücherei anlegen, während Fachanwender in Eigenregie Dashboards und Auswertungen erstellen und beliebig anpassen können. Realisiert wurde die Plattform mit den offenen Visualisierungswerkzeugen CTools.

Der Autor: Stefan Müller ist Director Big Data Analytics bei IT-Novum
Der Autor: Stefan Müller ist Director Big Data Analytics bei IT-Novum (Bild: IT-Novum)

  • Video Analytics: Videos werden immer stärker zur Verbesserung der öffentlichen Sicherheit und Infrastruktur herangezogen. Videodaten allein sind aber nutzlos, sie müssen mit weiteren Informationen zusammengebracht und ausgewertet werden. Der Pentaho/HVA Connector integriert Informationen aus Bewegtbildern mit Daten aus anderen Systemen und eröffnet dadurch z. B. Städten ganz neue Möglichkeiten, Verkehrsflüsse zu gestalten und zu optimieren.
  • Nützliche Plug-ins für Kettle Plug-ins: Matt Casters, Entwickler des am häufigsten eingesetzten Open Source ETL Tools Kettle (heute Pentaho Data Integration) stellte Plug-ins vor, die bei der Erstellung und Verwaltung von ETL-Prozessen nützlich sein können. Eine vollständige Liste findet sich auf dieser Seite

Kommentare werden geladen....

Kommentar zu diesem Artikel abgeben

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 45645546 / Best Practices)