One Data Cartography Datenmanagement mit KI-Nutzung

Von Michael Matzer Lesedauer: 5 min |

Anbieter zum Thema

One Data Cartography (ODC) des deutschen Unternehmens One Data (vormals One Logic) nutzt das Konzept des Data Mesh, um grafisches Datenmanagement und Analytik zu erleichtern. Mit einem Graph-ähnlichen Konzept fördert es Data Preparation, Datenqualität und Data Discovery, doch KI-Nutzung erlaubt weiterführende Services.

One Data Cartography als Data-Product-Marktplatz
One Data Cartography als Data-Product-Marktplatz
(Bild: One Data)

„Die Konzepte von Data Lake und Data Warehouse sind zwar gute Grundlagen für Analytik, doch ihr Aufbau ist zu starr, deshalb brauchen moderne, agile Unternehmen den Einsatz eines Data Meshs“, sagt Andreas Böhm, Gründer und Chief Executive Officer des deutschen Unternehmens One Data. „Die Verbindung von Data Mesh, Active Metadata und Graph-Darstellung mit Machine Learning ist unser Alleinstellungsmerkmal.“

Data-Mesh-Technik

Mit der Data-Mesh-Technologie können Fachbereiche „ihre“ Daten optimal verwalten, sie können „Datenprodukte“ erzeugen und verteilen, und crossfunktionale Teams arbeiten vernetzt und agil. Hierarchische Zoomstufen und visuelle Ebenen gruppieren Datenbestände. Per metadatenbasierter Suche lassen sich spezifische Daten und ihre Verbindungen auffinden. Daten sind als Datenprodukte auffindbar, sie lassen sich zugänglich und verknüpfbar machen.

Bildergalerie
Bildergalerie mit 5 Bildern

Fachbereiche erhalten mit dieser Technik die notwendige Unabhängigkeit, zugleich erfolgt die Steuerung von entsprechenden Zugriffs- und Verwaltungsrechten weiterhin zentral. Im Ergebnis steigen Flexibilität und Sicherheit der Datenlandschaft. Die Dateneigentümer und spezifische Datennutzer können ihren kompletten Quelldatenbestand überprüfen, verwalten und lokalisieren – unabhängig von der Datenkomplexität und Menge.

Fortschrittliche Algorithmen und automatisierte Pipelines erzeugen ein kontinuierliches Bild der Unternehmensdatenlandschaft inklusive Klassifizierung, um etwa schützenswerte personenbezogene Daten zu erkennen. Record-Linkage ermöglicht ein ganzheitliches Daten-Tracking über Systemgrenzen hinweg – identische und ähnliche Daten werden erkannt und miteinander verknüpft.

Jeder Fachbereich kann Datenprodukte auf Basis von definierten Qualitätskriterien bereinigen und aufbereiten – inklusive Anomaliedetektion, automatisierten Qualitätschecks und Anreicherung mit Metadaten. „Mit automatischen und kontinuierlichen Prüfungen erfassen Anwender Qualitätsanomalien kontinuierlich und in Echtzeit“, erläutert Böhm. „Dateneigentümer können durch Benachrichtigungen unmittelbar reagieren und erkannte Probleme beheben.“ Er fügt hinzu: „Datenteams können Projekte um 70 Prozent beschleunigen und sind immer up-to-date.“ Das Data-Mesh-Enabling erlaube es den Kunden „wertige und verknüpfte Datenprodukte zum Self-Service bereitzustellen“.

Im abschließenden Schritt des Prozesses können ODC-Anwender die Datenprodukte auf einer Art Marktplatz veröffentlichen. Dateneigentümer, Nutzer und Entwickler arbeiten Hand in Hand auf derselben Data Collaboration Platform. Anfrage, Zugangsgenehmigung und Suche von Datenprodukten erfolgen per Self-Service.

Hybride Bereitstellung

„Kunden können One Data Cartography sowohl on-premises als auch in der Multi-Cloud nutzen, beispielsweise in Snowflake“, erläutert Böhm und fährt fort: „Sie können entweder unsere Data Mesh Engine nutzen oder eine andere Graph Data Engine.“ Wer sich also bereits etwa mit einer Graph-Datenbank oder mit Tableau auskennt, der hat die Nase vorn. Denn solche Nutzer können ihre Tools mit ODC integrieren und kommen mit den grundlegenden Funktionen von ODC bestens zurecht: Daten-Mapping, Data Discovery, Datenqualität, Data Literacy, Data Preparation und schließlich die grafische Darstellung der Datensätze „in einer Art Landkarte à la Google Maps“, sagt Böhm. Mithilfe der Metadaten erlaube diese grafische Darstellung die effiziente Verwaltung der Daten etwa in einem Fachbereich, die Qualitätssicherung und die Self-Service-Nutzung.

Algorithmen und KI

Die Datensätze selbst haben in dieser Maps-Darstellung die Form eines Hexagons, sodass bei einer großen Menge der Eindruck einer Bienenwabe entsteht. Da zwischen vielen Datensätzen auf drei Hierarchie-Ebenen (Record, Modul, Projekt) Beziehungen bestehen, die sich beispielsweise per Levenshtein-Distanz-Algorithmus messen lassen, verwundert es nicht, dass auch Pfeile zwischen Records auftauchen, die solche Beziehungen anzeigen.

„Mit dieser Technik können Kunden beispielsweise durch Machine-Learning-Modelle automatisierte Prognosen erstellen und sie können Kennzahlen im Hinblick auf höhere Effizienz optimieren“, erläutert CEO Böhm. „Bei unserem Kunden ThyssenKrupp Stahl half ODC beispielsweise Liefertermine zu berechnen und einzuhalten, weil die Prozesse und die zugehörigen Daten völlig transparent sind.“

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung

Bei Pharma-Unternehmen, die unterschiedliche SAP-Systeme nutzen, war während der Pandemie Flexibilität gefragt; mit ODC sei diese Flexibilität des Datenmanagements gestaltbar. „Wir wollen die Lösungsmöglichkeiten von SAP ergänzen und flexibilisieren“, so Böhm. „Das gleiche gilt für Data Warehouses und Data Lakes.“ Mit dem hauseigenen Software Development Kit (SDK) könne jeder Kunde Anpassungen und Erweiterungen vornehmen.

Funktionsweise

In ODC werden durch Mapping Datenquellen und ihre Felder semantisch miteinander verknüpft Links, beispielsweise in Stammdatensystemen (MDM). Anschließend werden die Daten, ähnlich wie mit GPT-Deep-Learning, zu „Active Metadata“ angereichert und in einem Hub gespeichert.

Jedes Hexagon ist in unterschiedlichen Ansichten und Ebenen verfügbar: Die Business-View ist für den Fachbereichsanwender und enthält die Ebenen für Datenprodukte mit Business-Domain, Entität und Datensatz. Die Rohdaten-View ist für den Datenanalysten und zeigt die drei Ebenen Row (Datensatz mit Details), Project und Module. Die technische View ist für den IT-Spezialisten und beinhaltet die darunterliegende Datenbank-Technologie und die Schemata der Datensätze. ODC will so unterschiedlichen Anwendern die jeweils passende Ansicht bereitstellen.

Im sogenannten „Spider-Modus“ kann ODC Verknüpfungen und Beziehungen anzeigen, über Silos und Domains hinweg. Im Analysemodus zeigt ODC Qualitätsprobleme an, die nach der Anwendung von einfachen und komplexen Prüfregeln auftauchen. Nach Abschluss aller Prüfungen löst der Anwender den Befehl „Publish Data Product“ aus und gibt die geprüften und korrigierten Datenprodukte frei. Dieses Publizieren erfolgt beispielsweise an sein Team im Fachbereich, an Drittsysteme wie Tableau, Power BI oder Snowflake. Es gibt aber auch einen eigenen ODC-Marktplatz für Datenprodukte. Durch diese Integrationsfähigkeit wundert es nicht, dass One Data zu den Tableau-Select-Partnern und Snowflake-Partnern gehört.

„Viele Unternehmen haben das enorme Potenzial von Daten noch nicht ausreichend gehoben. Das liegt daran, dass es für jedes Unternehmen eine hochkomplexe Aufgabe ist, die vorhandenen Daten zum einen so aufzubereiten, dass man sie verwenden kann und zum anderen das durch den Einsatz von AI generierte neue Wissen in die Umsetzung zu bringen. Und genau hier greift unser Produkt: Wir schließen die Lücke zwischen Wissen und Anwendung, indem unsere Software Datenprodukte baut, die Business User brauchen und handhaben können. Gleichzeitig sind Data Science und AI komplexe Materien, die erklärungsbedürftig sind. Auch deshalb gehört es zum Kern unserer Unternehmensphilosophie mit unseren Kunden verständlich, aufrichtig und empathisch zu kommunizieren“, so Andreas Böhm abschließend.

Artikelfiles und Artikellinks

(ID:49227243)