Data Lakes im Aufwind, aber Vorsicht ist geboten Alle Datenquellen fließen in den Pool
Anbieter zum Thema
Immer mehr Unternehmen versprechen sich von einem Data Lake, die richtigen Geschäftsentscheidungen auf Basis eines großen Datenpools treffen zu können – bei der Umsetzung kommt es auf die richtige Strategie an.

Die schnelle Entscheidungsfindung auf Basis digitaler Daten verändert die Art und Weise, wie Unternehmen agieren und die IT arbeitet. Da Unternehmen auf alle Arten von Informationen zugreifen wollen, haben sie einen Bedarf an Infrastrukturexperten erkannt, die ihnen helfen, aus ihren Daten neue Werte zu erschließen. Zu diesem Zweck bauen viele Datenbankadministratoren nicht nur ihre Cloud- und DevOps-Fähigkeiten aus, sondern wagen sich auch an das Thema Data Lake heran.
Hierbei handelt es sich um ein großes Repository, in welchem viele Daten – in ihrer rohen, ursprünglichen Form – aus verschiedenen Quellen zusammenfließen. Benutzer innerhalb eines Unternehmens können dann auf diese zentralisierten Daten zugreifen und sie analysieren. Datenbankadministratoren stehen nun vor der Aufgabe, immer größere Datenmengen zu verwalten und daraus für diejenigen Abteilungen und Mitarbeiter bestimmte Daten verfügbar zu machen, die diese gerade benötigen. Die wahre Stärke eines Data Lake zeigt sich, wenn eine maximale Akzeptanz im gesamten Unternehmen gegeben ist, das Potenzial von Big Data für möglichst viele Geschäftsentscheidungen zu nutzen.
Bedarf für die Bewältigung zunehmender Datenmengen
Data Lakes kommen für Unternehmen aller Branchen und Größen infrage, die künftig stärker datenbasierte Geschäftsentscheidungen treffen wollen – und das sind immer mehr Unternehmen. Zu den wichtigsten Wachstumsfaktoren des Data-Lake-Markts gehört i-SCOOP.eu zufolge die zunehmende Notwendigkeit, aus den wachsenden Datenmengen vertiefte Einblicke zu gewinnen, um einen Wettbewerbsvorteil auf dem Markt zu erlangen. Ein weiterer Grund ist der Wunsch nach einem vereinfachten Zugang zu Geschäftsdaten aus Abteilungssilos, Großrechnern und Altsystemen.
MarketsandMarkets geht davon aus, dass der globale Markt für Data Lakes bis 2024 mit einer kontinuierlichen jährlichen Wachstumsrate von 20,6 Prozent zulegen wird. Ausgehend von geschätzten 7,9 Milliarden US-Dollar im Jahr 2019, soll das Marktvolumen bis 2024 auf 20,1 Milliarden US-Dollar steigen. Eine Studie von Mordor Intelligence schätzte das Marktvolumen für Data Lakes im Jahr 2019 mit 3,74 Milliarden US-Dollar etwas geringer ein, erwartet aber, dass es bis 2025 auf 17,6 Milliarden US-Dollar steigen wird. Dies wäre ein kontinuierliches Wachstum von knapp 30 Prozent im Prognosezeitraum 2020 bis 2025.
Fehlende Ressourcen
Die Menge der gesammelten Daten – zusammen mit den Anforderungen an die Analyse durch die verschiedenen Geschäftsbereiche – hat zugenommen. Traditionell würde die IT-Abteilung die Analyse und Verarbeitung durchführen, aber sie hat vielerorts einfach nicht die nötigen Ressourcen. Dies führt dazu, dass Entscheidungen in vielen Unternehmen nach wie vor nicht auf Basis aller verfügbaren Informationen getroffen werden. Die Lösung besteht darin, möglichst vielen Benutzern den Zugriff auf die Daten in Rohform zu ermöglichen und ihre eigenen spezifischen Analysen durchzuführen, wenn sie sie brauchen.
Der Ansatz des Data Lake wurde geschaffen, um alle Rohdaten eines Unternehmens zu erfassen und gleichzeitig mehreren Benutzern die Möglichkeit zu geben, auf das Repository zuzugreifen und ihre eigenen Erkenntnisse zu gewinnen. Data Lakes ermöglichen quasi Selbstbedienung. Da sich die Analyse-Tools ständig verbessern, ist ein akademischer datenwissenschaftlicher Background nicht mehr unbedingt erforderlich, um die Rohdaten sinnvoll zu nutzen und die von den Geschäftsbereichen benötigten Informationen zu sammeln. Somit erweist sich ein Data Lake als attraktiver Ansatz für zeitgemäßes Datenmanagement und wertschöpfende Datenanalyse.
Mehr herausholen aus Big Data – und einen Datensumpf vermeiden
Um sicherzustellen, dass die Mitarbeiter den Data Lake annehmen, empfiehlt es sich, eine Schnittstelle zu wählen, die unterschiedliche Fachkenntnisse anspricht. So können Optionen zur Einstufung der Daten nach ihrer Qualität eingefügt werden. Benutzer sollten zudem den gewünschten Datensatz auf der Grundlage der verfügbaren Felder oder Datenmerkmale auswählen können.
:quality(80)/images.vogel.de/vogelonline/bdb/1663300/1663393/original.jpg)
MinIO – Open-Source-Storage-Server mit Amazon-S3-Kompatibilität
Kostenlosen Object Storage im Netzwerk einrichten
Ohne Benutzerfreundlichkeit lässt sich keine vollständige Akzeptanz erzielen. Der Data Lake würde dann zu einem Data Swamp, also „Datensumpf“, degradiert werden – mit riesigen Mengen an unberührten, undefinierten und unorganisierten Daten, die von den Benutzern nicht vernünftig zu handhaben sind. Data Swamps sind in der Regel ein Symptom für eine schlechte Datenverwaltung und fehlende kontextbezogene Metadaten, die helfen, die Daten zu kuratieren.
Zusätzlich zur Schnittstelle gilt es die zum Unternehmen passende Datenmanagementplattform, um die Datenquellen aus den einzelnen Silos im Unternehmen auszuwählen. Viele Cloud-Lösungen stehen als mögliche Plattform für einen Data Lake zur Verfügung. Auf einen Cloud-Service-Provider zurückzugreifen, ist hinsichtlich der Skalierbarkeit und Kosteneffizienz vorteilhaft im Vergleich zur Alternative, alle Daten vor Ort vorzuhalten.
Bei der Erfassung der maximalen Anzahl von Datenquellen sind mitunter einige Hindernisse zu überwinden. Einige Geschäftsbereiche neigen dazu, Daten zu horten und zurückzuhalten. Deshalb gilt es sicherzustellen, dass alle potenziellen Datenquellen in den Data Lake fließen. Es gibt bewährte Strategien zur Optimierung des Datenmanagements im Unternehmen. Eine nützliche Roadmap bietet Alex Gorelik in seinem E-Book „Strategies for Building an Enterprise Data Lake“. Gorelik zeigt darin auf, wie sich die Anzahl der Entscheidungen, die auf der Grundlage von Daten getroffen werden, maximieren lässt, sich Einsparungen erzielen lassen und der tägliche Aufwand für das Datenmanagement um bis zu 60 Prozent reduziert werden kann.
*Der Autor: Roland Rosenau, Systems Engineering Manager EMEA Central bei Rubrik
(ID:46494026)