Immer mehr Unternehmen versprechen sich von einem Data Lake, die richtigen Geschäftsentscheidungen auf Basis eines großen Datenpools treffen zu können – bei der Umsetzung kommt es auf die richtige Strategie an.
Ein großer Datenpool alleine ist noch nicht zielführend – auch die Strategie muss passen.
Die schnelle Entscheidungsfindung auf Basis digitaler Daten verändert die Art und Weise, wie Unternehmen agieren und die IT arbeitet. Da Unternehmen auf alle Arten von Informationen zugreifen wollen, haben sie einen Bedarf an Infrastrukturexperten erkannt, die ihnen helfen, aus ihren Daten neue Werte zu erschließen. Zu diesem Zweck bauen viele Datenbankadministratoren nicht nur ihre Cloud- und DevOps-Fähigkeiten aus, sondern wagen sich auch an das Thema Data Lake heran.
Hierbei handelt es sich um ein großes Repository, in welchem viele Daten – in ihrer rohen, ursprünglichen Form – aus verschiedenen Quellen zusammenfließen. Benutzer innerhalb eines Unternehmens können dann auf diese zentralisierten Daten zugreifen und sie analysieren. Datenbankadministratoren stehen nun vor der Aufgabe, immer größere Datenmengen zu verwalten und daraus für diejenigen Abteilungen und Mitarbeiter bestimmte Daten verfügbar zu machen, die diese gerade benötigen. Die wahre Stärke eines Data Lake zeigt sich, wenn eine maximale Akzeptanz im gesamten Unternehmen gegeben ist, das Potenzial von Big Data für möglichst viele Geschäftsentscheidungen zu nutzen.
Bedarf für die Bewältigung zunehmender Datenmengen
Data Lakes kommen für Unternehmen aller Branchen und Größen infrage, die künftig stärker datenbasierte Geschäftsentscheidungen treffen wollen – und das sind immer mehr Unternehmen. Zu den wichtigsten Wachstumsfaktoren des Data-Lake-Markts gehört i-SCOOP.eu zufolge die zunehmende Notwendigkeit, aus den wachsenden Datenmengen vertiefte Einblicke zu gewinnen, um einen Wettbewerbsvorteil auf dem Markt zu erlangen. Ein weiterer Grund ist der Wunsch nach einem vereinfachten Zugang zu Geschäftsdaten aus Abteilungssilos, Großrechnern und Altsystemen.
MarketsandMarkets geht davon aus, dass der globale Markt für Data Lakes bis 2024 mit einer kontinuierlichen jährlichen Wachstumsrate von 20,6 Prozent zulegen wird. Ausgehend von geschätzten 7,9 Milliarden US-Dollar im Jahr 2019, soll das Marktvolumen bis 2024 auf 20,1 Milliarden US-Dollar steigen. Eine Studie von Mordor Intelligence schätzte das Marktvolumen für Data Lakes im Jahr 2019 mit 3,74 Milliarden US-Dollar etwas geringer ein, erwartet aber, dass es bis 2025 auf 17,6 Milliarden US-Dollar steigen wird. Dies wäre ein kontinuierliches Wachstum von knapp 30 Prozent im Prognosezeitraum 2020 bis 2025.
Fehlende Ressourcen
Die Menge der gesammelten Daten – zusammen mit den Anforderungen an die Analyse durch die verschiedenen Geschäftsbereiche – hat zugenommen. Traditionell würde die IT-Abteilung die Analyse und Verarbeitung durchführen, aber sie hat vielerorts einfach nicht die nötigen Ressourcen. Dies führt dazu, dass Entscheidungen in vielen Unternehmen nach wie vor nicht auf Basis aller verfügbaren Informationen getroffen werden. Die Lösung besteht darin, möglichst vielen Benutzern den Zugriff auf die Daten in Rohform zu ermöglichen und ihre eigenen spezifischen Analysen durchzuführen, wenn sie sie brauchen.
Der Ansatz des Data Lake wurde geschaffen, um alle Rohdaten eines Unternehmens zu erfassen und gleichzeitig mehreren Benutzern die Möglichkeit zu geben, auf das Repository zuzugreifen und ihre eigenen Erkenntnisse zu gewinnen. Data Lakes ermöglichen quasi Selbstbedienung. Da sich die Analyse-Tools ständig verbessern, ist ein akademischer datenwissenschaftlicher Background nicht mehr unbedingt erforderlich, um die Rohdaten sinnvoll zu nutzen und die von den Geschäftsbereichen benötigten Informationen zu sammeln. Somit erweist sich ein Data Lake als attraktiver Ansatz für zeitgemäßes Datenmanagement und wertschöpfende Datenanalyse.
Mehr herausholen aus Big Data – und einen Datensumpf vermeiden
Um sicherzustellen, dass die Mitarbeiter den Data Lake annehmen, empfiehlt es sich, eine Schnittstelle zu wählen, die unterschiedliche Fachkenntnisse anspricht. So können Optionen zur Einstufung der Daten nach ihrer Qualität eingefügt werden. Benutzer sollten zudem den gewünschten Datensatz auf der Grundlage der verfügbaren Felder oder Datenmerkmale auswählen können.
Ohne Benutzerfreundlichkeit lässt sich keine vollständige Akzeptanz erzielen. Der Data Lake würde dann zu einem Data Swamp, also „Datensumpf“, degradiert werden – mit riesigen Mengen an unberührten, undefinierten und unorganisierten Daten, die von den Benutzern nicht vernünftig zu handhaben sind. Data Swamps sind in der Regel ein Symptom für eine schlechte Datenverwaltung und fehlende kontextbezogene Metadaten, die helfen, die Daten zu kuratieren.
Zusätzlich zur Schnittstelle gilt es die zum Unternehmen passende Datenmanagementplattform, um die Datenquellen aus den einzelnen Silos im Unternehmen auszuwählen. Viele Cloud-Lösungen stehen als mögliche Plattform für einen Data Lake zur Verfügung. Auf einen Cloud-Service-Provider zurückzugreifen, ist hinsichtlich der Skalierbarkeit und Kosteneffizienz vorteilhaft im Vergleich zur Alternative, alle Daten vor Ort vorzuhalten.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
Bei der Erfassung der maximalen Anzahl von Datenquellen sind mitunter einige Hindernisse zu überwinden. Einige Geschäftsbereiche neigen dazu, Daten zu horten und zurückzuhalten. Deshalb gilt es sicherzustellen, dass alle potenziellen Datenquellen in den Data Lake fließen. Es gibt bewährte Strategien zur Optimierung des Datenmanagements im Unternehmen. Eine nützliche Roadmap bietet Alex Gorelik in seinem E-Book „Strategies for Building an Enterprise Data Lake“. Gorelik zeigt darin auf, wie sich die Anzahl der Entscheidungen, die auf der Grundlage von Daten getroffen werden, maximieren lässt, sich Einsparungen erzielen lassen und der tägliche Aufwand für das Datenmanagement um bis zu 60 Prozent reduziert werden kann.
Roland Rosenau, Systems Engineering Manager EMEA Central bei Rubrik.
(Bild: Rubrik)
*Der Autor: Roland Rosenau, Systems Engineering Manager EMEA Central bei Rubrik