Data-Management: „Datensumpf“ vermeiden Vier Wege für die erfolgreiche Datennutzung Cloud-basierter Data Lakes

Autor / Redakteur: André Ambrosius* / Dr. Jürgen Ehneß

Daten stehen bei Unternehmen nach wie vor hoch im Kurs – den wirklichen Wert dieser Daten können sie aber nur selten beziffern oder voll ausschöpfen. Laut Zahlen des auf einer IDC-Studie basierten „Rethink Data“-Berichts von Seagate werden nur 32 Prozent der Daten, die Unternehmen zur Verfügung stehen, vollständig genutzt. Zu den größten Hindernissen gehören dabei ineffektives Datenmanagement, schnelles und ausuferndes Datenwachstum sowie die mangelnde Sicherstellung von Datensicherheit.

Firmen zum Thema

Wenn sich der Data Lake zum Datensumpf entwickelt, wird es nahezu unmöglich, die gesuchten Informationen herauszufischen.
Wenn sich der Data Lake zum Datensumpf entwickelt, wird es nahezu unmöglich, die gesuchten Informationen herauszufischen.
(Bild: ©Cesar Machado - stock.adobe.com)

Um den größtmöglichen Nutzen aus ihren Daten ziehen zu können, setzen viele Unternehmen zunehmend auf Cloud-basierte Data Lakes. Data Lakes können Hunderte von Petabyte (PB) oder mehr an Daten umfassen. Ein großes Risiko dabei ist, dass sie sich – wenn sie unbeaufsichtigt bleiben – in einen größtenteils ungenutzten Datensumpf verwandeln können, in dem inaktive, aber potenziell nützliche Daten auf Speichermedien lagern. Um zu verhindern, dass sich „Datenseen“ in einen „Datensumpf“ verwandeln, und sicherzustellen, dass Unternehmen den größtmöglichen Nutzen beispielsweise für geschäftliche Herausforderungen aus ihren Daten ziehen können, sollten CIOs, CTOs und Data Architects die folgenden vier Punkte berücksichtigen.

1. Ziele klar definieren

Mit einem klaren Ziel vor Augen können Unternehmen die zu sammelnden Daten leicht identifizieren und die besten Machine-Learning-Technologien (ML) für die Erkenntnisgewinnung bestimmen.

Bei einem Bikesharing-Dienst beispielweise können die Daten der Sensoren am Fahrrad gesammelt und in Echtzeit in einem Cloud-basierten Datenspeicher abgelegt werden. Alle On-Bike-Informationen (wie lokale Dienste und Informationen zum Fahrradstatus) sind für den Betreiber der Plattform einsehbar und unterstützen ihn, Entscheidungen zu treffen – zum Beispiel die richtige Anzahl von Fahrrädern in verschiedenen Gebieten einzusetzen, kaputte Fahrräder zu warten, wann und wo es nötig ist – und so letztlich das Nutzererlebnis zu verbessern.

Damit dies effektiv funktioniert, ist es wichtig, dass kontinuierlich neue Daten in den Data Lake eingespeist werden, um anschließend mit den richtigen Software-Anwendungen bestmögliche Ergebnisse zu erzielen. Investitionen in die Speicherinfrastruktur können so einen positiven Effekt auf die Geschäftsergebnisse vieler Unternehmen erzielen.

2. Je mehr Informationen, desto besser

Unternehmen müssen in der Lage sein, die richtigen Daten zu erfassen, sie zu identifizieren, sie dort zu speichern, wo sie benötigt werden, und sie den Entscheidungsträgern in einer nutzbaren Form zur Verfügung zu stellen. Eine zielführende Datennutzung beginnt also bereits mit der Datenerfassung.

Angesichts des starken Datenwachstums durch die Verbreitung von IoT-Anwendungen und die Einführung von 5G haben viele Unternehmen jedoch Schwierigkeiten, Schritt zu halten, und erfassen nicht alle verfügbaren Daten. Immerhin: Immer mehr Unternehmen verstehen, dass sie so viele Daten wie möglich erfassen und vor allem speichern sollten, um den vorhandenen Mehrwert nicht zu verlieren. Dies umfasst den bereits heute nutzbaren Wert der Daten und den, der mit zukünftigen Anwendungen kommt.

Hinzu kommt eine weitere positive Entwicklung: In den Anfängen von Data Lakes war es den Power-Usern vorbehalten, einen vollumfänglichen Überblick über den Data Lake zu haben und die richtigen Daten zu finden. Durch den Einzug der Structured Query Language (SQL) haben mittlerweile aber auch „normale“ Nutzer mehr Zugang zu den Daten. Für diese Anwender liegt der Fokus mehr auf den Ergebnissen. Künstliche Intelligenz (KI) und maschinelles Lernen (ML) helfen ihnen dabei, die Daten zu filtern und nach Mustern zu suchen. ML ermöglicht heutzutage Analysen nahezu in Echtzeit, erweiterte Analysen und Visualisierungen.

Wichtig ist in diesem Zusammenhang auch die Übertragung von Daten auf einen gut verwalteten Cloud-Speicherdienst. Dieser hilft Unternehmen, ihre täglich generierten Daten in eine skalierbare Datenarchitektur zu überführen. Mobile Speicherlösungen mit hoher Kapazität, wie das Lyve Mobile von Seagate, ermöglichen es Unternehmen zudem, ihre Daten zwischen Edge und Cloud-Kern zusammenzuführen, zu speichern, zu verschieben und zu aktivieren. Solche Lösungen bieten auch eine schnellere Möglichkeit, große Datenmengen physisch von einem Speicherort zum anderen zu verschieben.

Neues eBook

Wie baut man heutzutage eine moderne Speicherinfrastruktur?

SDS für den Mittelstand

eBook SDS für den Mittelstand
eBook SDS für den Mittelstand
(Bildquelle: Storage-Insider)

Lesen Sie unter anderem:
# Erst Software macht Storage geschmeidig. SDS – wieso, wozu, was soll das?
# So baut man heute moderne Speicherinfrastrukturen. SDS ist nicht gleich SDS.
# So machen Sie Ihren Storage fit für die Zukunft. Wohin entwickelt sich SDS?
# Strategische Empfehlungen speziell für KMU. Ausgestaltung einer erfolgreichen Storage- und Datenstrategie.



>>> eBook „SDS für den Mittelstand“ downloaden

3. Regelmäßige Auswertung der Daten

Unternehmen müssen Datensätze, die sie in einem Cloud-basierten Data Lake verwalten, regelmäßig überprüfen. Andernfalls besteht die Gefahr, dass dieser immer unübersichtlicher und schwieriger zu nutzen wird, zum Beispiel wenn es darum geht, die Muster in den Daten zu finden, nach denen sie suchen.

Der Einsatz von Cloud-Speicherdiensten mit KI und Automatisierungs-Software wird voraussichtlich den größten Einfluss darauf haben, große Data Lakes besser zu verwalten und sich einen Überblick über die Informationen zu verschaffen. Die beste Vorgehensweise ist, zuerst einen Datensatz auszuwählen und diesen mit ML-Technologien zu analysieren. Sobald ein zufriedenstellendes Ergebnis erzielt wurde, wendet das Unternehmen diese Vorgehensweise auf weitere Datensätze an. Bei der Betrugserkennung in einer Bank werden beispielsweise KI-basierte Systeme entwickelt, die anhand von Parametern wie Transaktionshäufigkeit und -größe sowie Art des Händlers lernen, welche Art von Transaktionen einen Betrug darstellt.

Daten, die veraltet oder nicht mehr relevant sind, können in ein anderes Datenarchiv übertragen und aufbewahrt werden. Zu diesem Zweck kann ein Unternehmen einen Datenübertragungsdienst nutzen. Damit lassen sich große Datenmengen über private, öffentliche oder hybride Cloud-Umgebungen hinweg verschieben und eine schnelle, einfache und sichere Edge-Speicherung und Datenübertragung ermöglichen sowie die Gewinnung von Erkenntnissen beschleunigen.

4. DataOps nutzen

Mass Data Operations, oder DataOps, werden von IDC als die Disziplin der Verbindung von denjenigen definiert, die Daten erzeugen und die Daten nutzen. DataOps sollten Teil jeder erfolgreichen Datenmanagement-Strategie sein. Zusätzlich zu DataOps umfasst eine solide Datenmanagementstrategie die Datenorchestrierung von den Endpunkten zum Kern sowie die Datenarchitektur und -sicherheit. Das Ziel des Datenmanagements ist es, den Anwendern eine ganzheitliche Sicht und den Zugriff auf die Daten sowie ihre Nutzung zu ermöglichen. Dies gilt sowohl für Daten, die in Bewegung sind, als auch für „ruhende“ Daten.

Fazit

Unternehmen generieren heutzutage große Datenmengen, die laut Seagates Rethink-Data-Bericht von 2020 bis 2022 mit einer durchschnittlichen jährlichen Wachstumsrate von 42 Prozent weiter zunehmen werden.

Eine neue, von Seagate in Auftrag gegebene IDC-Studie ergab, dass Unternehmen diese Daten häufig zwischen verschiedenen Speicherorten verschieben, einschließlich Endpunkten, Edge und Cloud. Mehr als die Hälfte verschiebt täglich, wöchentlich oder monatlich Daten zwischen den Speicherorten. Die durchschnittliche Größe eines physischen Datentransfers liegt bei über 140 TB. Je schneller Unternehmen diese Daten vom Edge in die Cloud verschieben können, desto schneller können sie Erkenntnisse gewinnen und einen Mehrwert aus ihren Daten ziehen.

Für den langfristigen Erfolg von Datenmanagementstrategien in Unternehmen ist es essenziell, die Daten aktiv zu halten und so die Entstehung eines Datensumpfes zu vermeiden. Ein aktiver Data Lake bietet aufschlussreiche Erkenntnisse und bildet so die Basis für den Erfolg digitaler Infrastrukturen und Geschäftsinitiativen.

*Der Autor: André Ambrosius, Regional Sales Manager Enterprise DACH bei Seagate Technology

(ID:47549712)