Kommentar von Lars Milde, Tableau

Top 10 der Big Data Trends für das Jahr 2017

| Autor / Redakteur: Lars Milde / Nico Litzel

Der Autor: Lars Milde ist Senior Marketing Manager DACH & Eastern Europe bei Tableau
Der Autor: Lars Milde ist Senior Marketing Manager DACH & Eastern Europe bei Tableau (Bild: Tableau)

2016 war ein herausragendes Jahr für Big Data. Immer mehr Organisationen speichern, verarbeiten und generieren Mehrwert aus Daten unterschiedlichster Form und Größe. Dieses Jahr werden Systeme, die große Mengen strukturierter und unstrukturierter Daten unterstützen, weiter expandieren. Der Markt wird Plattformen fordern, die den Hütern der Daten helfen, Big Data zu regulieren und zu sichern, während die Endnutzer diese Daten analysieren.

Wir bei Tableau verfolgen jedes Jahr die Entwicklungen in der Branche, um eine Vorstellung davon zu bekommen, welche Big Data Trends das folgende Jahr bestimmen werden. Hier sind unsere Vorhersagen für das Jahr 2017.

1. Big Data wird schneller und leichter zugänglich – durch neue Optionen zur Hadoop-Beschleunigung

Sicher, man kann auf Hadoop maschinelles Lernen nutzen und Sentiment-Analysen durchführen, aber als Erstes wird häufig die Frage gestellt: Wie schnell ist die interaktive SQL? SQL ist letztendlich die Datenleitung der Geschäftsanwender, die Hadoop-Daten für schnellere, leichter wiederholbare KPI-Dashboards und Untersuchungsanalysen nutzen wollen.

Dieser Bedarf an Schnelligkeit hat dazu geführt, dass schnellere Datenbanken eingeführt wurden, wie Exasol und MemSQL, Hadoop-basierte Speicher wie Kudu sowie Technologien, die schnellere Abfragen ermöglichen. Diese Abfragebeschleuniger verwenden SQL-on-Hadoop-Engines (Apache Impala, Hive LLAP, Presto, Phoenix und Drill) sowie OLAP-on-Hadoop-Technologien (AtScale, Jethro Data und Kyvos Insights) und verwischen die Trennlinie zwischen herkömmlichen Data Warehouses und der Big-Data-Welt.

Weiterführendes Material: AtScale BI on Hadoop benchmark Q4 2016

2. Big Data ist nicht mehr nur Hadoop: Maßgeschneiderte Tools werden ausgemustert

In früheren Jahren konnten wir mit der Big-Data-Welle den Aufstieg mehrerer Technologien beobachten, die dem Analysebedarf auf Hadoop entsprachen. Aber Unternehmen mit komplexen, heterogenen Umgebungen wollen keinen isolierten BI-Zugriffspunkt für eine einzige Datenquelle (Hadoop) mehr einführen. Antworten auf ihre Fragen sind in einer Vielzahl von Quellen verborgen: von Aufzeichnungssystemen bis hin zu Cloud-Warehouses, strukturierten und unstrukturierten Daten – sowohl aus Hadoop- als auch Nicht-Hadoop-Quellen. (Übrigens bereiten sich auch relationale Datenbanken auf Big Data vor. SQL Server 2016 hat beispielsweise kürzlich einen JSON-Support hinzugefügt.)

Dieses Jahr werden die Kunden die Analyse aller Daten fordern. Daten- und quellenunabhängige Plattformen werden florieren, während für Hadoop maßgeschneiderte Plattformen, die sich nicht für verschiedene Anwendungsfälle bereitstellen lassen, außen vor bleiben. Der Verkauf von Platfora dient als Frühindikator für diesen Trend.

Weiterführendes Material: Uncommon sense: The big data warehouse

3. Unternehmen nutzen so genannte Data Lakes (Datenseen), um Werte zu schaffen

Ein Datensee ist wie ein künstlicher Stausee. Zunächst wird ein Damm gebaut (Cluster), der dann mit Wasser gefüllt wird (Daten). Das Wasser (die Daten) wird für verschiedene Zwecke genutzt – etwa um Elektrizität zu erzeugen, es zu trinken sowie zur Erholung (prädiktive Analysen, ML, Netzsicherheit usw.).

Bis jetzt war das Füllen des Sees Selbstzweck. 2017 wird sich dies ändern, weil die wirtschaftliche Rechtfertigung für Hadoop schwieriger wird. Unternehmen fordern eine wiederholbare und agile Nutzung des Sees für schnellere Antworten. Sie werden die Wirtschaftlichkeit sorgfältig prüfen, bevor sie in Personal, Daten und Infrastruktur investieren. Dies stärkt die Partnerschaft zwischen Geschäftsabteilung und IT [PDF]. Und Self-Service-Plattformen gewinnen Anerkennung als Tools, um von Big Data zu profitieren.

Weiterführendes Material: Maximizing data value with a data lake

4. Architekturen reifen und weisen Universal-Frameworks zurück

Hadoop ist nicht mehr nur eine Plattform mit Stapelverarbeitung für Datenwissenschaftler. Es ist zu einer Mehrzweck-Engine für Ad-hoc-Analyse geworden. Es wird sogar zur Betriebsberichterstattung für tägliche Arbeitslasten eingesetzt, was herkömmlicherweise von Data Warehouses erledigt wurde.

2017 werden Organisationen diesen Hybridbedarf decken, indem sie auf fallspezifische Architekturkonzepte setzen. Sie suchen nach den verschiedensten Faktoren – etwa Personas, Fragen, Volumen, Zugriffshäufigkeit, Datengeschwindigkeit und Aggregationsniveau, bevor sie sich auf eine Datenstrategie festlegen. Diese modernen Architekturen werden bedarfsgesteuert sein. Sie kombinieren die besten Self-Service-Tools zur Datenaufbereitung, Hadoop Core und Analyseplattformen für Endbenutzer auf eine Weise, die sich neu konfigurieren lässt, wenn sich der Bedarf weiterentwickelt. Die Flexibilität dieser Architekturen wird letztendlich entscheidend sein für die Wahl der Technologie.

Weiterführendes Material: The cold/warm/hot framework and how it applies to your Hadoop strategy

5. Nicht Volumen oder Geschwindigkeit – Vielfalt ist entscheidend für Big-Data-Investitionen

Gartner definiert Big Data mit drei Vs: High-Volume, High-Velocity, High-Variety (hohes Volumen, hohe Geschwindigkeit, große Vielfalt). Während alle drei Vs wachsen, wird die Vielfalt zur größten Triebkraft von Big-Data-Investitionen, wie vor kurzem aus einer Umfrage von New Vantage Partners [PDF] hervorging. Dieser Trend wird sich fortsetzen, da Unternehmen mehr Quellen integrieren und sich auf die „lange Schleppe“ von Big Data konzentrieren wollen. Vom schemafreien JSON über verschachtelte Typen in anderen Datenbanken (relational und NoSQL) bis zu strukturierten Daten (Avro, Parquet, XML) vervielfältigen sich die Datenformate und die Konnektoren werden entscheidend. 2017 werden Analyseplattformen danach beurteilt, ob sie Direktverbindungen zu diesen disparaten Quellen herstellen können.

Weiterführendes Material: Variety, not volume, is driving big data initiatives

6. Spark und maschinelles Lernen durchleuchten Big Data

Apache Spark, ursprünglich eine Komponente des Hadoop-Systemumfeldes, wird jetzt zur Big-Data-Plattform erster Wahl für Unternehmen. In einer Umfrage bei Datenarchitekten, IT-Managern und BI-Analysten bevorzugten fast 70 Prozent der Befragten Spark gegenüber dem etablierten MapReduce, das stapelorientiert und nicht für interaktive Anwendungen oder die Verarbeitung von Echtzeit-Streams geeignet ist.

Diese Fähigkeit für große Rechenoperationen mit Big Data haben Plattformen hervorgebracht, die rechenintensives maschinelles Lernen, KI und grafische Algorithmen bieten. Microsoft Azure ML war besonders erfolgreich aufgrund seiner Anfängerfreundlichkeit und der einfachen Integration mit vorhandenen Microsoft-Plattformen. Die Bereitstellung von ML für die Massen wird mehr Modelle und Anwendungen zur Folge haben, die Petabytes von Daten generieren werden. Wenn Maschinen lernen und Systeme intelligent werden, wird sich das Augenmerk auf Anbieter von Self-Service-Software richten, um zu sehen, wie Sie den Zugriff der Endbenutzer auf diese Daten ermöglichen.

Weiterführendes Material: Why you should use Spark for machine learning

7. Konvergenz von IoT, Cloud und Big Data schafft neue Gelegenheiten für Self-Service-Analysen

Es scheint, als ob 2017 alles mit Sensoren ausgestattet sein wird, die Daten an das Mutterschiff zurücksenden. IoT generiert Riesenmengen an strukturierten und unstrukturierten Daten und ein wachsender Anteil dieser Daten wird von Cloudservices bereitgestellt. Die Daten sind häufig heterogen und befinden sich auf zahlreichen relationalen und nicht relationalen Systemen von Hadoop-Clustern bis zu NoSQL-Datenbanken. Während Innovationen bei Speicherung und Managed Services den Erfassungsprozess beschleunigt haben, sind der Zugriff auf und das Verstehen der Daten selbst immer noch die größte Herausforderung der letzten Meile. Das Resultat ist, dass die Nachfrage nach Analysetools ansteigt, die nahtlos eine Verbindung zu einer Vielzahl von in der Cloud gehosteten Datenquellen herstellen und diese kombinieren können. Mit solchen Tools können Unternehmen sämtliche Datentypen untersuchen und visualisieren, ganz gleich, wo sie gespeichert sind. Auf diese Weise lassen sich versteckte Geschäftsgelegenheiten in der IoT-Investition aufdecken.

Weiterführendes Material:Das Problem der letzten Meile im Internet der Dinge und seine Lösung

8. Self-Service-Datenaufbereitung wird zum Mainstream, wenn die Endnutzer mit der Gestaltung von Big Data beginnen

Geschäftsanwendern den Zugriff auf Hadoop-Daten zu gestatten, ist eine der größten Herausforderungen unserer Zeit. Der Boom bei den Self-Service-Analyseplattformen hat diese Umstellung erleichtert. Aber die Anwender wollen den Zeitaufwand und die Komplexität der Datenaufbereitung für die Analyse noch weiter reduzieren. Dies ist besonders wichtig, wenn es um eine Vielzahl von Datentypen und -formaten geht.

Agile Self-Service-Tools ermöglichen es nicht nur, Hadoop-Daten direkt an der Quelle aufzubereiten, sondern stellen die Daten auch als Momentaufnahmen bereit, damit sie schneller und einfacher untersucht werden können. Wir sehen in diesem Bereich eine Vielzahl von Innovationen, die sich auf die Big-Data-Datenaufbereitung durch Endnutzer konzentrieren – etwa von Alteryx, Trifacta und Paxata. Diese Tools senken die Einstiegsbarrieren für Hadoop-Nachzügler und -Späteinsteiger. Sie werden auch 2017 weiter an Zugkraft gewinnen.

Weiterführendes Material: Why self-service prep is a killer app for big data

9. Big Data wird erwachsen: Hadoop als Beitrag zu Unternehmensstandards

Wir beobachten den Trend, dass Hadoop zum Kern des IT-Umfelds im Unternehmen wird. Dieses Jahr werden wir mehr Investitionen in Sicherheits- und Governance-Komponenten im Umfeld der Unternehmenssysteme sehen. Apache Sentry bietet ein System zur Durchsetzung detaillierter, rollenbasierter Autorisierung für Daten und Metadaten, die in einem Hadoop-Cluster gespeichert sind. Apache Atlas, entwickelt als Teil der Data Governance-Initiative, ermöglicht es den Organisationen, eine konsistente Datenklassifizierung im gesamten Datensystemumfeld anzuwenden. Apache Ranger bietet zentralisierte Sicherheitsverwaltung für Hadoop.

Solche Funktionen erwarten die Kunden bei ihren RDBMS-Plattformen auf Unternehmensebene zunehmend. Sie stehen im Vordergrund neu aufkommender Big-Data-Technologien und beseitigen eine weitere Barriere für die Einführung in den Unternehmen.

Weiterführendes Material: The phases of Hadoop maturity: Where exactly is it going?

10. Metadatenkataloge helfen dabei, die Daten ausfindig zu machen, deren Analyse sich lohnt

Über einen langen Zeitraum vernichteten Unternehmen Daten, weil sie sie nicht verarbeiten konnten. Mit Hadoop können Sie zwar viele Daten verarbeiten, aber die Daten sind meist nicht so organisiert, dass man sie leicht finden kann.

Metadaten helfen den Anwendern, relevante Daten zu entdecken, deren Analyse sich lohnt. Sie stammen von Unternehmen wie Alation und Waterline, die das Auffinden von Daten in Hadoop mithilfe von maschinellem Lernen automatisieren. Die Katalogdateien verwenden Tags, entdecken Beziehungen zwischen Datenbeständen und liefern sogar Abfragevorschläge über durchsuchbare Benutzeroberflächen. Dies hilft sowohl den Datenkonsumenten als auch den Dateneigentümern, den Zeitaufwand zu reduzieren, Daten vertrauenswürdig zu machen, sie zu finden und präzise abzufragen. Self-Service-Untersuchungen werden 2017 als natürliche Erweiterung der Self-Service-Analyse an Bedeutung gewinnen und sich einer wachsenden Nachfrage erfreuen.

Weiterführendes Material: Data catalogs as a strategic requirement for data lakes

Kommentare werden geladen....

Kommentar zu diesem Artikel abgeben

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Kontaktieren Sie uns über: support.vogel.de/ (ID: 44422919 / Analytics)