Für eine effektive, schnelle und unmittelbarer Verarbeitung von Daten zur Analyse ist Data Streaming eine enorm wichtige und interessante Vorgehensweise. Apache Flink ist ein Open Source Tool, das diese Möglichkeiten bietet.
Apache Beam ermöglicht als Parallel Computing Framework das Verarbeiten von nahezu unbegrenzten Datenmengen. Die Open Source Software bietet über verschiedene SDKs das Definieren von Batch-Pipelines oder Pipelines für Streaming-Data-Processing und unterstützt Hadoop, Spark und andere Engines.
Apache Heron ist ein Open Source Tool, das ursprünglich von Twitter entwickelt wurde, um umfassende Datenmengen zu analysieren. Im Fokus stehen dabei vor allem große Datenmengen, die in kurzer Zeit analysiert werden sollen.
Die bisher als PrestoSQL bekannte SQL-Abfrage-Engine trägt jetzt den Namen Trino. Aktuell nutzen Unternehmen wie LinkedIn, Netflix, Slack, Comcast, Nordstrom und viele andere die Möglichkeiten von Trino.
Presto ermöglicht die direkte Abfrage von Daten aus verschiedenen Datenquellen. Dabei lassen sich auch umfangreiche Datenmengen analysieren und auswerten. Das Tool bietet einen ähnlichen Leistungsumfang wie kommerzielle Data-Warehouse-Lösungen.
Google hat mit Logica eine neue Programmiersprache veröffentlicht, die bei der Datenanalyse und -Verarbeitung ein wertvolles Hilfsmittel ist. Logica steht als Open Source unter der Apache-2-Lizenz zur Verfügung.
Mit der Programmiersprache Go lassen sich kleinere Programme genauso einfach entwickeln wie komplexe Anwendungen. Im Fokus von Go steht die plattformübergreifende Entwicklung.
Apache Calcite ist ein Open-Source-Framework auf Java-Basis für die dynamische Verwaltung von Daten. Das Framework unterstützt Anwendungen bei der Verwendung von verschiedenen Datenquellen. Calcite selbst speichert keine Daten.
AWS ist die Cloud-Infrastruktur mit dem größten Marktanteil. Das liegt unter anderem auch daran, dass es in der Cloudplattform umfassende Möglichkeiten zur Analyse von Daten gibt. Wir geben in diesem Beitrag einen Überblick.
Zeitreihendatenbanken sind darauf spezialisiert, große Datenmengen, die teilweise in Echtzeit eingehen, schnell speichern zu können. Ideal ist das für Sensordaten und andere Informationen in Internet-of-Things-Infrastrukturen. Der Beitrag gibt einen Überblick über bekannte Datenbanken in diesem Segment.
Apache Druid ist ein Open-Source-Analysespeicher, der Business-Intelligence-Abfragen von Ereignisdaten mit geringer Latenz ermöglicht. Echtzeitzugriffe sind genauso möglich wie eine schnelle Datenaggregation.
Fallen in kurzer Zeit große Datenmengen an, ist eine Datenbank notwendig, die mit großen Datenmengen umgehen kann und gleichzeitig eine hohe Leistung bietet. InfluxDB ist ein Datenbanksystem, das genau für dieses Einsatzgebiet optimiert worden ist.
Unternehmen, die eine IoT-Infrastruktur betreiben, zum Beispiel auch bei der Vernetzung von Sensoren, benötigen eine Plattform für die zentrale Verwaltung und Steuerung. Hier ist Azure Sphere eine Möglichkeit. Mit Azure Sphere Security Service kann hier auch für mehr Sicherheit gesorgt werden.
Bei der Analyse von Daten spielt die Visualisierung eine wichtige Rolle. Mit Datawrapper Core gibt es einen kostenlosen Dienst, der bei der Visualisierung von analysierten Daten wertvolle Hilfe bieten kann.
Mit Kajero erhalten Data Scientists eine Open-Source-Notebook-Lösung auf Basis von Javascript. Die Einträge können über GitHub weitergegeben werden. Kajero bietet die Unterstützung für zahlreiche Graphen, D3, NVD3 und Jutsu.
Im Fokus von R steht die Analyse von Daten. Dazu werden mithilfe von Operatoren und Funktionen selbstredend auch Berechnungen durchgeführt. In diesem Beitrag geben wir einen ersten Einstieg zu diesem Bereich in R.
Die Open Source Software PSPP stellt einen kompatiblen Ersatz für die Analyse-Software SPSS dar. Die Funktionen sind zwar etwas eingeschränkt, aber die Datenbasis ist identisch.
Um Daten mit R zu analysieren, mussten die Daten früher extra aus der Datenbank exportiert und in R importiert werden. Seit Microsoft SQL Server 2016 lassen sich R-Skripte aber direkt auf dem Datenbankserver ausführen.
Im Bereich IoT lassen sich KI und Blockchain durchaus gemeinsam betreiben, um Smarte Geräte und vor allem Mikro-Transaktionen einfacher zu verwalten. Die drei Bereich IoT, KI und Blockchain arbeiten dazu perfekt zusammen.
Unternehmen, die auf künstliche Intelligenz (KI) und Machine-Learning (ML) im Netzwerk setzen, müssen darauf achten, dass die eingesetzte Storage-Lösung schnell genug ist, um die Daten für Lösungen im KI-/ML-Bereich zur Verfügung zu stellen. Auch die Kapazität spielt eine Rolle.
Das kleine Tool SOFA kann dabei helfen, Daten einfacher zu analysieren. Das Tool steht kostenlos zur Verfügung und kann auch ungeübten Anwendern ermöglichen, Daten einfacher und schneller zu analysieren.
Die Big-Data-Cloud-Lösung Qubole ist in der Lage, sehr effektiv große und auch unstrukturierte Datenströme von verschiedenen Quellen zusammenzufassen und zu analysieren. Der Dienst steht auch Azure, Google Cloud und AWS zur Verfügung.
Auf Kaggle lassen sich Jupyter Notebook ohne Einrichtung online erstellen. Mittlerweile gehört Kaggle zu Google. Im Fokus stehen Dienstleistungen rund um das Thema Big Data, Machine Learning und Data Mining.
Die Datenmenge, die Unternehmen speichern müssen, steigt immer weiter an. Herkömmliche Dateisysteme wie extX, NTFS oder ReFS sind von der Leistung kaum mehr in der Lage, solche riesigen Datenmengen zu speichern. Wir geben einen Überblick, welche Dateisysteme das besser können.
Apache Phoenix dient als Schnittstelle für relationale Datenbanken auf Basis von HBase. Phoenix kann SQL-Abfragen durchführen und HBase-Tabellen verwalten. Wir zeigen, was die Software kann.
Apache Griffin kann die Datenqualität in Big-Data-Umgebungen verbessern. Das Open Source Tool unterstützt die Batch-Verarbeitung und den Streaming-Modus. Wir geben einen Überblick.
Mit der neuen Version 4.2 stellen die Entwickler von MongoDB die neue Version der NoSQL-Datenbank zur Verfügung. Verbessert werden zum Beispiel Indizes und die Verschlüsselung.
Bei Big Data spielen Open-Source-Lösungen eine besondere Rolle. Das liegt unter anderem daran, dass große Unternehmen Big-Data-Lösungen entwickeln und dann der Community zur Verfügung stellen, um diese zu verbessern.
Mit Windows 10 IoT Core stellt Microsoft eine Windows-10-Version zur Verfügung, die für Geräte ohne Monitor entwickelt wurde. Da auch diese Version die Universal Windows Platform nutzt, ist deren Einsatzgebiet sehr flexibel.
Auf den meisten Webseiten wird auf Google Analytics gesetzt, um die Besucher und Zugriffsdaten zu analysieren. Es gibt allerdings durchaus interessante Alternativen zum Marktführer.
Auf Kaggle lassen sich Jupyter Notebook ohne Einrichtung online erstellen. Mittlerweile gehört Kaggle zu Google. Im Fokus stehen Dienstleistungen rund um das Thema Big Data, Machine Learning und Data Mining.
Das kleine Tool SOFA kann dabei helfen, Daten einfacher zu analysieren. Das Tool steht kostenlos zur Verfügung und kann auch ungeübten Anwendern ermöglichen, Daten einfacher und schneller zu analysieren.
Unternehmen, die auf künstliche Intelligenz (KI) und Machine-Learning (ML) im Netzwerk setzen, müssen darauf achten, dass die eingesetzte Storage-Lösung schnell genug ist, um die Daten für Lösungen im KI-/ML-Bereich zur Verfügung zu stellen. Auch die Kapazität spielt eine Rolle.
Im Bereich IoT lassen sich KI und Blockchain durchaus gemeinsam betreiben, um Smarte Geräte und vor allem Mikro-Transaktionen einfacher zu verwalten. Die drei Bereich IoT, KI und Blockchain arbeiten dazu perfekt zusammen.
Apache Druid ist ein Open-Source-Analysespeicher, der Business-Intelligence-Abfragen von Ereignisdaten mit geringer Latenz ermöglicht. Echtzeitzugriffe sind genauso möglich wie eine schnelle Datenaggregation.
Bei der Analyse von Daten spielt die Visualisierung eine wichtige Rolle. Mit Datawrapper Core gibt es einen kostenlosen Dienst, der bei der Visualisierung von analysierten Daten wertvolle Hilfe bieten kann.
Das Apache-Toplevel-Projekt Zeppelin bietet ein Notizbuch für Daten aus anderen Systemen, mit denen Anwender diese effektiv analysieren können. Zeppelin arbeitet dazu eng mit Spark, Flink und Hadoop zusammen.
Die Open Source Software PSPP stellt einen kompatiblen Ersatz für die Analyse-Software SPSS dar. Die Funktionen sind zwar etwas eingeschränkt, aber die Datenbasis ist identisch.
Die Big-Data-Cloud-Lösung Qubole ist in der Lage, sehr effektiv große und auch unstrukturierte Datenströme von verschiedenen Quellen zusammenzufassen und zu analysieren. Der Dienst steht auch Azure, Google Cloud und AWS zur Verfügung.
Bei der Datenverarbeitung von Big Data spielen vor allem NoSQL-Datenbanken eine wichtige Rolle. Diese können im Vergleich zu relationalen Datenbanken große Datenmengen oft schneller verarbeiten. Aber auch relationale Datenbanken bieten Möglichkeiten. Wir zeigen, worauf Unternehmen achten sollten.
Microsoft stellt mit Azure Databricks eine Analyseplattform in Microsoft Azure zur Verfügung, die auf der bekannten Analysesoftware Apache Spark aufbaut. Bei der Entwicklung der Plattform haben die Entwickler von Spark mitgearbeitet.
Mit Apache Storm lassen sich Daten in Big-Data-Systemen in Echtzeit verarbeiten. Das Tool arbeitet mit verschiedenen Datenquellen zusammen und fügt sich optimal in Hadoop-Umgebungen ein.
Big Data erfordert leistungsfähige Server und Anwendungen, die eine große Menge an Daten effizient verarbeiten können. Dafür eignen sich Cloud-Dienste wie die Google Cloud Platform hervorragend.
Damit die enormen Datenmengen in Big-Data-Umgebungen optimal und vor allem verlässlich verarbeitet werden können, muss sichergestellt sein, dass die Daten belastbar, verlässlich und vor allem auch aussagekräftig sind.
Mit Kajero erhalten Data Scientists eine Open-Source-Notebook-Lösung auf Basis von Javascript. Die Einträge können über GitHub weitergegeben werden. Kajero bietet die Unterstützung für zahlreiche Graphen, D3, NVD3 und Jutsu.
Microsoft bietet mit seinem Cloud-Dienst Azure eine ideale Plattform für zahlreiche Cloud-Dienste. Interessant wird Azure etwa in Kombination mit der Open-Source-Lösung Apache Spark, mit der Unternehmen interaktive Analysen mit In-Memory-Technik durchführen können.
Um Daten mit R zu analysieren, mussten die Daten früher extra aus der Datenbank exportiert und in R importiert werden. Seit Microsoft SQL Server 2016 lassen sich R-Skripte aber direkt auf dem Datenbankserver ausführen.
Google bietet mit seinem neuen Data Studio ein Webtool an, das verschiedene Datenquellen anbinden kann, um Berichte zu erstellen und Daten zu visualisieren.
Im Fokus von R steht die Analyse von Daten. Dazu werden mithilfe von Operatoren und Funktionen selbstredend auch Berechnungen durchgeführt. In diesem Beitrag geben wir einen ersten Einstieg zu diesem Bereich in R.
DeviceHive ist eine der bekanntesten Lösungen, um internetfähige Geräte in IoT-Umgebungen zentral zu integrieren. Mit der Cloud-basierten Lösung können Smart-Home-Geräte und Sensoren automatisiert werden.
Microsoft hat in Office 365 einige Funktionen integriert, mit denen sich Business-Intelligence-Funktionen umfassend nutzen lassen. Als Datenspeicher lassen sich Cloud-Server, Microsoft Azure, oder lokale Server nutzen.
AWS ist die Cloud-Infrastruktur mit dem größten Marktanteil. Das liegt unter anderem auch daran, dass es in der Cloudplattform umfassende Möglichkeiten zur Analyse von Daten gibt. Wir geben in diesem Beitrag einen Überblick.
Google hat mit Logica eine neue Programmiersprache veröffentlicht, die bei der Datenanalyse und -Verarbeitung ein wertvolles Hilfsmittel ist. Logica steht als Open Source unter der Apache-2-Lizenz zur Verfügung.
Fallen in kurzer Zeit große Datenmengen an, ist eine Datenbank notwendig, die mit großen Datenmengen umgehen kann und gleichzeitig eine hohe Leistung bietet. InfluxDB ist ein Datenbanksystem, das genau für dieses Einsatzgebiet optimiert worden ist.
Zeitreihendatenbanken sind darauf spezialisiert, große Datenmengen, die teilweise in Echtzeit eingehen, schnell speichern zu können. Ideal ist das für Sensordaten und andere Informationen in Internet-of-Things-Infrastrukturen. Der Beitrag gibt einen Überblick über bekannte Datenbanken in diesem Segment.
Apache Calcite ist ein Open-Source-Framework auf Java-Basis für die dynamische Verwaltung von Daten. Das Framework unterstützt Anwendungen bei der Verwendung von verschiedenen Datenquellen. Calcite selbst speichert keine Daten.
Apache Flume erlaubt das umfassende Sammeln von Daten, vor allem im Bereich Streaming-Event-Daten. Die Daten lassen sich in Hadoop Cluster übertragen und auf diesem Weg effizient weiterverarbeiten. Viele Anbieter von Big-Data-Lösungen, darunter Cloudera, unterstützen bereits Flume.
In der Wissenschaft und in der medizinischen Forschung fallen in vielen Bereichen sehr große Datenmengen an. Damit diese Daten effizient gespeichert und analysiert werden können, braucht es geeignete Lösungen.
Apache Phoenix dient als Schnittstelle für relationale Datenbanken auf Basis von HBase. Phoenix kann SQL-Abfragen durchführen und HBase-Tabellen verwalten. Wir zeigen, was die Software kann.
Apache Griffin kann die Datenqualität in Big-Data-Umgebungen verbessern. Das Open Source Tool unterstützt die Batch-Verarbeitung und den Streaming-Modus. Wir geben einen Überblick.
Unternehmen, die eine IoT-Infrastruktur betreiben, zum Beispiel auch bei der Vernetzung von Sensoren, benötigen eine Plattform für die zentrale Verwaltung und Steuerung. Hier ist Azure Sphere eine Möglichkeit. Mit Azure Sphere Security Service kann hier auch für mehr Sicherheit gesorgt werden.
Das Internet der Dinge (Internet of Things, IoT) ist nicht nur eine Chance für produzierende Betriebe, sondern auch für Unternehmen, die auf diese Technologie in den eigenen Niederlassungen setzen
Datenbanken wie Neo4j bieten die für die Modellierungsphase im Vergleich zu relationalen Datenbanken wesentlich mehr Möglichkeiten für die Verarbeitung komplexer, unstrukturierter Daten. Vernetzte Daten lassen sich mit Produkten wie Neo4j besser in Beziehung miteinander setzen und so später effizienter weiterverarbeiten.
Mit der Programmiersprache Go lassen sich kleinere Programme genauso einfach entwickeln wie komplexe Anwendungen. Im Fokus von Go steht die plattformübergreifende Entwicklung.
Bei SMACK handelt es sich um eine Big-Data-Plattform, die Spark, Mesos, Akka, Cassandra und Kafka miteinander kombiniert. Der Vorteil dieser Kombination liegt im Zusammenspiel der verschiedenen Werkzeuge zu einer idealen Analyse. Dabei werden die Stärken der eingesetzten Tools genutzt, die Schwächen durch die anderen Tools ausgeglichen.
Geht es um Big-Data-Analysen, müssen Unternehmen auf leistungsstarke Hardware setzen, die optimal mit der Analyse-Software zusammenarbeitet. Hier gibt es verschiedene Anbieter, mit denen Intel kooperiert.
Mit SAP Cloud for Analytics stellt SAP Software-as-a-Service-Dienste für die Analyse aus der Cloud ihren Kunden als eigenständige Plattform zur Verfügung. Cloud for Analytics basiert auf der SAP HANA und nutzt die entsprechende Cloud-Plattform. Über eine einfach zu bedienende Oberfläche sollen Anwender mit dem SaaS-Dienst effizient Berichte erstellen können.
R-Server für HDInsight ist eine horizontal skalierbare Implementierung von R, die sich direkt in Microsoft Azure HDInsight implementieren lässt. R ist Open Source und wird komplett in der Cloud ausgeführt
IOTA ist eine Kryptowährung, die vor allem für automatisierte Bezahlvorgänge zwischen Maschinen im Internet of Things konzipiert ist. Dadurch werden Bezahlvorgänge einfacher und effektiver. Der Rechenaufwand soll, so die Entwickler, genauso sinken wie die Kosten.
Bei der Verarbeitung von Daten in den Bereichen Big Data und Machine Learning spielt die Leistung eine wesentliche Rolle. Intel unterstützt Entwickler hier mit der kostenlosen Data Analytics Acceleration Library (DAAL).
Unternehmen, die Big Data und Business Intelligence im Unternehmen nutzen wollen, stehen oft vor der Frage, welche Lösungen eingesetzt werden sollen. Hier spielt natürlich auch das Budget eine Rolle. Mit Open Source Tools wie Pentaho und Jedox lassen sich wiederum günstige Lösungen integrieren, die für jeden Einsatzzweck ideal konfiguriert sind.
Apache Arrow ist ein für Big-Data-Umgebungen interessantes Tool zur spaltenbasierten In-Memory-Datenverarbeitung. Wir erklären, warum das Werkzeug für leistungsstarke Analysen prädestiniert ist.
Die Datenmenge, die Unternehmen speichern müssen, steigt immer weiter an. Herkömmliche Dateisysteme wie extX, NTFS oder ReFS sind von der Leistung kaum mehr in der Lage, solche riesigen Datenmengen zu speichern. Wir geben einen Überblick, welche Dateisysteme das besser können.