Suchen
Dipl.-Ing. (FH) Stefan Luber ♥ BigData-Insider

Dipl.-Ing. (FH) Stefan Luber

Stefan Luber arbeitet als freiberuflicher Autor und technischer Redakteur für IT-Fachthemen und deckt als Dipl.-Ing. (FH) der Nachrichtentechnik ein breites Spektrum an IT-Themen ab.

Artikel des Autors

Definition

Was ist Kaggle?

Kaggle ist eine Online-Plattform für den Wissensaustausch und Wettbewerbe rund um die Datenanalyse, Machine Learning (ML), Data Mining und Big Data. Zielgruppe der Plattform sind Datenwissenschaftler sowie Unternehmen und Organisationen aus unterschiedlichsten Branchen. Die Mitglieder entwickeln Modelle, Daten nach bestimmten Vorgaben zu analysieren. Für die besten Lösungen sind in der Regel hohe Geldpreise ausgeschrieben.

Weiterlesen
Definition

Was ist Gensim?

Gensim ist eine Open-Source-basierte Python Library. Sie ermöglicht semantische Textanalysen, Inhaltsmodellierung und semantische Dokumentenvergleiche. Eingesetzt wird die Library beispielsweise für das Natural Language Processing (NLP) oder die computergestützte Suche nach komplexen Inhalten (Information Retrieval – IR). Gensim setzt die Python Packages NumPy and SciPy voraus.

Weiterlesen
Definition

Was ist Datashader?

Datashader stellt eine Pipeline zur automatisieren Erzeugung grafischer Repräsentationen großer Mengen von Daten zur Verfügung. Es handelt sich um eine Open-Source-basierte Python Library. Sie lässt sich standalone oder zusammen mit anderen Libraries wie Bokeh und HoloViews verwenden. Arbeitsaufgaben des Datashaders lassen sich flexibel an mehrere CPUs oder GPUs übertragen. Datashader ist ein Projekt der Anaconda, Inc.

Weiterlesen
Definition

Was ist Pandas?

Pandas – Python Data Analysis Library – ist eine Bibliothek für Python. Sie erfordert NumPy und lässt sich für die Verwaltung und Analyse von Daten einsetzen. Die Bibliothek kann Daten verschiedener Formate einlesen. Es stehen Funktionen für die Datenbereinigung, für das Aggregieren oder für das Transformieren der Daten und für andere Aufgaben zur Verfügung. Ihre Stärken hat die Pandas Library in der Auswertung und der Bearbeitung tabellarischer Daten.

Weiterlesen
Definition

Was ist Apache Airflow?

Apache Airflow ist eine Open-Source-basierte Workflow-Management-Plattform. Workflows lassen sich mit der Software erstellen, verwalten und überwachen. Die Workflows sind mit gerichteten azyklischen Graphen abgebildet. Airflow ist in Python geschrieben und stellt eine grafischen Benutzeroberfläche zur Verfügung. Die Software hat sich als De-facto-Standard für das Workflow-Management etabliert.

Weiterlesen
Definition

Was ist Kubernetes?

Kubernetes ist eine ursprünglich von Google entwickelte Open-Source-Plattform. Sie wird heute von der Cloud Native Computing Foundation betreut und weiterentwickelt. Mit Kubernetes lassen sich Container orchestrieren. Die Plattform ermöglicht das automatisierte Einrichten, Bereitstellen, Betreiben, Skalieren und Warten der Container. Sie ist die Basis für viele Cloud-native Anwendungen, die aus Microservices bestehen.

Weiterlesen
Definition

Was sind SQL Server Reporting Services (SSRS)?

Die SQL Server Reporting Services (SSRS) sind Bestandteil der Microsoft SQL Server Software. Sie erlauben das Generieren, Bereitstellen und Verwalten von Berichten. Viele Aufgaben lassen sich über ein Webinterface erledigen. Mithilfe der Services können klassische paginierte Berichte, Webberichte und mobile Berichte erstellt werden. Die Report-Inhalte sind über die Report Definition Language definiert.

Weiterlesen
Definition

Was ist Geospatial Analytics?

Geospatial Analytics führt Analysen von Daten mit geografischen oder räumlichen Informationen durch. Die Analysen erfolgen meist auf Basis eines Geographic Information Systems (GIS). Für die Analysen müssen Daten erfasst, verwaltet, konvertiert und untersucht werden. Ergebnisse lassen sich beispielsweise in Form von Kartendarstellungen visualisieren.

Weiterlesen
Definition

Was ist Dask?

Dask ist eine Open-Source-basierte Library, mit der sich Rechenaufgaben auf mehrere Rechner verteilen und parallel ausführen lassen. Die Bibliothek ist in Python geschrieben und beispielsweise für das High Performance Computing einsetzbar. Dask wird in der Wissenschaft und im kommerziellen Bereich unter anderem für das Maschinelle Lernen genutzt.

Weiterlesen
Definition

Was ist High Performance Computing (HPC)?

Unter High Performance Computing, HPC, sind Technologien und Verfahren zusammengefasst, mit denen sich komplexe Rechenaufgaben mit hoher Leistung ausführen lassen. Für das Hochleistungsrechnen werden Aufgaben parallelisiert und die Rechenleistung mehrerer Systeme aggregiert. Typische Einsatzbereiche sind Wissenschaft und Forschung, Simulationstechnik, Grafikberechnungen oder Business Intelligence.

Weiterlesen
Definition

Was ist ein Quantum Neural Network?

Ein Quantum Neural Network ist ein Künstliches Neuronales Netzwerk, das auf den Funktionsprinzipien der Quantenmechanik basiert. Es nutzt sogenannte Qubits, die mehrere Zustände gleichzeitig annehmen können und miteinander verschränkt sind. Quantum Neural Networks sollen schneller arbeiten und komplexere Problemstellungen lösen, als dies mit herkömmlichen Neuronalen Netzen möglich ist.

Weiterlesen
Definition

Was ist Augmented Analytics?

Augmented Analytics erweitert und automatisiert die Analysemöglichkeiten von Business-Intelligence-Lösungen durch die Nutzung von Methoden und Algorithmen der Künstlichen Intelligenz (KI) und des Machine Learnings (ML). Per Natural Language Processing (NLP) ist die Interaktion des Nutzers mit der Analysesoftware in natürlicher Sprache möglich.

Weiterlesen
Definition

Was ist ein KPI-Dashboard?

Ein KPI-Dashboard stellt wichtige Leistungskennzahlen eines Unternehmens in visualisierter, leicht verständlicher Form dar. Das Dashboard bietet interaktive Funktionen, lässt sich mit anderen teilen und aktualisiert die Daten bei Bedarf in Echtzeit. Mithilfe eines KPI-Dashboards lässt sich die Zielerreichung verschiedener Unternehmensbereiche messen.

Weiterlesen
Definition

Was ist ein Decision Tree?

Ein Decision Tree ist ein baumartiges, gerichtetes Diagramm zur Entscheidungsfindung. Es besteht aus Wurzel, Knoten, Ästen und Blättern. Die Knoten bilden die entscheidungsabhängigen Verzweigungspunkte. Typischer Einsatzbereich der Decision Trees sind Klassifizierungsaufgaben. Aus vielen einzelnen Decision Trees lassen sich Entscheidungswälder wie der Random Forest bilden.

Weiterlesen
Definition

Was ist Logstash?

Logstash ist eine Open-Source-basierte Software zur Erfassung, Verarbeitung, Transformation und Weiterleitung von Daten. Sie stellt Datenverarbeitungspipelines zur Verfügung und arbeitet mit Plug-ins und Filtern. Zusammen mit Elasticsearch und Kibana bildet Logstash den sogenannten Elastic Stack. Er lässt sich zur Analyse und Visualisierung großer Datenmengen verwenden.

Weiterlesen
Definition

Was ist Elasticsearch?

Elasticsearch ist eine Open-Source-Suchmaschine auf Basis von Apache Lucene. Sie arbeitet mit Indices, die aus JSON-Dokumenten im NoSQL-Format bestehen. Die Suchmaschine arbeitet sehr schnell, ist für die Suche in großen Datenmengen einsetzbar (Big Data) und unterstützt für eine hohe Verfügbarkeit verteilte Architekturen. Zusammen mit Kibana und Logstash bildet Elasticsearch den Elastic Stack.

Weiterlesen
Definition

Was ist Couchbase?

Couchbase ist eine dokumentenorientierte nicht-relationale Datenbank (NoSQL-Datenbank). Sie speichert Informationen in Form von JSON-Dokumenten. Die Couchbase-Lösung umfasst Couchbase Server und Couchbase Mobile. Für das Abfragen und Verändern von Daten steht die Abfragesprache N1QL zur Verfügung, die ähnlich wie SQL für relationale Datenbanken arbeitet.

Weiterlesen
Definition

Was ist ein Data Catalog?

Ein Data Catalog ist ein Service oder ein Tool, das verschiedene Daten-Assets in einem zentralen Metadatenverzeichnis verwaltet. Der Datenkatalog vereinfacht den Zugang zu den Daten. Häufiger Anwendungsbereich sind das Big-Data-Umfeld und Data Warehouses. Der Data Catalog kann auch als Cloud-Service bei verschiedenen Cloud-Providern genutzt werden.

Weiterlesen
Definition

Was ist KNIME?

KNIME ist eine freie Software für die interaktive Analyse großer Datenmengen. Sie lässt sich für das Data Mining einsetzen und verfügt über eine grafische Benutzeroberfläche. Datenanalyseaufgaben werden als Workflows aus einzelnen nacheinander auszuführenden modularen Schritten zusammengesetzt. Für KNIME existieren zahlreiche kommerzielle Erweiterungen und Anwendungen.

Weiterlesen
Definition

Was ist Apache Tez?

Apache Tez ist ein Open-Source-basiertes Framework, das zusammen mit Hadoop für Big-Data-Anwendungen geeignet ist. Es sorgt für eine performante Verarbeitung der Daten und wird häufig als Alternative zu Hadoop MapReduce eingesetzt. Ursprünglich wurde es von Hortonworks entwickelt. Seit 2013 ist es ein Apache-Projekt.

Weiterlesen
Definition

Was ist ein Quantile Random Forest?

Ein Quantile Random Forest ist eine spezielle Form des Random Forests. Er kommt für Klassifizierungs- und Regressionsaufgaben zum Einsatz und wird häufig im Umfeld des Machine Learnings verwendet. Das Besondere am Quantile Random Forest ist, dass Vorhersagen bezüglich verschiedener Quantile möglich werden. Es ist abschätzbar, ob vorhergesagte Werte bestimmte Schwellwerte erreichen.

Weiterlesen
Definition

Was ist Apache Samza?

Apache Samza ist ein Open-Source-basiertes Framework für das Stream Processing. Es wird von der Apache Software Foundation weiterentwickelt und ermöglicht die Verarbeitung von Prozessdaten aus verschiedenen Quellen in nahezu Echtzeit. Unter anderem lassen sich mit Apache Samza statusbehaftete Anwendungen realisieren.

Weiterlesen
Definition

Was sind Rohdaten?

Rohdaten sind ungeprüfte und unbearbeitete Daten, wie sie von einer Datenquelle geliefert werden. Sie liegen in dem Format vor, wie es von der jeweiligen Datenquelle bereitgestellt wird. Für gewöhnlich werden die Rohdaten zur Nutzung in weiteren Anwendungen oder Prozessen mithilfe verschiedener Techniken und Methoden aufbereitet.

Weiterlesen
Definition

Was ist eine User Defined Function?

Eine User Defined Function (UDF) ist eine vom Anwender selbst erstellte Funktion. Verschiedene Programmierumgebungen und Datenbankmanagementsysteme erlauben die Definition und Nutzung von User Defined Functions. Die Funktionen müssen der Syntax der zugrundeliegenden Programmierumgebung entsprechen. Häufig werden UDFs beispielsweise in SQL-Datenbankumgebungen genutzt.

Weiterlesen
Definition

Was ist ein Deepfake?

Der Begriff Deepfake steht für das Fälschen oder Ändern von Video- oder Audioinhalten mithilfe Künstlicher Intelligenz (KI). Es kommen künstliche neuronale Netzwerke und Verfahren des maschinellen Lernens zum Einsatz, um beispielsweise Gesichter in Videosequenzen durch Gesichter anderer Personen zu ersetzen. Einige Deepfake-Methoden funktionieren in Echtzeit.

Weiterlesen
Definition

Was ist das ARIMA-Modell?

Das ARIMA-Modell ermöglicht die Beschreibung und Analyse von Zeitreihen. Es handelt sich um eine leistungsstarke Modellklasse, die den autoregressiven Teil und den gleitenden Mittelwertbeitrag des ARMA-Modells um die Differenzierung und Integration zur Trendbeseitigung und Herstellung der Stationarität erweitert.

Weiterlesen
Definition

Was ist CIFAR-10?

CIFAR-10 ist ein Datensatz, der aus 60.000 kleinen Einzelbildern besteht. Die farbigen Bilder haben jeweils eine Größe von 32 x 32 Pixel und sind in zehn verschiedene Klassen eingeteilt. Der Datensatz kommt zum Trainieren und Testen von Algorithmen des maschinellen Lernens und der Bildverarbeitung zum Einsatz. Neben CIFAR-10 existiert mit CIFAR-100 ein Datensatz mit 100 verschiedenen Klassen.

Weiterlesen
Definition

Was ist Random Forest?

Random Forest ist ein Algorithmus, der sich für Klassifizierungs- und Regressionsaufgaben nutzen lässt. Er kombiniert die Ergebnisse vieler verschiedener Entscheidungsbäume, um bestmögliche Entscheidungen zu treffen. Der Lernalgorithmus gehört zu den Verfahren des überwachten Lernens und ist im Machine Learning einsetzbar. Das Verfahren ist relativ einfach und bietet kurze Trainingszeiten.

Weiterlesen
Definition

Was ist Cypher?

Cypher ist eine Abfragesprache mit deklarativem Charakter für Property-Graphdatenbanken. Sie ermöglicht, komplexe Abfragen einfach zu formulieren und besitzt eine übersichtliche Syntax. Cypher stellt eine wichtige Quelle zur Entwicklung des neuen Standards einer Graph Query Language (GQL) dar. GQL soll, wie es SQL bereits für relationale Datenbanken ist, eine universelle Abfragesprache für Property-Graphdatenbanken werden.

Weiterlesen
Definition

Was ist Kibana?

Kibana ist eine Open-Source-Analyse- und -Visualisierungsplattform. Sie bildet zusammen mit Elasticsearch und Logstash den Elastic-Stack und ermöglicht die Visualisierung der per Elasticsearch erhobenen Daten. Kibana beherrscht die klassischen Visualisierungsformen wie Histogramme, Liniendiagramme oder Kreisdiagramme und erlaubt die Darstellung von Zeitreihen oder geografischen Daten.

Weiterlesen
Definition

Was ist TPOT?

TPOT ist ein Open Source Tool für automatisiertes maschinelles Lernen (AutoML). Aufgabe des Tools ist es, optimale Machine Learning Pipelines für die jeweilige Aufgabenstellung des maschinellen Lernens zu finden. Hierfür verwendet TPOT die sogenannte genetische Programmierung. Das Tool basiert auf der scikit-learn-Bibliothek.

Weiterlesen
Definition

Was ist Apache TinkerPop?

Apache TinkerPop ist ein Open Source Framework für das Graph Computing. Es ermöglicht die Online-Transaktionsverarbeitung der Daten in Graphdatenbanken und graphbasierten Analysesystemen. Zur Datenabfrage der Graphen kommt die Sprache Gremlin zum Einsatz. TinkerPop stellt ein komplettes Ecosystem für das Graph Computing zur Verfügung.

Weiterlesen
Definition

Was ist Pseudonymisierung?

Die Pseudonymisierung ersetzt Identifikationsmerkmale wie etwa Namen mit anderen Kennzeichen wie Schlüsseln oder Pseudonymen. Dadurch wird die eindeutige Feststellung der Identität einer Person im pseudonymisierten Datensatz zwar verhindert, doch ist der Vorgang grundsätzlich umkehrbar, da die ursprüngliche Zuordnungsvorschrift in einer externen Datensammlung erhalten bleibt.

Weiterlesen
Definition

Was ist Anonymisierung?

Die Anonymisierung verhindert, dass sich Daten bestimmten Personen zuordnen lassen. Hierfür entfernt, ersetzt, aggregiert oder verfälscht der Vorgang des Anonymisierens personenbezogene Daten oder personenbeziehbare Daten. Für vollständig anonymisierte Daten gelten bestimmte Vorgaben der DSGVO nicht. Zwischen Anonymisierung und Pseudonymisierung bestehen deutliche Unterschiede.

Weiterlesen
Definition

Was ist Complex Event Processing?

Complex Event Processing verarbeitet verschiedene Ereignisströme in nahezu Echtzeit. Um neues Wissen aus den voneinander abhängigen Events zu generieren und mit diesem Wissen beispielsweise Geschäftsprozesse zu steuern, werden die Events erfasst, gruppiert, analysiert und Abhängigkeiten extrahiert.

Weiterlesen
Definition

Was ist Behavioral Analytics?

Behavioral Analytics ist ein Teilbereich der Business Analytics und wertet das Verhalten der User digitaler Plattformen wie Onlineshops oder Social Media Sites systematisch aus. Ziel ist es, das Userverhalten besser zu verstehen und vorherzusagen, um die Plattformen hinsichtlich besserer Produkte und mehr Erfolg zu optimieren. Grundlage der Auswertungen bilden große gesammelte Datenmengen.

Weiterlesen
Definition

Was ist Customer Experience?

Die Customer Experience ist die Summe aller Erfahrungen, die ein Kunde mit einem Unternehmen oder einer Marke macht. Sie umfasst die subjektive Bewertung der Erlebnisse des Kunden an den verschiedenen Kontaktpunkten (Touchpoints) während einer Customer Journey. Das Customer Experience Management versucht, die Kundenerlebnisse im Sinne positiver Erfahrungen zu beeinflussen.

Weiterlesen
Definition

Was ist automatisiertes Machine Learning (AutoML)?

Automatisiertes Machine Learning, AutoML, vereinfacht das maschinelle Lernen durch Automatisierung verschiedener Machine-Learning-Prozesse. Je nach Komplexität und Umfang der Aufgabe lassen sich einzelne Schritte oder der komplette Prozess automatisieren. Ziel ist es, auch Anwendern ohne spezifische Programmierkenntnisse und Machine Learning Know-how die Problemlösungsmöglichkeiten des maschinellen Lernens zu eröffnen.

Weiterlesen
Definition

Was sind gepulste neuronale Netze?

Ein gepulstes neuronales Netz, engl. Spiking Neural Network, ist eine besondere Form eines künstlichen neuronalen Netzes, das hinsichtlich Abläufe und Aufbau der Funktionsweise eines echten biologischen Gehirns sehr nahekommt. Es wird auch als neuronales Netz der dritten Generation bezeichnet. Gepulste neuronale Netze berücksichtigen die zeitlichen Komponenten der Neuronen-Impulse.

Weiterlesen
Definition

Was ist Amazon SageMaker?

Amazon SageMaker ist ein voll verwalteter Cloud-Service von Amazon, der im Rahmen der Amazon Web Services (AWS) verfügbar ist. Mithilfe des Dienstes lassen sich Machine-Learning-Modelle schneller und einfacher erstellen, trainieren und für produktive Zwecke bereitstellen. Genutzt wird Amazon SageMaker beispielsweise von Datenwissenschaftlern oder Entwicklern.

Weiterlesen