Suchen
Dipl.-Ing. (FH) Stefan Luber ♥ BigData-Insider

Dipl.-Ing. (FH) Stefan Luber

Stefan Luber arbeitet als freiberuflicher Autor und technischer Redakteur für IT-Fachthemen und deckt als Dipl.-Ing. (FH) der Nachrichtentechnik ein breites Spektrum an IT-Themen ab.

Artikel des Autors

Definition

Was ist Apache Tez?

Apache Tez ist ein Open-Source-basiertes Framework, das zusammen mit Hadoop für Big-Data-Anwendungen geeignet ist. Es sorgt für eine performante Verarbeitung der Daten und wird häufig als Alternative zu Hadoop MapReduce eingesetzt. Ursprünglich wurde es von Hortonworks entwickelt. Seit 2013 ist es ein Apache-Projekt.

Weiterlesen
Definition

Was ist ein Quantile Random Forest?

Ein Quantile Random Forest ist eine spezielle Form des Random Forests. Er kommt für Klassifizierungs- und Regressionsaufgaben zum Einsatz und wird häufig im Umfeld des Machine Learnings verwendet. Das Besondere am Quantile Random Forest ist, dass Vorhersagen bezüglich verschiedener Quantile möglich werden. Es ist abschätzbar, ob vorhergesagte Werte bestimmte Schwellwerte erreichen.

Weiterlesen
Definition

Was ist Apache Samza?

Apache Samza ist ein Open-Source-basiertes Framework für das Stream Processing. Es wird von der Apache Software Foundation weiterentwickelt und ermöglicht die Verarbeitung von Prozessdaten aus verschiedenen Quellen in nahezu Echtzeit. Unter anderem lassen sich mit Apache Samza statusbehaftete Anwendungen realisieren.

Weiterlesen
Definition

Was sind Rohdaten?

Rohdaten sind ungeprüfte und unbearbeitete Daten, wie sie von einer Datenquelle geliefert werden. Sie liegen in dem Format vor, wie es von der jeweiligen Datenquelle bereitgestellt wird. Für gewöhnlich werden die Rohdaten zur Nutzung in weiteren Anwendungen oder Prozessen mithilfe verschiedener Techniken und Methoden aufbereitet.

Weiterlesen
Definition

Was ist eine User Defined Function?

Eine User Defined Function (UDF) ist eine vom Anwender selbst erstellte Funktion. Verschiedene Programmierumgebungen und Datenbankmanagementsysteme erlauben die Definition und Nutzung von User Defined Functions. Die Funktionen müssen der Syntax der zugrundeliegenden Programmierumgebung entsprechen. Häufig werden UDFs beispielsweise in SQL-Datenbankumgebungen genutzt.

Weiterlesen
Definition

Was ist ein Deepfake?

Der Begriff Deepfake steht für das Fälschen oder Ändern von Video- oder Audioinhalten mithilfe Künstlicher Intelligenz (KI). Es kommen künstliche neuronale Netzwerke und Verfahren des maschinellen Lernens zum Einsatz, um beispielsweise Gesichter in Videosequenzen durch Gesichter anderer Personen zu ersetzen. Einige Deepfake-Methoden funktionieren in Echtzeit.

Weiterlesen
Definition

Was ist das ARIMA-Modell?

Das ARIMA-Modell ermöglicht die Beschreibung und Analyse von Zeitreihen. Es handelt sich um eine leistungsstarke Modellklasse, die den autoregressiven Teil und den gleitenden Mittelwertbeitrag des ARMA-Modells um die Differenzierung und Integration zur Trendbeseitigung und Herstellung der Stationarität erweitert.

Weiterlesen
Definition

Was ist CIFAR-10?

CIFAR-10 ist ein Datensatz, der aus 60.000 kleinen Einzelbildern besteht. Die farbigen Bilder haben jeweils eine Größe von 32 x 32 Pixel und sind in zehn verschiedene Klassen eingeteilt. Der Datensatz kommt zum Trainieren und Testen von Algorithmen des maschinellen Lernens und der Bildverarbeitung zum Einsatz. Neben CIFAR-10 existiert mit CIFAR-100 ein Datensatz mit 100 verschiedenen Klassen.

Weiterlesen
Definition

Was ist Random Forest?

Random Forest ist ein Algorithmus, der sich für Klassifizierungs- und Regressionsaufgaben nutzen lässt. Er kombiniert die Ergebnisse vieler verschiedener Entscheidungsbäume, um bestmögliche Entscheidungen zu treffen. Der Lernalgorithmus gehört zu den Verfahren des überwachten Lernens und ist im Machine Learning einsetzbar. Das Verfahren ist relativ einfach und bietet kurze Trainingszeiten.

Weiterlesen
Definition

Was ist Cypher?

Cypher ist eine Abfragesprache mit deklarativem Charakter für Property-Graphdatenbanken. Sie ermöglicht, komplexe Abfragen einfach zu formulieren und besitzt eine übersichtliche Syntax. Cypher stellt eine wichtige Quelle zur Entwicklung des neuen Standards einer Graph Query Language (GQL) dar. GQL soll, wie es SQL bereits für relationale Datenbanken ist, eine universelle Abfragesprache für Property-Graphdatenbanken werden.

Weiterlesen
Definition

Was ist Kibana?

Kibana ist eine Open-Source-Analyse- und -Visualisierungsplattform. Sie bildet zusammen mit Elasticsearch und Logstash den Elastic-Stack und ermöglicht die Visualisierung der per Elasticsearch erhobenen Daten. Kibana beherrscht die klassischen Visualisierungsformen wie Histogramme, Liniendiagramme oder Kreisdiagramme und erlaubt die Darstellung von Zeitreihen oder geografischen Daten.

Weiterlesen
Definition

Was ist TPOT?

TPOT ist ein Open Source Tool für automatisiertes maschinelles Lernen (AutoML). Aufgabe des Tools ist es, optimale Machine Learning Pipelines für die jeweilige Aufgabenstellung des maschinellen Lernens zu finden. Hierfür verwendet TPOT die sogenannte genetische Programmierung. Das Tool basiert auf der scikit-learn-Bibliothek.

Weiterlesen
Definition

Was ist Apache TinkerPop?

Apache TinkerPop ist ein Open Source Framework für das Graph Computing. Es ermöglicht die Online-Transaktionsverarbeitung der Daten in Graphdatenbanken und graphbasierten Analysesystemen. Zur Datenabfrage der Graphen kommt die Sprache Gremlin zum Einsatz. TinkerPop stellt ein komplettes Ecosystem für das Graph Computing zur Verfügung.

Weiterlesen
Definition

Was ist Pseudonymisierung?

Die Pseudonymisierung ersetzt Identifikationsmerkmale wie etwa Namen mit anderen Kennzeichen wie Schlüsseln oder Pseudonymen. Dadurch wird die eindeutige Feststellung der Identität einer Person im pseudonymisierten Datensatz zwar verhindert, doch ist der Vorgang grundsätzlich umkehrbar, da die ursprüngliche Zuordnungsvorschrift in einer externen Datensammlung erhalten bleibt.

Weiterlesen
Definition

Was ist Anonymisierung?

Die Anonymisierung verhindert, dass sich Daten bestimmten Personen zuordnen lassen. Hierfür entfernt, ersetzt, aggregiert oder verfälscht der Vorgang des Anonymisierens personenbezogene Daten oder personenbeziehbare Daten. Für vollständig anonymisierte Daten gelten bestimmte Vorgaben der DSGVO nicht. Zwischen Anonymisierung und Pseudonymisierung bestehen deutliche Unterschiede.

Weiterlesen
Definition

Was ist Complex Event Processing?

Complex Event Processing verarbeitet verschiedene Ereignisströme in nahezu Echtzeit. Um neues Wissen aus den voneinander abhängigen Events zu generieren und mit diesem Wissen beispielsweise Geschäftsprozesse zu steuern, werden die Events erfasst, gruppiert, analysiert und Abhängigkeiten extrahiert.

Weiterlesen
Definition

Was ist Behavioral Analytics?

Behavioral Analytics ist ein Teilbereich der Business Analytics und wertet das Verhalten der User digitaler Plattformen wie Onlineshops oder Social Media Sites systematisch aus. Ziel ist es, das Userverhalten besser zu verstehen und vorherzusagen, um die Plattformen hinsichtlich besserer Produkte und mehr Erfolg zu optimieren. Grundlage der Auswertungen bilden große gesammelte Datenmengen.

Weiterlesen
Definition

Was ist Customer Experience?

Die Customer Experience ist die Summe aller Erfahrungen, die ein Kunde mit einem Unternehmen oder einer Marke macht. Sie umfasst die subjektive Bewertung der Erlebnisse des Kunden an den verschiedenen Kontaktpunkten (Touchpoints) während einer Customer Journey. Das Customer Experience Management versucht, die Kundenerlebnisse im Sinne positiver Erfahrungen zu beeinflussen.

Weiterlesen
Definition

Was ist automatisiertes Machine Learning (AutoML)?

Automatisiertes Machine Learning, AutoML, vereinfacht das maschinelle Lernen durch Automatisierung verschiedener Machine-Learning-Prozesse. Je nach Komplexität und Umfang der Aufgabe lassen sich einzelne Schritte oder der komplette Prozess automatisieren. Ziel ist es, auch Anwendern ohne spezifische Programmierkenntnisse und Machine Learning Know-how die Problemlösungsmöglichkeiten des maschinellen Lernens zu eröffnen.

Weiterlesen
Definition

Was sind gepulste neuronale Netze?

Ein gepulstes neuronales Netz, engl. Spiking Neural Network, ist eine besondere Form eines künstlichen neuronalen Netzes, das hinsichtlich Abläufe und Aufbau der Funktionsweise eines echten biologischen Gehirns sehr nahekommt. Es wird auch als neuronales Netz der dritten Generation bezeichnet. Gepulste neuronale Netze berücksichtigen die zeitlichen Komponenten der Neuronen-Impulse.

Weiterlesen
Definition

Was ist Amazon SageMaker?

Amazon SageMaker ist ein voll verwalteter Cloud-Service von Amazon, der im Rahmen der Amazon Web Services (AWS) verfügbar ist. Mithilfe des Dienstes lassen sich Machine-Learning-Modelle schneller und einfacher erstellen, trainieren und für produktive Zwecke bereitstellen. Genutzt wird Amazon SageMaker beispielsweise von Datenwissenschaftlern oder Entwicklern.

Weiterlesen
Definition

Was ist ein Datenarchitekt?

Ein Datenarchitekt verantwortet das Design und den Aufbau einer ganzheitlichen Datenarchitektur. Die Arbeit des Datenarchitekten ist im Vergleich zu den praktisch tätigen Datenbankadministratoren oder Dateningenieuren eher konzeptionell und strategisch. Im Umfeld der Data Governance hat der Datenarchitekt eine Schlüsselposition inne.

Weiterlesen
Definition

Was ist ein KPI (Key Performance Indicator)?

Ein Key Performance Indicator, kurz KPI, ist eine aussagekräftige Kennzahl, mit der sich die Leistung einer Aktivität einer Organisation oder eines Unternehmens messen lässt. Es existieren viele verschiedene KPIs für unterschiedlichen Unternehmensbereiche und Tätigkeiten. Die leicht verständlichen Leistungsindikatoren können zur kontinuierlichen Überprüfung der Zielerreichung eingesetzt werden.

Weiterlesen
Definition

Was ist ein Data Steward?

Neben dem Data Owner hat der Data Steward eine Schlüsselposition in der Umsetzung der Data Governance inne. Er ist verantwortlich für die Einhaltung der Datenqualität und setzt die strategischen Vorgaben der Data Governance fachlich um. Innerhalb des Unternehmens agiert er als Ansprechpartner für die verschiedenen Fachabteilungen bei Fragen oder Problemen zur Datenqualität.

Weiterlesen
Definition

Was ist Machine Vision?

Machine Vision nutzt Hard- und Software zur Bilderfassung und Bildverarbeitung und kommt in der Automatisierung industrieller Fertigungsprozesse zum Einsatz. Mithilfe von Machine Vision lassen sich Prozesse steuern und überwachen oder Qualitäts- und Maßhaltigkeitsprüfungen durchführen. Oft wird Machine Vision von Verfahren Künstlicher Intelligenz wie maschinellem Lernen unterstützt.

Weiterlesen
Definition

Was ist 5G?

5G ist die Mobilfunk- und Netzwerktechnik der fünften Generation und Nachfolgestandard von Long Term Evolution (LTE). Die Technik nutzt ein breites Frequenzspektrum, bietet hohe Datenraten von zehn Gigabit pro Sekunde und mehr und hat Latenzzeiten von unter einer Millisekunde. 5G stellt wichtige technische Voraussetzungen zur Digitalisierung der Gesellschaft zur Verfügung.

Weiterlesen
Definition

Was ist Neural Architecture Search (NAS)?

Neural Architecture Search (NAS) ist eine Methode zur automatisierten Entwicklung einer optimalen Architektur künstlicher neuronaler Netzwerke für eine vorgegebene Problemstellung. NAS macht das aufwendige manuelle Design künstlicher neuronaler Netzwerke überflüssig und ist ein Teilbereich des automatisierten Machine Learnings (AutoML).

Weiterlesen
Definition

Was ist Validierung?

Datenvalidierung prüft Daten auf Einhaltung bestimmter Validierungsregeln. Diese wurden zuvor aufgestellt und beinhalten beispielsweise Vorgaben zu Wertebereichen oder Formaten. Die Datenvalidierung verbessert die Ergebnisse der Datenverarbeitung und Datenanalyse. Sie kann bei der Eingabe der Daten, direkt vor dem Start oder während der Datenverarbeitung stattfinden.

Weiterlesen
Definition

Was ist Robotic Process Automation (RPA)?

Robotic Process Automation, kurz RPA, ist aus der klassischen Prozessautomatisierung entstanden. RPA nutzt Methoden der Künstlichen Intelligenz, um mithilfe von Softwarerobotern Aufgaben, die zuvor von Menschen ausgeführt wurden, automatisiert zu erledigen. Ein typischer Anwendungsbereich von RPA ist die Automatisierung von Softwaretests.

Weiterlesen
Definition

Was ist Apache Mahout?

Apache Mahout ist ein frei verfügbares Framework für verteilt arbeitende Algorithmen der linearen Algebra. Es ist für Anwendungen im Big-Data-Umfeld einsetzbar und unter anderem für statistische Berechnungen nutzbar. Das Framework arbeitet mit Apache Hadoop und anderen Plattformen für verteiltes Computing und Data Processing wie Apache Spark, H2O oder Apache Flink zusammen.

Weiterlesen
Definition

Was ist eine Support Vector Machine?

Die Support Vector Machine (SVM) ist eine mathematische Methode, die im Umfeld des maschinellen Lernens zum Einsatz kommt. Sie gestattet das Klassifizieren von Objekten und ist vielfältig nutzbar. Unterstützt werden die lineare und die nicht-lineare Objektklassifizierung. Typische Anwendungsbereiche sind die Bild-, Text- oder Handschrifterkennung.

Weiterlesen
Definition

Was ist eine IT-Strategie?

Die IT-Strategie macht Vorgaben über die zukünftige Entwicklung der Informationstechnik (IT) und IT-Infrastruktur eines Unternehmens. Sie folgt immer der Unternehmensstrategie und ist eine zentrale Komponente des IT-Managements. Ziel der Strategie ist es, durch das Management der IT und die Definition der Rahmenbedingungen die langfristigen Unternehmensziele zu erreichen.

Weiterlesen
Definition

Was ist ASUM-DM?

Analytics Solutions Unified Method for Data Mining/Predictive Analytics (ASUM-DM) ist ein von IBM entwickeltes Standard-Prozessmodell, das für Data Mining und Predictive Analytics einsetzbar ist. Es stellt eine Überarbeitung und Erweiterung des Cross Industry Standard Process for Data Mining (CRISP-DM) dar. ASUM-DM besteht aus fünf Phasen und einem Projekt-Management-Stream.

Weiterlesen
Definition

Was ist ein Dateneigner?

Dateneigner sind für einen bestimmten Teil von Unternehmensdaten verantwortlich. Sie haben die komplette Kontrolle über die Daten und stellen beispielsweise deren Qualität und deren Schutz sicher. In der Qualitätssicherung werden sie von Data Stewards unterstützt. Zur Ausübung der Aufgaben muss der Dateneigner von der Geschäftsführung mit entsprechenden Kompetenzen ausgestattet sein.

Weiterlesen
Definition

Was ist Bestärkendes Lernen?

Bestärkendes Lernen, auch Reinforcement Learning, ist neben Überwachtem Lernen und Unüberwachtem Lernen eine der drei grundsätzlichen Lernmethoden des Machine Learnings. Das Bestärkende Lernen benötigt kein vorheriges Datenmaterial, sondern generiert Lösungen und Strategien auf Basis von erhaltenen Belohnungen im Trial-and-Error-Verfahren.

Weiterlesen
Definition

Was ist Eye Tracking?

Das Eye Tracking erfasst die Augenbewegungen und Blickrichtungen von Probanden. Die Daten werden ausgewertet und beispielsweise in Form von Heatmaps oder Gazeplots dargestellt. Zur Erfassung der Augenbewegungen kommen mobile Eye-Tracker oder extern installierte Geräte zum Einsatz. Typische Anwendungsbereiche sind Usability-Tests von Software oder Webseiten.

Weiterlesen
Definition

Was ist Julia?

Julia ist eine General-Purpose-Programmiersprache mit wissenschaftlicher Ausrichtung. Sie eignet sich für allgemeine Programmieraufgaben, hat ihre Stärken aber bei numerischen Berechnungen und der Verarbeitung großer Datenmengen in hoher Geschwindigkeit.

Weiterlesen
Definition

Was ist Stream Processing?

Stream Processing ist ein alternativer Ansatz zum Batch Processing. Daten werden nicht erst zwischengespeichert, sondern direkt nach ihrer Entstehung oder ihrem Empfang in nahezu Echtzeit kontinuierlich verarbeitet und analysiert. Stream Processing kommt beispielsweise im Big-Data-Umfeld oder in digitalisierten Prozessen der Industrie 4.0 zum Einsatz.

Weiterlesen
Definition

Was ist MTConnect?

MTConnect ist ein standardisiertes, offenes Protokoll zur Erfassung von Maschinendaten. Es arbeitet unidirektional und basiert auf XML. Das Protokoll hat auf dem nordamerikanischen Markt eine große Verbreitung. Es lässt sich im Umfeld der Industrie 4.0 für das Monitoring von Maschinen, Leistungsanalysen, vorausschauende Wartung und Vieles mehr einsetzen.

Weiterlesen
Definition

Was ist ein Manufacturing Execution System?

Ein Manufacturing Execution System (MES) ist ein System im operativen Produktionsmanagement und unterstützt Aufgaben wie Produktionsplanung und -steuerung. Das MES stellt ein digitales Abbild der Produktion zur Verfügung und ermöglicht die Überwachung der Produktionsprozesse in Echtzeit. Es ist ein wichtiger Bestandteil der digitalen Transformation.

Weiterlesen