Dipl.-Ing. (FH) Stefan Luber ♥ BigData-Insider

Dipl.-Ing. (FH) Stefan Luber

Stefan Luber arbeitet als freiberuflicher Autor und technischer Redakteur für IT-Fachthemen und deckt als Dipl.-Ing. (FH) der Nachrichtentechnik ein breites Spektrum an IT-Themen ab.

Artikel des Autors

Definition

Was ist OMA LWM2M?

OMA LWM2M steht für das Open-Source-Protokoll Lightweight M2M der Open Mobile Alliance. Es ist ein Gerätemanagementprotokoll für Machine-to-Machine-Umgebungen und Sensornetzwerke. Das Protokoll basiert auf dem Client-Server-Prinzip und ist speziell für Geräte mit geringer Rechenleistung und geringem Energiebedarf konzipiert. Neben der Remote-Konfiguration unterstützt das Protokoll die Geräteüberwachung und Firmwareupdates.

Weiterlesen
Definition

Was ist Amazon Comprehend?

Amazon Comprehend ist ein im Rahmen der Amazon Web Services erbrachter voll verwalteter NLP-Service (Natural Language Processing Service). Mithilfe des Services lassen sich Einblicke in Texte gewinnen und Bedeutungen oder Beziehungen erkennen. Er basiert auf einem trainierten Modell des maschinellen Lernens und ermöglicht beispielsweise Schlüsselbegriff-Extraktionen, Stimmungsanalysen oder die Erkennung von Entitäten.

Weiterlesen
Definition

Was ist Amazon Augmented AI?

Amazon Augmented AI ist ein im Rahmen der Amazon Web Services erbrachter und von Amazon gemanagter Service, mit dem sich Vorhersagen von Machine-Learning-Modellen von Menschen prüfen und verifizieren lassen. Der Service erlaubt das Erstellen der hierfür benötigten Workflows und macht Eigenentwicklungen überflüssig. Die Abrechnung der Leistungen erfolgt nutzungsabhängig.

Weiterlesen
Definition

Was ist Grafana?

Grafana ist eine Open Source Software, mit der sich Daten in dynamischen, interaktiven Dashboards visualisieren lassen. Die Software ist mit vielen Datenquellen kompatibel und kommt häufig für Monitoring-Aufgaben und die Visualisierung von Messdaten beziehungsweise zur Alarmierung zum Einsatz. Grafana arbeitet mit zahlreichen Zeitreihen-Datenbanken wie InfluxDB, Prometheus oder Graphite zusammen und unterstützt zudem relationale Datenbanken.

Weiterlesen
Definition

Was ist der Generative Pretrained Transformer 3 (GPT-3)?

Der Generative Pretrained Transformer 3 (GPT-3) ist ein Sprachmodell, das auf einem per Deep Learning trainierten Künstlichen Neuronalen Netz (KNN) basiert. Es ist der Nachfolger von GPT-2 und in der Lage, selbstständig Texte zu verfassen, Fragen zu beantworten, Dialoge zu führen oder Programmcode zu erstellen. Entwickelt hat GPT-3 die von Elon Musk gegründete US-Organisation OpenAI.

Weiterlesen
Definition

Was ist Presto?

Presto eignet sich für SQL-Abfragen großer Datenmengen mit niedrigen Latenzzeiten. Es handelt sich um eine verteilte SQL-Abfrage-Engine auf Open-Source-Basis, die ursprünglich von Facebook entwickelt wurde. Die Engine arbeitet mit unterschiedlichen Datenquellen wie dem Hadoop Distributed File System, MySQL, Amazon S3, PostgreSQL, Apache Cassandra, Microsoft SQL Server, MongoDB und vielen anderen zusammen.

Weiterlesen
Definition

Was ist Apache Hudi?

Apache Hudi ist ein Data Lake Framework, mit dem sich Datensätze in verteilten Dateisystemen wie dem Hadoop Distributed File System (HDFS) oder in Cloud Stores effizient verwalten lassen. Es kommt im Big-Data-Umfeld zum Einsatz und eignet sich für das Erstellen und Verwalten von Data Lakes im Petabyte-Bereich. Hudi ermöglicht ein streambasiertes Lesen und Schreiben der Daten. Die Software ist frei verfügbar und steht unter Apache-2.0-Lizenz.

Weiterlesen
Definition

Was ist Amazon Kendra?

Amazon Kendra ist ein auf Machine Learning und Künstlicher Intelligenz basierender Suchservice von Amazon. Er ist für Unternehmen gedacht und erlaubt die Formulierung der Suchanfragen in natürlichen Sätzen. Kunden benötigen für die Nutzung des Suchdienstes keine eigenen Server. Die Anbindung der Datenquellen an den Suchindex von Kendra erfolgt über Konnektoren. Kendra unterstützt zahlreiche AWS-interne und externe Datensysteme.

Weiterlesen
Definition

Was ist Ray?

Ray ist ein auf Open Source Software basierendes Framework, mit dem sich Python-Code und Python-Anwendungen auf verteilten Computing-Architekturen ausführen lassen. Das Framework verteilt die auszuführenden Befehle auf die verschiedenen Rechner und verwaltet die Prozesse. Ray erlaubt das Erstellen hoch skalierbarer Anwendungen und kommt beispielsweise im Machine-Learning-Umfeld zum Einsatz.

Weiterlesen
Definition

Was ist Jupyter?

Das Jupyter-Projekt ist eine nicht gewinnorientierte Initiative mit der Zielsetzung, Open Source Software und offene Standards für interaktives Arbeiten zu entwickeln und bereitzustellen. Eines der bekanntesten Produkte des Projekts ist Jupyter Notebook. Es handelt sich um eine Client-Server-Anwendung für das Erstellen und Teilen interaktiver Arbeitsblätter. Weitere Produkte sind JupyterLab, JupyterHub und Voilà.

Weiterlesen
Definition

Was ist ein Generative Adversarial Network (GAN)?

Ein Generative Adversarial Network, kurz GAN, ist ein Machine-Learning-Modell, das in der Lage ist, Daten zu generieren. Es besteht aus zwei konkurrierenden Künstlichen Neuronalen Netzwerken (KNN). Eines hat die Aufgabe, echt wirkende Daten zu erzeugen, das andere klassifiziert die Daten als echt oder künstlich. Durch ständiges Lernen und viele Iterationsschritte werden die generierten Daten immer besser. Typischer Einsatzbereich ist das Erstellen echt wirkender künstlicher Bilder.

Weiterlesen
Definition

Was ist ein Capsule Neural Network?

Das Capsule Neural Network ist eine Klasse Künstlicher Neuronaler Netzwerke (KNN). Es ergänzt das Convolutional Neural Network (CNN) mit sogenannten Kapseln. Zwischen diesen Kapseln lassen sich Informationen vektorgerichtet dynamisch routen. Vorteil dieses Konzepts ist es, dass in Anwendungen wie etwa der Bilderkennung bessere Ergebnisse erzielbar sind. Das Lernverhalten ist dem menschlichen Erkennen von Objekten ähnlicher.

Weiterlesen
Definition

Was ist Voilà?

Voilà wurde entwickelt, um Jupyter Notebooks in Standalone-Webapplikationen zu konvertieren. Aus einem Jupyter Notebook lassen sich beispielsweise Slideshows oder interaktive Dashboards erzeugen. Die Voilà-Webapplikationen vereinfachen das Teilen mit nicht-technischen Zielgruppen und verhindern, dass Anwender beliebigen Code ausführen. Voilà ist ein Unterprojekt des Jupyter-Projekts. Die Voilà Gallery stellt ist eine Sammlung von frei zugänglichen Beispielen zur Verfügung.

Weiterlesen
Definition

Was ist Prefect?

Prefect ist eine Plattform zur Automatisierung und zur Verwaltung von Dataflows und Workflows. Es besteht aus der Open-Source-basierten Workflow Engine Prefect Core und der Cloud-basierten Orchestrierungsplattform Prefect Cloud. Prefect untergliedert Workflows in einzelne Tasks. Tasks lassen sich mithilfe von Python-Funktionen beschreiben. Die Kombination von Prefect Core und Prefect Cloud erlaubt hybrides Workflow-Management.

Weiterlesen
Definition

Was ist Flask?

Flask ist ein schlankes Mikro-Webframework zum Programmieren von Webanwendungen mit Python. Es wurde von dem österreichischen Open-Source-Entwickler Armin Ronacher entworfen. Das Framework ist als Bibliothek für Python installierbar und verfolgt einen minimalistischen Ansatz. Es benötigt das WSGI-Toolkit „Werkzeug“ und die Template-Engine „Jinja“. Die Software steht unter BSD-Lizenz und ist frei verfügbar.

Weiterlesen
Definition

Was ist VIGRA (Vision with Generic Algorithms)?

VIGRA ist eine Bibliothek für die Programmiersprache C++, die sich für Aufgaben der Bildverarbeitung und Bildanalyse einsetzen lässt. Sie wurde von Ullrich Köthe entwickelt und stellt für eigene Zwecke einfach anpassbare Algorithmen und Datenstrukturen zur Verfügung. Für die Programmiersprache Python existiert mittlerweile ebenfalls eine VIGRA-Schnittstelle. Die Bibliothek steht unter MIT-Open-Source-Lizenz und ist im Netz frei verfügbar.

Weiterlesen
Definition

Was ist Waikato Environment for Knowledge Analysis (WEKA)?

Waikato Environment for Knowledge Analysis ist eine unter Open-Source-Lizenz stehende freie Datenverarbeitungssoftware. Sie wurde an der neuseeländischen University of Waikato entwickelt und lässt sich für Data Mining und Maschinelles Lernen (ML) einsetzen. Die Software ist in Java programmiert, plattformunabhängig einsetzbar und verfügt über eine grafische Benutzeroberfläche.

Weiterlesen
Definition

Was ist Docker?

Docker ist eine unter Apache 2.0 Lizenz stehende, frei verfügbare Software zur Containervirtualisierung. Mithilfe der Docker-Engine lassen sich Anwendungen inklusive ihrer Anwendungsumgebung parallel und untereinander isoliert auf einem Host-System bereitstellen. Die Software ist für Betriebssysteme wie Linux, Windows und macOS verfügbar. Im Gegensatz zu virtuellen Maschinen benötigen Docker-Container keine Virtualisierung des Betriebssystems.

Weiterlesen
Definition

Was ist SSIS (SQL Server Integration Services)?

Bei den SQL Server Integration Services handelt es sich um eine Software von Microsoft für SQL Server. Sie besteht aus verschiedenen Komponenten und Tools und lässt sich für das Extrahieren, Transformieren und Laden von Daten (ETL-Prozesse) verwenden. Typischer Anwendungsbereich sind Aufgaben im Business-Intelligence-Umfeld, beispielsweise zum Erstellen eines Data Warehouses.

Weiterlesen
Definition

Was ist HoloViews?

HoloViews ist eine Open-Source-basierte Bibliothek für die Programmiersprache Python. Sie ist für Datenanalysen und das gleichzeitige Visualisieren der Daten vorgesehen. Interaktive Diagramme unterschiedlichsten Typs lassen sich mit relativ wenig Programmcode erstellen. HoloViews erfordert die Libraries NumPy and Param und arbeitet mit anderen Bibliotheken wie Datashader, Bokeh oder Matplotlib zusammen.

Weiterlesen
Definition

Was ist Vaex?

Vaex ist eine Python-Bibliothek, die große, in Tabellenform vorliegende Datenmengen performant verarbeitet und visualisiert. Dank des Out-of-Core-Konzepts der Library lassen sich die Daten unabhängig von der Größe des verfügbaren Arbeitsspeichers des Rechners verarbeiten. In Teilen ist Vaex mit dem Pandas API kompatibel und kann als Pandas-Ersatz genutzt werden.

Weiterlesen
Definition

Was ist ein Geografisches Informationssystem?

Ein Geografisches Informationssystem (GIS) ist ein System zur Erfassung, Bearbeitung, Auswertung und Präsentation von Daten mit geografischen oder räumlichen Informationen. Zum System zählen die Hard- und Software, die Daten und alle benötigten Tools. Typische Anwendungen dieser Systeme sind in der Meteorologie, angewandten Geologie, Stadtplanung und Logistik oder im Marketing und Katastrophenmanagement zu finden.

Weiterlesen
Definition

Was ist Modin?

Modin ist eine Python Library, mit der sich Pandas-Workflows beschleunigen lassen. Die Library ist mit der Pandas-API kompatibel und stellt auf mehreren CPUs parallel prozessierbare Data Frames zur Verfügung. Um Modin zu nutzen, genügt eine einzige Zeile Programmcode, die den Pandas-Import durch den Modin-Import ersetzt. Modin verwendet für die Parallelisierung der Arbeit Dask oder Ray.

Weiterlesen
Definition

Was ist Stemming?

Stemming ist ein Verfahren, das verschiedene Varianten eines Worts auf seine Stammform zurückführt. Es kommt in der linguistischen Informatik zum Einsatz und wird beispielsweise von Suchmaschinen oder im Natural Language Processing verwendet. Es existieren verschiedene Verfahren und Algorithmen für das Stemming. Das lexikonbasierte Stemming wird auch als Lemmatisierung bezeichnet.

Weiterlesen
Definition

Was ist spaCy?

spaCy ist eine Bibliothek für die Programmiersprache Python. Sie steht unter MIT-Open-Source-Lizenz und ist für das Natural Language Processing einsetzbar. Mithilfe der Library lässt sich Text computerbasiert analysieren und verstehen. spaCy ist für zahlreiche Sprachen verfügbar. Die Library verwendet zur Analyse der Texte Techniken wie Tokenisierung, Part-of-speech (POS) Tagging, Lemmatisierung und Einiges mehr.

Weiterlesen
Definition

Was ist ein ADAS (Advanced Driver Assistance System)?

Ein Advanced Driver Assistance System (ADAS) unterstützt den Fahrer beim Führen eines Fahrzeugs. Je nach System kann es für mehr Komfort, mehr Sicherheit oder für effizienteres Fahren sorgen. Fahrerassistenzsysteme sind in der Lage, verschiedene Aufgaben des Fahrens oder Bedienens zu übernehmen bis hin zum vollständigen autonomen Fahren. Technisch nutzt ein ADAS Sensoren zur Erfassung von Informationen und Informationstechnik zu deren Verarbeitung.

Weiterlesen
Definition

Was ist Argo?

Das Argo-Projekt stellt Open Source Tools für das Kubernetes-Ökosystem bereit. Mit Argo Workflows bietet das Projekt eine Container-native Workflow Engine. Sie ermöglicht es, Workflows zu definieren, in denen die verschiedenen Arbeitsschritte aus einzelnen Containern bestehen. Abhängigkeiten lassen sich über gerichtete azyklische Graphen (DAG) abbilden. Weitere Tools des Projekts sind Argo CD, Argo Rollouts und Argo Events.

Weiterlesen
Definition

Was ist Data Science?

Data Science ist eine angewandte, interdisziplinäre Wissenschaft. Ziel der Datenwissenschaft ist es, Wissen aus Daten zu generieren, um beispielsweise die Unternehmenssteuerung zu optimieren oder die Entscheidungsfindung zu unterstützen. Es kommen Methoden und Wissen aus verschiedenen Bereichen wie Mathematik, Statistik, Stochastik, Informatik und Branchen-Know-how zum Einsatz.

Weiterlesen
Definition

Was ist Luigi?

Luigi ist der Name eines Software-Pakets und -Tools für die Programmiersprache Python. Mit Luigi lassen sich Workflows verwalten, die aus aufeinander folgenden Aufgaben bestehen. Die Aufgaben sind in Pipelines miteinander verknüpft. Luigi bildet die Abhängigkeiten der Jobs ab, führt das Fehler-Handling durch und visualisiert Pipelines mithilfe einer grafischen Web-Oberfläche.

Weiterlesen
Definition

Was ist SSAS (SQL Server Analysis Services)?

SQL Server Analysis Services ist ein multidimensionales Online Analytical Processing und Data Mining Tool von Microsoft. Es ist seit der Microsoft SQL Server Version 2000 Bestandteil der SQL Server Software. SSAS kommt im Umfeld der Business Intelligence und des Berichtswesens zum Einsatz und erlaubt umfassende Datenanalysen. Das Tool nutzt das Unified Dimensional Model (UDM).

Weiterlesen
Definition

Was ist Digitalisierung?

Digitalisierung bezeichnet im ursprünglichen Sinn das Umwandeln von analogen Werten in digitale Formate. Diese Daten lassen sich informationstechnisch verarbeiten. Oft steht der Begriff Digitalisierung aber auch für die digitale Revolution oder die digitale Transformation.

Weiterlesen
Definition

Was ist das Internet of Things?

Im Internet der Dinge (Englisch: Internet of Things, IoT) bekommen Gegenstände eine eindeutige Identität und können miteinander kommunizieren oder Befehle entgegennehmen. Mit dem Internet of Things lassen sich Anwendungen automatisieren und Aufgaben ohne Eingriff von außen erledigen.

Weiterlesen
Definition

Was ist Machine Learning?

Machine Learning, im Deutschen maschinelles Lernen, ist ein Teilgebiet der künstlichen Intelligenz. Durch das Erkennen von Mustern in vorliegenden Datenbeständen sind IT-Systeme in der Lage, eigenständig Lösungen für Probleme zu finden.

Weiterlesen
Definition

Was ist Natural Language Processing?

Die Abkürzung NLP steht für Natural Language Processing und beschreibt Techniken und Methoden zur maschinellen Verarbeitung natürlicher Sprache. Ziel ist eine direkte Kommunikation zwischen Mensch und Computer auf Basis der natürlichen Sprache.

Weiterlesen
Definition

Was ist SAP BW?

SAP BW ist ein Business-Intelligence-Paket von SAP und ermöglicht umfangreiche Auswertungen und Reports auf Basis von unterschiedlichsten Unternehmensdaten. Es besteht aus einer Kombination von Datenbanken, Datenbankmanagement-Tools sowie Analyse und Reporting-Anwendungen.

Weiterlesen
Definition

Was ist ein Cyber-physisches System (CPS)?

In einem Cyber-physischen System (cyber-physical system, CPS) sind mechanische Komponenten über Netzwerke und moderne Informationstechnik miteinander verbunden. Sie ermöglichen die Steuerung und die Kontrolle von komplexen Systemen und Infrastrukturen. Für die Industrie 4.0 spielen Cyber-physische Systeme eine zentrale Rolle.

Weiterlesen
Definition

Was ist ein Neuronales Netz?

Künstliche Neuronale Netze (KNN) sind inspiriert durch das menschliche Gehirn und lassen sich für maschinelles Lernen und die Künstliche Intelligenz einsetzen. Es lassen sich mit diesen Netzen verschiedene Problemstellungen computerbasiert lösen.

Weiterlesen
Definition

Was ist CRISP-DM?

CRISP-DM (Cross Industry Standard Process for Data Mining) ist ein von der EU gefördertes, branchenübergreifendes Standardmodell für das Data Mining. Es wurde 1996 unter Mitarbeit zahlreicher namhafter Konzerne entwickelt und definiert insgesamt sechs verschiedene Prozessphasen. CRISP-DM ist anwendungsneutral und in beliebigen Bereichen einsetzbar.

Weiterlesen
Definition

Was ist ein Data Warehouse?

Das Data Warehouse stellt ein zentrales Datenbanksystem dar, das zu Analysezwecken im Unternehmen einsetzbar ist. Das System extrahiert, sammelt und sichert relevante Daten aus verschiedenen heterogenen Datenquellen und versorgt nachgelagerte Systeme.

Weiterlesen
Definition

Was ist Validierung?

Datenvalidierung prüft Daten auf Einhaltung bestimmter Validierungsregeln. Diese wurden zuvor aufgestellt und beinhalten beispielsweise Vorgaben zu Wertebereichen oder Formaten. Die Datenvalidierung verbessert die Ergebnisse der Datenverarbeitung und Datenanalyse. Sie kann bei der Eingabe der Daten, direkt vor dem Start oder während der Datenverarbeitung stattfinden.

Weiterlesen
Definition

Was ist eine relationale Datenbank?

Relationale Datenbanken ist das am weitesten verbreitete Datenbankmodell. Es setzt auf das relationale Datenbankmodell, das auf der Speicherung von Informationen in verschiedenen Tabellen basiert, die untereinander über Beziehungen (Relationen) verknüpft sind.

Weiterlesen
Definition

Was ist Data Mining?

Data Mining ist die systematische Anwendung computergestützter Methoden, um in vorhandenen Datenbeständen Muster, Trends oder Zusammenhänge zu finden. Zur Wissensentdeckung eingesetzte Algorithmen basieren unter anderem auf statistischen Methoden.

Weiterlesen
Definition

Was ist Deep Learning?

Deep Learning ist ein Teilbereich des Machine Learnings und nutzt neuronale Netze sowie große Datenmengen. Die Lernmethoden richten sich nach der Funktionsweise des menschlichen Gehirns und resultieren in der Fähigkeit eigener Prognosen oder Entscheidungen.

Weiterlesen
Definition

Was ist eine Entität?

Eine Entität in der Informatik ist ein einzelnes, eindeutig identifizierbares Informationsobjekt. Es kann sich sowohl um existierende als auch um abstrakte Objekte handeln. Entitäten sind zusammen mit den Entitätstypen und Attributen sowie den Beziehungen zwischen den Entitäten wesentliche Elemente der Datenmodellierung.

Weiterlesen
Definition

Was ist NoSQL?

NoSQL steht für „Not only SQL“ und bezeichnet Datenbanksysteme, die einen nicht-relationalen Ansatz verfolgen. Diese Datenbanken, denen verschiedene Datenbankmodelle zugrunde liegen können, sind horizontal skalierbar und lassen sich für Big-Data-Anwendungen einsetzen.

Weiterlesen
Definition

Was ist Hadoop?

Bei Hadoop handelt es sich um ein auf Java basierendes Software Framework. Mit ihm lassen sich große Datenmengen auf verteilten Systemen in hoher Geschwindigkeit verarbeiten. Es ist zur Bewältigung der Datenverarbeitung im Big-Data-Umfeld geeignet.

Weiterlesen
Definition

Was ist ein Data Lake?

Beim Data Lake handelt es sich um einen sehr großen Datenspeicher, der die Daten aus den unterschiedlichsten Quellen in ihrem Rohformat aufnimmt. Er kann sowohl unstrukturierte als auch strukturierte Daten enthalten und lässt sich für Big-Data-Analysen einsetzen.

Weiterlesen
Definition

Was ist ein Chatbot?

Bei einem Chatbot handelt es sich um ein technisches Dialogsystem, mit dem per Texteingabe oder Sprache kommuniziert werden kann. Chatbots werden häufig eingesetzt, um Anfragen automatisiert und ohne direkten menschlichen Eingriff zu beantworten oder zu bearbeiten.

Weiterlesen
Definition

Was ist ein Datenbankmanagementsystem?

Das Datenbankmanagementsystem, abgekürzt DBMS, ist neben den eigentlichen Daten der wichtigste Bestandteil einer jeden Datenbank. Es übernimmt die Aufgabe der Organisation und Strukturierung der Daten. Gleichzeitig kontrolliert es lesende und schreibende Zugriffe.

Weiterlesen
Definition

Was ist ACID?

Der Begriff ACID (Atomicity, Consistency, Isolation, Durability) beschreibt Regeln und Eigenschaften zur Durchführung von Transaktionen in Datenbankmanagementsystemen (DBMS). Hält die Transaktion das ACID-Prinzip ein, gelten die Informationen in den Datenbanksystemen als verlässlich und konsistent.

Weiterlesen