Dipl.-Ing. (FH) Stefan Luber ♥ BigData-Insider

Dipl.-Ing. (FH) Stefan Luber

Stefan Luber arbeitet als freiberuflicher Autor und technischer Redakteur für IT-Fachthemen und deckt als Dipl.-Ing. (FH) der Nachrichtentechnik ein breites Spektrum an IT-Themen ab.

Artikel des Autors

Definition

Was ist Jupyter?

Das Jupyter-Projekt ist eine nicht gewinnorientierte Initiative mit der Zielsetzung, Open Source Software und offene Standards für interaktives Arbeiten zu entwickeln und bereitzustellen. Eines der bekanntesten Produkte des Projekts ist Jupyter Notebook. Es handelt sich um eine Client-Server-Anwendung für das Erstellen und Teilen interaktiver Arbeitsblätter. Weitere Produkte sind JupyterLab, JupyterHub und Voilà.

Weiterlesen
Definition

Was ist ein Generative Adversarial Network (GAN)?

Ein Generative Adversarial Network, kurz GAN, ist ein Machine-Learning-Modell, das in der Lage ist, Daten zu generieren. Es besteht aus zwei konkurrierenden Künstlichen Neuronalen Netzwerken (KNN). Eines hat die Aufgabe, echt wirkende Daten zu erzeugen, das andere klassifiziert die Daten als echt oder künstlich. Durch ständiges Lernen und viele Iterationsschritte werden die generierten Daten immer besser. Typischer Einsatzbereich ist das Erstellen echt wirkender künstlicher Bilder.

Weiterlesen
Definition

Was ist ein Capsule Neural Network?

Das Capsule Neural Network ist eine Klasse Künstlicher Neuronaler Netzwerke (KNN). Es ergänzt das Convolutional Neural Network (CNN) mit sogenannten Kapseln. Zwischen diesen Kapseln lassen sich Informationen vektorgerichtet dynamisch routen. Vorteil dieses Konzepts ist es, dass in Anwendungen wie etwa der Bilderkennung bessere Ergebnisse erzielbar sind. Das Lernverhalten ist dem menschlichen Erkennen von Objekten ähnlicher.

Weiterlesen
Definition

Was ist Voilà?

Voilà wurde entwickelt, um Jupyter Notebooks in Standalone-Webapplikationen zu konvertieren. Aus einem Jupyter Notebook lassen sich beispielsweise Slideshows oder interaktive Dashboards erzeugen. Die Voilà-Webapplikationen vereinfachen das Teilen mit nicht-technischen Zielgruppen und verhindern, dass Anwender beliebigen Code ausführen. Voilà ist ein Unterprojekt des Jupyter-Projekts. Die Voilà Gallery stellt ist eine Sammlung von frei zugänglichen Beispielen zur Verfügung.

Weiterlesen
Definition

Was ist Prefect?

Prefect ist eine Plattform zur Automatisierung und zur Verwaltung von Dataflows und Workflows. Es besteht aus der Open-Source-basierten Workflow Engine Prefect Core und der Cloud-basierten Orchestrierungsplattform Prefect Cloud. Prefect untergliedert Workflows in einzelne Tasks. Tasks lassen sich mithilfe von Python-Funktionen beschreiben. Die Kombination von Prefect Core und Prefect Cloud erlaubt hybrides Workflow-Management.

Weiterlesen
Definition

Was ist Flask?

Flask ist ein schlankes Mikro-Webframework zum Programmieren von Webanwendungen mit Python. Es wurde von dem österreichischen Open-Source-Entwickler Armin Ronacher entworfen. Das Framework ist als Bibliothek für Python installierbar und verfolgt einen minimalistischen Ansatz. Es benötigt das WSGI-Toolkit „Werkzeug“ und die Template-Engine „Jinja“. Die Software steht unter BSD-Lizenz und ist frei verfügbar.

Weiterlesen
Definition

Was ist VIGRA (Vision with Generic Algorithms)?

VIGRA ist eine Bibliothek für die Programmiersprache C++, die sich für Aufgaben der Bildverarbeitung und Bildanalyse einsetzen lässt. Sie wurde von Ullrich Köthe entwickelt und stellt für eigene Zwecke einfach anpassbare Algorithmen und Datenstrukturen zur Verfügung. Für die Programmiersprache Python existiert mittlerweile ebenfalls eine VIGRA-Schnittstelle. Die Bibliothek steht unter MIT-Open-Source-Lizenz und ist im Netz frei verfügbar.

Weiterlesen
Definition

Was ist Waikato Environment for Knowledge Analysis (WEKA)?

Waikato Environment for Knowledge Analysis ist eine unter Open-Source-Lizenz stehende freie Datenverarbeitungssoftware. Sie wurde an der neuseeländischen University of Waikato entwickelt und lässt sich für Data Mining und Maschinelles Lernen (ML) einsetzen. Die Software ist in Java programmiert, plattformunabhängig einsetzbar und verfügt über eine grafische Benutzeroberfläche.

Weiterlesen
Definition

Was ist Docker?

Docker ist eine unter Apache 2.0 Lizenz stehende, frei verfügbare Software zur Containervirtualisierung. Mithilfe der Docker-Engine lassen sich Anwendungen inklusive ihrer Anwendungsumgebung parallel und untereinander isoliert auf einem Host-System bereitstellen. Die Software ist für Betriebssysteme wie Linux, Windows und macOS verfügbar. Im Gegensatz zu virtuellen Maschinen benötigen Docker-Container keine Virtualisierung des Betriebssystems.

Weiterlesen
Definition

Was ist SSIS (SQL Server Integration Services)?

Bei den SQL Server Integration Services handelt es sich um eine Software von Microsoft für SQL Server. Sie besteht aus verschiedenen Komponenten und Tools und lässt sich für das Extrahieren, Transformieren und Laden von Daten (ETL-Prozesse) verwenden. Typischer Anwendungsbereich sind Aufgaben im Business-Intelligence-Umfeld, beispielsweise zum Erstellen eines Data Warehouses.

Weiterlesen
Definition

Was ist HoloViews?

HoloViews ist eine Open-Source-basierte Bibliothek für die Programmiersprache Python. Sie ist für Datenanalysen und das gleichzeitige Visualisieren der Daten vorgesehen. Interaktive Diagramme unterschiedlichsten Typs lassen sich mit relativ wenig Programmcode erstellen. HoloViews erfordert die Libraries NumPy and Param und arbeitet mit anderen Bibliotheken wie Datashader, Bokeh oder Matplotlib zusammen.

Weiterlesen
Definition

Was ist Vaex?

Vaex ist eine Python-Bibliothek, die große, in Tabellenform vorliegende Datenmengen performant verarbeitet und visualisiert. Dank des Out-of-Core-Konzepts der Library lassen sich die Daten unabhängig von der Größe des verfügbaren Arbeitsspeichers des Rechners verarbeiten. In Teilen ist Vaex mit dem Pandas API kompatibel und kann als Pandas-Ersatz genutzt werden.

Weiterlesen
Definition

Was ist ein Geografisches Informationssystem?

Ein Geografisches Informationssystem (GIS) ist ein System zur Erfassung, Bearbeitung, Auswertung und Präsentation von Daten mit geografischen oder räumlichen Informationen. Zum System zählen die Hard- und Software, die Daten und alle benötigten Tools. Typische Anwendungen dieser Systeme sind in der Meteorologie, angewandten Geologie, Stadtplanung und Logistik oder im Marketing und Katastrophenmanagement zu finden.

Weiterlesen
Definition

Was ist Modin?

Modin ist eine Python Library, mit der sich Pandas-Workflows beschleunigen lassen. Die Library ist mit der Pandas-API kompatibel und stellt auf mehreren CPUs parallel prozessierbare Data Frames zur Verfügung. Um Modin zu nutzen, genügt eine einzige Zeile Programmcode, die den Pandas-Import durch den Modin-Import ersetzt. Modin verwendet für die Parallelisierung der Arbeit Dask oder Ray.

Weiterlesen
Definition

Was ist Stemming?

Stemming ist ein Verfahren, das verschiedene Varianten eines Worts auf seine Stammform zurückführt. Es kommt in der linguistischen Informatik zum Einsatz und wird beispielsweise von Suchmaschinen oder im Natural Language Processing verwendet. Es existieren verschiedene Verfahren und Algorithmen für das Stemming. Das lexikonbasierte Stemming wird auch als Lemmatisierung bezeichnet.

Weiterlesen
Definition

Was ist spaCy?

spaCy ist eine Bibliothek für die Programmiersprache Python. Sie steht unter MIT-Open-Source-Lizenz und ist für das Natural Language Processing einsetzbar. Mithilfe der Library lässt sich Text computerbasiert analysieren und verstehen. spaCy ist für zahlreiche Sprachen verfügbar. Die Library verwendet zur Analyse der Texte Techniken wie Tokenisierung, Part-of-speech (POS) Tagging, Lemmatisierung und Einiges mehr.

Weiterlesen
Definition

Was ist ein ADAS (Advanced Driver Assistance System)?

Ein Advanced Driver Assistance System (ADAS) unterstützt den Fahrer beim Führen eines Fahrzeugs. Je nach System kann es für mehr Komfort, mehr Sicherheit oder für effizienteres Fahren sorgen. Fahrerassistenzsysteme sind in der Lage, verschiedene Aufgaben des Fahrens oder Bedienens zu übernehmen bis hin zum vollständigen autonomen Fahren. Technisch nutzt ein ADAS Sensoren zur Erfassung von Informationen und Informationstechnik zu deren Verarbeitung.

Weiterlesen
Definition

Was ist Argo?

Das Argo-Projekt stellt Open Source Tools für das Kubernetes-Ökosystem bereit. Mit Argo Workflows bietet das Projekt eine Container-native Workflow Engine. Sie ermöglicht es, Workflows zu definieren, in denen die verschiedenen Arbeitsschritte aus einzelnen Containern bestehen. Abhängigkeiten lassen sich über gerichtete azyklische Graphen (DAG) abbilden. Weitere Tools des Projekts sind Argo CD, Argo Rollouts und Argo Events.

Weiterlesen
Definition

Was ist Data Science?

Data Science ist eine angewandte, interdisziplinäre Wissenschaft. Ziel der Datenwissenschaft ist es, Wissen aus Daten zu generieren, um beispielsweise die Unternehmenssteuerung zu optimieren oder die Entscheidungsfindung zu unterstützen. Es kommen Methoden und Wissen aus verschiedenen Bereichen wie Mathematik, Statistik, Stochastik, Informatik und Branchen-Know-how zum Einsatz.

Weiterlesen
Definition

Was ist Luigi?

Luigi ist der Name eines Software-Pakets und -Tools für die Programmiersprache Python. Mit Luigi lassen sich Workflows verwalten, die aus aufeinander folgenden Aufgaben bestehen. Die Aufgaben sind in Pipelines miteinander verknüpft. Luigi bildet die Abhängigkeiten der Jobs ab, führt das Fehler-Handling durch und visualisiert Pipelines mithilfe einer grafischen Web-Oberfläche.

Weiterlesen
Definition

Was ist SSAS (SQL Server Analysis Services)?

SQL Server Analysis Services ist ein multidimensionales Online Analytical Processing und Data Mining Tool von Microsoft. Es ist seit der Microsoft SQL Server Version 2000 Bestandteil der SQL Server Software. SSAS kommt im Umfeld der Business Intelligence und des Berichtswesens zum Einsatz und erlaubt umfassende Datenanalysen. Das Tool nutzt das Unified Dimensional Model (UDM).

Weiterlesen
Definition

Was ist Seaborn?

Seaborn ist eine frei verfügbare Bibliothek für die Programmiersprache Python. Mit der Library lassen sich Daten visualisieren. Die Bibliothek baut auf der Library Matplotlib auf und benötigt weitere Libraries wie NumPy, SciPy und Pandas. Seaborn lässt sich einsetzen, um Daten in anschauliche Grafiken und Diagramme zu verwandeln. Es werden verschiedene Diagrammtypen, Maps und Plots unterstützt.

Weiterlesen
Definition

Was ist ein Fuzzy Quantum Neural Network?

Das Fuzzy Quantum Neural Network ist eine Variante des Quantum Neural Networks (QNN) und versucht die Gesetze der Quantenphysik mithilfe der Unschärfe der Fuzzy-Logik abzubilden. Es handelt sich um ein von der Quantenphysik inspiriertes Neuronales Netzwerk, das die Fähigkeiten der Künstlichen Intelligenz weiter verbessert. Im Gegensatz zu anderen QNN-Varianten arbeitet es nicht mit Quantenbits beziehungsweise mit Quantenneuronen.

Weiterlesen
Definition

Was ist Streamlit?

Streamlit ist eine Bibliothek und ein Framework für Python. Streamlit lässt sich zum Erstellen von Web-Apps und zur Visualisierung oder Analyse von Daten einsetzen. Datenwissenschaftler können mit einfachen Python-Skripten interaktive Web-Apps mit grafischer Benutzeroberfläche und anschaulicher Datenvisualisierung erstellen und über das Web der Allgemeinheit zur Verfügung stellen.

Weiterlesen
Definition

Was ist ein Quron?

Der Begriff Quron setzt sich aus den beiden Wörtern „Quantenbit“ und „Neuron“ zusammen. Es handelt sich um ein Neuron, das auf den Prinzipien der Quantenphysik basiert. Wie ein Qubit kann das Quron beliebige Zwischenzustände zwischen 0 und 1 oder aktiv und nicht aktiv annehmen. Erst beim Auslesen der Information legt es sich für einen konkreten Zustand fest. Aus Qurons lassen sich Quantum Neural Networks aufbauen.

Weiterlesen
Definition

Was ist ein Qubit?

Das Qubit ist die kleinste Rechen- und Informationseinheit eines Quantencomputers. Es basiert auf den Gesetzen der Quantenmechanik. Im Gegensatz zu einem herkömmlichen Bit kann es mehrere Zustände gleichzeitig annehmen. Erst bei der Messung legt es sich für einen konkreten Zustand fest. Quantencomputer erzielen schon mit wenigen Qubits große Rechenleistungen.

Weiterlesen
Definition

Was ist Shiny?

Shiny ist eine Software und ein Framework für die Programmiersprache R. Mit Shiny lassen sich interaktive grafische Darstellungen und Webapplikationen realisieren, ohne dass tiefere HTML-, CSS- oder JavaScript-Kenntnisse notwendig sind. Die grafische Darstellung der interaktiven Elemente erfolgt über den Webbrowser. Für das Deployment von Webapplikationen ist ein Shiny Server notwendig.

Weiterlesen
Definition

Was ist Bokeh?

Bokeh ist eine frei verfügbare Bibliothek für die Programmiersprache Python. Sie erlaubt es, interaktive Visualisierungen großer Datenmengen zu erstellen. Die Bokeh Visualization Library nutzt Webbrowser zur Darstellung der generierten Visualisierungen und wird als Projekt von NumFOCUS gesponsert.

Weiterlesen
Definition

Was ist SAP HANA Studio?

SAP HANA Studio ist eine Eclipse-basierte Anwendung für die In-Memory-Datenbank SAP HANA. Sie stellt eine Vielzahl an Funktionen bereit und dient sowohl als Entwicklungsumgebung als auch als zentrale Administrationsoberfläche für SAP HANA. Die Software eignet sich für Clients mit verschiedenen Betriebssystemen wie Windows, Linux oder macOS.

Weiterlesen
Definition

Was ist AIOps?

Artificial Intelligence for IT Operations (AIOps) verwendet Künstliche Intelligenz (KI), Maschinelles Lernen (ML) und Big Data zur Überwachung, Optimierung und Automatisierung des IT-Betriebs. Die von den verschiedenen Geräten und IT-Systemen gelieferten Daten werden mithilfe Künstlicher Intelligenz analysiert, um Probleme oder Anomalien zu erkennen und passend darauf zu reagieren.

Weiterlesen
Definition

Was ist Digitalisierung?

Digitalisierung bezeichnet im ursprünglichen Sinn das Umwandeln von analogen Werten in digitale Formate. Diese Daten lassen sich informationstechnisch verarbeiten. Oft steht der Begriff Digitalisierung aber auch für die digitale Revolution oder die digitale Transformation.

Weiterlesen
Definition

Was ist das Internet of Things?

Im Internet der Dinge (Englisch: Internet of Things, IoT) bekommen Gegenstände eine eindeutige Identität und können miteinander kommunizieren oder Befehle entgegennehmen. Mit dem Internet of Things lassen sich Anwendungen automatisieren und Aufgaben ohne Eingriff von außen erledigen.

Weiterlesen
Definition

Was ist Machine Learning?

Machine Learning, im Deutschen maschinelles Lernen, ist ein Teilgebiet der künstlichen Intelligenz. Durch das Erkennen von Mustern in vorliegenden Datenbeständen sind IT-Systeme in der Lage, eigenständig Lösungen für Probleme zu finden.

Weiterlesen
Definition

Was ist SAP BW?

SAP BW ist ein Business-Intelligence-Paket von SAP und ermöglicht umfangreiche Auswertungen und Reports auf Basis von unterschiedlichsten Unternehmensdaten. Es besteht aus einer Kombination von Datenbanken, Datenbankmanagement-Tools sowie Analyse und Reporting-Anwendungen.

Weiterlesen
Definition

Was ist Natural Language Processing?

Die Abkürzung NLP steht für Natural Language Processing und beschreibt Techniken und Methoden zur maschinellen Verarbeitung natürlicher Sprache. Ziel ist eine direkte Kommunikation zwischen Mensch und Computer auf Basis der natürlichen Sprache.

Weiterlesen
Definition

Was ist ein Cyber-physisches System (CPS)?

In einem Cyber-physischen System (cyber-physical system, CPS) sind mechanische Komponenten über Netzwerke und moderne Informationstechnik miteinander verbunden. Sie ermöglichen die Steuerung und die Kontrolle von komplexen Systemen und Infrastrukturen. Für die Industrie 4.0 spielen Cyber-physische Systeme eine zentrale Rolle.

Weiterlesen
Definition

Was ist ein Data Warehouse?

Das Data Warehouse stellt ein zentrales Datenbanksystem dar, das zu Analysezwecken im Unternehmen einsetzbar ist. Das System extrahiert, sammelt und sichert relevante Daten aus verschiedenen heterogenen Datenquellen und versorgt nachgelagerte Systeme.

Weiterlesen
Definition

Was ist ein Neuronales Netz?

Künstliche Neuronale Netze (KNN) sind inspiriert durch das menschliche Gehirn und lassen sich für maschinelles Lernen und die Künstliche Intelligenz einsetzen. Es lassen sich mit diesen Netzen verschiedene Problemstellungen computerbasiert lösen.

Weiterlesen
Definition

Was ist Data Mining?

Data Mining ist die systematische Anwendung computergestützter Methoden, um in vorhandenen Datenbeständen Muster, Trends oder Zusammenhänge zu finden. Zur Wissensentdeckung eingesetzte Algorithmen basieren unter anderem auf statistischen Methoden.

Weiterlesen
Definition

Was ist CRISP-DM?

CRISP-DM (Cross Industry Standard Process for Data Mining) ist ein von der EU gefördertes, branchenübergreifendes Standardmodell für das Data Mining. Es wurde 1996 unter Mitarbeit zahlreicher namhafter Konzerne entwickelt und definiert insgesamt sechs verschiedene Prozessphasen. CRISP-DM ist anwendungsneutral und in beliebigen Bereichen einsetzbar.

Weiterlesen
Definition

Was ist Validierung?

Datenvalidierung prüft Daten auf Einhaltung bestimmter Validierungsregeln. Diese wurden zuvor aufgestellt und beinhalten beispielsweise Vorgaben zu Wertebereichen oder Formaten. Die Datenvalidierung verbessert die Ergebnisse der Datenverarbeitung und Datenanalyse. Sie kann bei der Eingabe der Daten, direkt vor dem Start oder während der Datenverarbeitung stattfinden.

Weiterlesen
Definition

Was ist Deep Learning?

Deep Learning ist ein Teilbereich des Machine Learnings und nutzt neuronale Netze sowie große Datenmengen. Die Lernmethoden richten sich nach der Funktionsweise des menschlichen Gehirns und resultieren in der Fähigkeit eigener Prognosen oder Entscheidungen.

Weiterlesen
Definition

Was ist eine relationale Datenbank?

Relationale Datenbanken ist das am weitesten verbreitete Datenbankmodell. Es setzt auf das relationale Datenbankmodell, das auf der Speicherung von Informationen in verschiedenen Tabellen basiert, die untereinander über Beziehungen (Relationen) verknüpft sind.

Weiterlesen
Definition

Was ist Hadoop?

Bei Hadoop handelt es sich um ein auf Java basierendes Software Framework. Mit ihm lassen sich große Datenmengen auf verteilten Systemen in hoher Geschwindigkeit verarbeiten. Es ist zur Bewältigung der Datenverarbeitung im Big-Data-Umfeld geeignet.

Weiterlesen
Definition

Was ist eine Entität?

Eine Entität in der Informatik ist ein einzelnes, eindeutig identifizierbares Informationsobjekt. Es kann sich sowohl um existierende als auch um abstrakte Objekte handeln. Entitäten sind zusammen mit den Entitätstypen und Attributen sowie den Beziehungen zwischen den Entitäten wesentliche Elemente der Datenmodellierung.

Weiterlesen
Definition

Was ist NoSQL?

NoSQL steht für „Not only SQL“ und bezeichnet Datenbanksysteme, die einen nicht-relationalen Ansatz verfolgen. Diese Datenbanken, denen verschiedene Datenbankmodelle zugrunde liegen können, sind horizontal skalierbar und lassen sich für Big-Data-Anwendungen einsetzen.

Weiterlesen
Definition

Was ist ACID?

Der Begriff ACID (Atomicity, Consistency, Isolation, Durability) beschreibt Regeln und Eigenschaften zur Durchführung von Transaktionen in Datenbankmanagementsystemen (DBMS). Hält die Transaktion das ACID-Prinzip ein, gelten die Informationen in den Datenbanksystemen als verlässlich und konsistent.

Weiterlesen
Definition

Was ist ein Datenbankmanagementsystem?

Das Datenbankmanagementsystem, abgekürzt DBMS, ist neben den eigentlichen Daten der wichtigste Bestandteil einer jeden Datenbank. Es übernimmt die Aufgabe der Organisation und Strukturierung der Daten. Gleichzeitig kontrolliert es lesende und schreibende Zugriffe.

Weiterlesen
Definition

Was ist ein Data Lake?

Beim Data Lake handelt es sich um einen sehr großen Datenspeicher, der die Daten aus den unterschiedlichsten Quellen in ihrem Rohformat aufnimmt. Er kann sowohl unstrukturierte als auch strukturierte Daten enthalten und lässt sich für Big-Data-Analysen einsetzen.

Weiterlesen
Definition

Was ist ein Chatbot?

Bei einem Chatbot handelt es sich um ein technisches Dialogsystem, mit dem per Texteingabe oder Sprache kommuniziert werden kann. Chatbots werden häufig eingesetzt, um Anfragen automatisiert und ohne direkten menschlichen Eingriff zu beantworten oder zu bearbeiten.

Weiterlesen