Suchen
Dipl.-Ing. (FH) Stefan Luber ♥ BigData-Insider

Dipl.-Ing. (FH) Stefan Luber

Stefan Luber arbeitet als freiberuflicher Autor und technischer Redakteur für IT-Fachthemen und deckt als Dipl.-Ing. (FH) der Nachrichtentechnik ein breites Spektrum an IT-Themen ab.

Artikel des Autors

Definition

Was ist Streamlit?

Streamlit ist eine Bibliothek und ein Framework für Python. Streamlit lässt sich zum Erstellen von Web-Apps und zur Visualisierung oder Analyse von Daten einsetzen. Datenwissenschaftler können mit einfachen Python-Skripten interaktive Web-Apps mit grafischer Benutzeroberfläche und anschaulicher Datenvisualisierung erstellen und über das Web der Allgemeinheit zur Verfügung stellen.

Weiterlesen
Definition

Was ist ein Quron?

Der Begriff Quron setzt sich aus den beiden Wörtern „Quantenbit“ und „Neuron“ zusammen. Es handelt sich um ein Neuron, das auf den Prinzipien der Quantenphysik basiert. Wie ein Qubit kann das Quron beliebige Zwischenzustände zwischen 0 und 1 oder aktiv und nicht aktiv annehmen. Erst beim Auslesen der Information legt es sich für einen konkreten Zustand fest. Aus Qurons lassen sich Quantum Neural Networks aufbauen.

Weiterlesen
Definition

Was ist ein Qubit?

Das Qubit ist die kleinste Rechen- und Informationseinheit eines Quantencomputers. Es basiert auf den Gesetzen der Quantenmechanik. Im Gegensatz zu einem herkömmlichen Bit kann es mehrere Zustände gleichzeitig annehmen. Erst bei der Messung legt es sich für einen konkreten Zustand fest. Quantencomputer erzielen schon mit wenigen Qubits große Rechenleistungen.

Weiterlesen
Definition

Was ist Shiny?

Shiny ist eine Software und ein Framework für die Programmiersprache R. Mit Shiny lassen sich interaktive grafische Darstellungen und Webapplikationen realisieren, ohne dass tiefere HTML-, CSS- oder JavaScript-Kenntnisse notwendig sind. Die grafische Darstellung der interaktiven Elemente erfolgt über den Webbrowser. Für das Deployment von Webapplikationen ist ein Shiny Server notwendig.

Weiterlesen
Definition

Was ist Bokeh?

Bokeh ist eine frei verfügbare Bibliothek für die Programmiersprache Python. Sie erlaubt es, interaktive Visualisierungen großer Datenmengen zu erstellen. Die Bokeh Visualization Library nutzt Webbrowser zur Darstellung der generierten Visualisierungen und wird als Projekt von NumFOCUS gesponsert.

Weiterlesen
Definition

Was ist SAP HANA Studio?

SAP HANA Studio ist eine Eclipse-basierte Anwendung für die In-Memory-Datenbank SAP HANA. Sie stellt eine Vielzahl an Funktionen bereit und dient sowohl als Entwicklungsumgebung als auch als zentrale Administrationsoberfläche für SAP HANA. Die Software eignet sich für Clients mit verschiedenen Betriebssystemen wie Windows, Linux oder macOS.

Weiterlesen
Definition

Was ist AIOps?

Artificial Intelligence for IT Operations (AIOps) verwendet Künstliche Intelligenz (KI), Maschinelles Lernen (ML) und Big Data zur Überwachung, Optimierung und Automatisierung des IT-Betriebs. Die von den verschiedenen Geräten und IT-Systemen gelieferten Daten werden mithilfe Künstlicher Intelligenz analysiert, um Probleme oder Anomalien zu erkennen und passend darauf zu reagieren.

Weiterlesen
Definition

Was ist eine SAP-S/4HANA-Migration?

S/4HANA ist die aktuelle Echtzeit-ERP-Suite des Unternehmens SAP SE. Die Software löst Vorgängerprodukte wie SAP R/3 ab und basiert auf der neuen In-Memory-Datenbanktechnologie SAP HANA. Da die Wartung für das Vorgängersystem R/3 im Jahr 2027 endet, steht für Altkunden in den nächsten Jahren die SAP-S/4HANA-Migration an. Es existieren verschiedene Migrationsmöglichkeiten.

Weiterlesen
Definition

Was ist Kaggle?

Kaggle ist eine Online-Plattform für den Wissensaustausch und Wettbewerbe rund um die Datenanalyse, Machine Learning (ML), Data Mining und Big Data. Zielgruppe der Plattform sind Datenwissenschaftler sowie Unternehmen und Organisationen aus unterschiedlichsten Branchen. Die Mitglieder entwickeln Modelle, Daten nach bestimmten Vorgaben zu analysieren. Für die besten Lösungen sind in der Regel hohe Geldpreise ausgeschrieben.

Weiterlesen
Definition

Was ist Gensim?

Gensim ist eine Open-Source-basierte Python Library. Sie ermöglicht semantische Textanalysen, Inhaltsmodellierung und semantische Dokumentenvergleiche. Eingesetzt wird die Library beispielsweise für das Natural Language Processing (NLP) oder die computergestützte Suche nach komplexen Inhalten (Information Retrieval – IR). Gensim setzt die Python Packages NumPy and SciPy voraus.

Weiterlesen
Definition

Was ist Datashader?

Datashader stellt eine Pipeline zur automatisieren Erzeugung grafischer Repräsentationen großer Mengen von Daten zur Verfügung. Es handelt sich um eine Open-Source-basierte Python Library. Sie lässt sich standalone oder zusammen mit anderen Libraries wie Bokeh und HoloViews verwenden. Arbeitsaufgaben des Datashaders lassen sich flexibel an mehrere CPUs oder GPUs übertragen. Datashader ist ein Projekt der Anaconda, Inc.

Weiterlesen
Definition

Was ist Pandas?

Pandas – Python Data Analysis Library – ist eine Bibliothek für Python. Sie erfordert NumPy und lässt sich für die Verwaltung und Analyse von Daten einsetzen. Die Bibliothek kann Daten verschiedener Formate einlesen. Es stehen Funktionen für die Datenbereinigung, für das Aggregieren oder für das Transformieren der Daten und für andere Aufgaben zur Verfügung. Ihre Stärken hat die Pandas Library in der Auswertung und der Bearbeitung tabellarischer Daten.

Weiterlesen
Definition

Was ist Apache Airflow?

Apache Airflow ist eine Open-Source-basierte Workflow-Management-Plattform. Workflows lassen sich mit der Software erstellen, verwalten und überwachen. Die Workflows sind mit gerichteten azyklischen Graphen abgebildet. Airflow ist in Python geschrieben und stellt eine grafischen Benutzeroberfläche zur Verfügung. Die Software hat sich als De-facto-Standard für das Workflow-Management etabliert.

Weiterlesen
Definition

Was ist Kubernetes?

Kubernetes ist eine ursprünglich von Google entwickelte Open-Source-Plattform. Sie wird heute von der Cloud Native Computing Foundation betreut und weiterentwickelt. Mit Kubernetes lassen sich Container orchestrieren. Die Plattform ermöglicht das automatisierte Einrichten, Bereitstellen, Betreiben, Skalieren und Warten der Container. Sie ist die Basis für viele Cloud-native Anwendungen, die aus Microservices bestehen.

Weiterlesen
Definition

Was sind SQL Server Reporting Services (SSRS)?

Die SQL Server Reporting Services (SSRS) sind Bestandteil der Microsoft SQL Server Software. Sie erlauben das Generieren, Bereitstellen und Verwalten von Berichten. Viele Aufgaben lassen sich über ein Webinterface erledigen. Mithilfe der Services können klassische paginierte Berichte, Webberichte und mobile Berichte erstellt werden. Die Report-Inhalte sind über die Report Definition Language definiert.

Weiterlesen
Definition

Was ist Geospatial Analytics?

Geospatial Analytics führt Analysen von Daten mit geografischen oder räumlichen Informationen durch. Die Analysen erfolgen meist auf Basis eines Geographic Information Systems (GIS). Für die Analysen müssen Daten erfasst, verwaltet, konvertiert und untersucht werden. Ergebnisse lassen sich beispielsweise in Form von Kartendarstellungen visualisieren.

Weiterlesen
Definition

Was ist Dask?

Dask ist eine Open-Source-basierte Library, mit der sich Rechenaufgaben auf mehrere Rechner verteilen und parallel ausführen lassen. Die Bibliothek ist in Python geschrieben und beispielsweise für das High Performance Computing einsetzbar. Dask wird in der Wissenschaft und im kommerziellen Bereich unter anderem für das Maschinelle Lernen genutzt.

Weiterlesen
Definition

Was ist High Performance Computing (HPC)?

Unter High Performance Computing, HPC, sind Technologien und Verfahren zusammengefasst, mit denen sich komplexe Rechenaufgaben mit hoher Leistung ausführen lassen. Für das Hochleistungsrechnen werden Aufgaben parallelisiert und die Rechenleistung mehrerer Systeme aggregiert. Typische Einsatzbereiche sind Wissenschaft und Forschung, Simulationstechnik, Grafikberechnungen oder Business Intelligence.

Weiterlesen
Definition

Was ist ein Quantum Neural Network?

Ein Quantum Neural Network ist ein Künstliches Neuronales Netzwerk, das auf den Funktionsprinzipien der Quantenmechanik basiert. Es nutzt sogenannte Qubits, die mehrere Zustände gleichzeitig annehmen können und miteinander verschränkt sind. Quantum Neural Networks sollen schneller arbeiten und komplexere Problemstellungen lösen, als dies mit herkömmlichen Neuronalen Netzen möglich ist.

Weiterlesen
Definition

Was ist Augmented Analytics?

Augmented Analytics erweitert und automatisiert die Analysemöglichkeiten von Business-Intelligence-Lösungen durch die Nutzung von Methoden und Algorithmen der Künstlichen Intelligenz (KI) und des Machine Learnings (ML). Per Natural Language Processing (NLP) ist die Interaktion des Nutzers mit der Analysesoftware in natürlicher Sprache möglich.

Weiterlesen
Definition

Was ist ein KPI-Dashboard?

Ein KPI-Dashboard stellt wichtige Leistungskennzahlen eines Unternehmens in visualisierter, leicht verständlicher Form dar. Das Dashboard bietet interaktive Funktionen, lässt sich mit anderen teilen und aktualisiert die Daten bei Bedarf in Echtzeit. Mithilfe eines KPI-Dashboards lässt sich die Zielerreichung verschiedener Unternehmensbereiche messen.

Weiterlesen
Definition

Was ist ein Decision Tree?

Ein Decision Tree ist ein baumartiges, gerichtetes Diagramm zur Entscheidungsfindung. Es besteht aus Wurzel, Knoten, Ästen und Blättern. Die Knoten bilden die entscheidungsabhängigen Verzweigungspunkte. Typischer Einsatzbereich der Decision Trees sind Klassifizierungsaufgaben. Aus vielen einzelnen Decision Trees lassen sich Entscheidungswälder wie der Random Forest bilden.

Weiterlesen
Definition

Was ist Logstash?

Logstash ist eine Open-Source-basierte Software zur Erfassung, Verarbeitung, Transformation und Weiterleitung von Daten. Sie stellt Datenverarbeitungspipelines zur Verfügung und arbeitet mit Plug-ins und Filtern. Zusammen mit Elasticsearch und Kibana bildet Logstash den sogenannten Elastic Stack. Er lässt sich zur Analyse und Visualisierung großer Datenmengen verwenden.

Weiterlesen
Definition

Was ist Elasticsearch?

Elasticsearch ist eine Open-Source-Suchmaschine auf Basis von Apache Lucene. Sie arbeitet mit Indices, die aus JSON-Dokumenten im NoSQL-Format bestehen. Die Suchmaschine arbeitet sehr schnell, ist für die Suche in großen Datenmengen einsetzbar (Big Data) und unterstützt für eine hohe Verfügbarkeit verteilte Architekturen. Zusammen mit Kibana und Logstash bildet Elasticsearch den Elastic Stack.

Weiterlesen
Definition

Was ist Couchbase?

Couchbase ist eine dokumentenorientierte nicht-relationale Datenbank (NoSQL-Datenbank). Sie speichert Informationen in Form von JSON-Dokumenten. Die Couchbase-Lösung umfasst Couchbase Server und Couchbase Mobile. Für das Abfragen und Verändern von Daten steht die Abfragesprache N1QL zur Verfügung, die ähnlich wie SQL für relationale Datenbanken arbeitet.

Weiterlesen
Definition

Was ist ein Data Catalog?

Ein Data Catalog ist ein Service oder ein Tool, das verschiedene Daten-Assets in einem zentralen Metadatenverzeichnis verwaltet. Der Datenkatalog vereinfacht den Zugang zu den Daten. Häufiger Anwendungsbereich sind das Big-Data-Umfeld und Data Warehouses. Der Data Catalog kann auch als Cloud-Service bei verschiedenen Cloud-Providern genutzt werden.

Weiterlesen
Definition

Was ist KNIME?

KNIME ist eine freie Software für die interaktive Analyse großer Datenmengen. Sie lässt sich für das Data Mining einsetzen und verfügt über eine grafische Benutzeroberfläche. Datenanalyseaufgaben werden als Workflows aus einzelnen nacheinander auszuführenden modularen Schritten zusammengesetzt. Für KNIME existieren zahlreiche kommerzielle Erweiterungen und Anwendungen.

Weiterlesen
Definition

Was ist Apache Tez?

Apache Tez ist ein Open-Source-basiertes Framework, das zusammen mit Hadoop für Big-Data-Anwendungen geeignet ist. Es sorgt für eine performante Verarbeitung der Daten und wird häufig als Alternative zu Hadoop MapReduce eingesetzt. Ursprünglich wurde es von Hortonworks entwickelt. Seit 2013 ist es ein Apache-Projekt.

Weiterlesen
Definition

Was ist ein Quantile Random Forest?

Ein Quantile Random Forest ist eine spezielle Form des Random Forests. Er kommt für Klassifizierungs- und Regressionsaufgaben zum Einsatz und wird häufig im Umfeld des Machine Learnings verwendet. Das Besondere am Quantile Random Forest ist, dass Vorhersagen bezüglich verschiedener Quantile möglich werden. Es ist abschätzbar, ob vorhergesagte Werte bestimmte Schwellwerte erreichen.

Weiterlesen
Definition

Was ist Apache Samza?

Apache Samza ist ein Open-Source-basiertes Framework für das Stream Processing. Es wird von der Apache Software Foundation weiterentwickelt und ermöglicht die Verarbeitung von Prozessdaten aus verschiedenen Quellen in nahezu Echtzeit. Unter anderem lassen sich mit Apache Samza statusbehaftete Anwendungen realisieren.

Weiterlesen
Definition

Was ist Digitalisierung?

Digitalisierung bezeichnet im ursprünglichen Sinn das Umwandeln von analogen Werten in digitale Formate. Diese Daten lassen sich informationstechnisch verarbeiten. Oft steht der Begriff Digitalisierung aber auch für die digitale Revolution oder die digitale Transformation.

Weiterlesen
Definition

Was ist SAP BW?

SAP BW ist ein Business-Intelligence-Paket von SAP und ermöglicht umfangreiche Auswertungen und Reports auf Basis von unterschiedlichsten Unternehmensdaten. Es besteht aus einer Kombination von Datenbanken, Datenbankmanagement-Tools sowie Analyse und Reporting-Anwendungen.

Weiterlesen
Definition

Was ist Machine Learning?

Machine Learning, im Deutschen maschinelles Lernen, ist ein Teilgebiet der künstlichen Intelligenz. Durch das Erkennen von Mustern in vorliegenden Datenbeständen sind IT-Systeme in der Lage, eigenständig Lösungen für Probleme zu finden.

Weiterlesen
Definition

Was ist das Internet of Things?

Im Internet der Dinge (Englisch: Internet of Things, IoT) bekommen Gegenstände eine eindeutige Identität und können miteinander kommunizieren oder Befehle entgegennehmen. Mit dem Internet of Things lassen sich Anwendungen automatisieren und Aufgaben ohne Eingriff von außen erledigen.

Weiterlesen
Definition

Was ist ein Neuronales Netz?

Künstliche Neuronale Netze (KNN) sind inspiriert durch das menschliche Gehirn und lassen sich für maschinelles Lernen und die Künstliche Intelligenz einsetzen. Es lassen sich mit diesen Netzen verschiedene Problemstellungen computerbasiert lösen.

Weiterlesen
Definition

Was ist Deep Learning?

Deep Learning ist ein Teilbereich des Machine Learnings und nutzt neuronale Netze sowie große Datenmengen. Die Lernmethoden richten sich nach der Funktionsweise des menschlichen Gehirns und resultieren in der Fähigkeit eigener Prognosen oder Entscheidungen.

Weiterlesen
Definition

Was ist ein Chatbot?

Bei einem Chatbot handelt es sich um ein technisches Dialogsystem, mit dem per Texteingabe oder Sprache kommuniziert werden kann. Chatbots werden häufig eingesetzt, um Anfragen automatisiert und ohne direkten menschlichen Eingriff zu beantworten oder zu bearbeiten.

Weiterlesen
Definition

Was ist eine relationale Datenbank?

Relationale Datenbanken ist das am weitesten verbreitete Datenbankmodell. Es setzt auf das relationale Datenbankmodell, das auf der Speicherung von Informationen in verschiedenen Tabellen basiert, die untereinander über Beziehungen (Relationen) verknüpft sind.

Weiterlesen
Definition

Was ist ein Data Warehouse?

Das Data Warehouse stellt ein zentrales Datenbanksystem dar, das zu Analysezwecken im Unternehmen einsetzbar ist. Das System extrahiert, sammelt und sichert relevante Daten aus verschiedenen heterogenen Datenquellen und versorgt nachgelagerte Systeme.

Weiterlesen
Definition

Was ist Natural Language Processing?

Die Abkürzung NLP steht für Natural Language Processing und beschreibt Techniken und Methoden zur maschinellen Verarbeitung natürlicher Sprache. Ziel ist eine direkte Kommunikation zwischen Mensch und Computer auf Basis der natürlichen Sprache.

Weiterlesen
Definition

Was ist CRISP-DM?

CRISP-DM (Cross Industry Standard Process for Data Mining) ist ein von der EU gefördertes, branchenübergreifendes Standardmodell für das Data Mining. Es wurde 1996 unter Mitarbeit zahlreicher namhafter Konzerne entwickelt und definiert insgesamt sechs verschiedene Prozessphasen. CRISP-DM ist anwendungsneutral und in beliebigen Bereichen einsetzbar.

Weiterlesen
Definition

Was ist ein Cyber-physisches System (CPS)?

In einem Cyber-physischen System (cyber-physical system, CPS) sind mechanische Komponenten über Netzwerke und moderne Informationstechnik miteinander verbunden. Sie ermöglichen die Steuerung und die Kontrolle von komplexen Systemen und Infrastrukturen. Für die Industrie 4.0 spielen Cyber-physische Systeme eine zentrale Rolle.

Weiterlesen
Definition

Was ist ein Datenbankmanagementsystem?

Das Datenbankmanagementsystem, abgekürzt DBMS, ist neben den eigentlichen Daten der wichtigste Bestandteil einer jeden Datenbank. Es übernimmt die Aufgabe der Organisation und Strukturierung der Daten. Gleichzeitig kontrolliert es lesende und schreibende Zugriffe.

Weiterlesen
Definition

Was ist Predictive Maintenance?

Predictive Maintenance verfolgt als eine der Kernkomponenten von Industrie 4.0 einen vorausschauenden Ansatz und wartet Maschinen und Anlagen proaktiv, um Ausfallzeiten niedrig zu halten. Das Verfahren nutzt hierfür von Sensoren erfasste Messwerte und Daten.

Weiterlesen
Definition

Was ist Data Mining?

Data Mining ist die systematische Anwendung computergestützter Methoden, um in vorhandenen Datenbeständen Muster, Trends oder Zusammenhänge zu finden. Zur Wissensentdeckung eingesetzte Algorithmen basieren unter anderem auf statistischen Methoden.

Weiterlesen
Definition

Was ist NoSQL?

NoSQL steht für „Not only SQL“ und bezeichnet Datenbanksysteme, die einen nicht-relationalen Ansatz verfolgen. Diese Datenbanken, denen verschiedene Datenbankmodelle zugrunde liegen können, sind horizontal skalierbar und lassen sich für Big-Data-Anwendungen einsetzen.

Weiterlesen
Definition

Was ist Hadoop?

Bei Hadoop handelt es sich um ein auf Java basierendes Software Framework. Mit ihm lassen sich große Datenmengen auf verteilten Systemen in hoher Geschwindigkeit verarbeiten. Es ist zur Bewältigung der Datenverarbeitung im Big-Data-Umfeld geeignet.

Weiterlesen
Definition

Was ist ein Data Lake?

Beim Data Lake handelt es sich um einen sehr großen Datenspeicher, der die Daten aus den unterschiedlichsten Quellen in ihrem Rohformat aufnimmt. Er kann sowohl unstrukturierte als auch strukturierte Daten enthalten und lässt sich für Big-Data-Analysen einsetzen.

Weiterlesen
Definition

Was ist ACID?

Der Begriff ACID (Atomicity, Consistency, Isolation, Durability) beschreibt Regeln und Eigenschaften zur Durchführung von Transaktionen in Datenbankmanagementsystemen (DBMS). Hält die Transaktion das ACID-Prinzip ein, gelten die Informationen in den Datenbanksystemen als verlässlich und konsistent.

Weiterlesen