Stefan Luber arbeitet als freiberuflicher Autor und technischer Redakteur für IT-Fachthemen und deckt als Dipl.-Ing. (FH) der Nachrichtentechnik ein breites Spektrum an IT-Themen ab.
Das Jupyter-Projekt ist eine nicht gewinnorientierte Initiative mit der Zielsetzung, Open Source Software und offene Standards für interaktives Arbeiten zu entwickeln und bereitzustellen. Eines der bekanntesten Produkte des Projekts ist Jupyter Notebook. Es handelt sich um eine Client-Server-Anwendung für das Erstellen und Teilen interaktiver Arbeitsblätter. Weitere Produkte sind JupyterLab, JupyterHub und Voilà.
Ein Generative Adversarial Network, kurz GAN, ist ein Machine-Learning-Modell, das in der Lage ist, Daten zu generieren. Es besteht aus zwei konkurrierenden Künstlichen Neuronalen Netzwerken (KNN). Eines hat die Aufgabe, echt wirkende Daten zu erzeugen, das andere klassifiziert die Daten als echt oder künstlich. Durch ständiges Lernen und viele Iterationsschritte werden die generierten Daten immer besser. Typischer Einsatzbereich ist das Erstellen echt wirkender künstlicher Bilder.
Das Capsule Neural Network ist eine Klasse Künstlicher Neuronaler Netzwerke (KNN). Es ergänzt das Convolutional Neural Network (CNN) mit sogenannten Kapseln. Zwischen diesen Kapseln lassen sich Informationen vektorgerichtet dynamisch routen. Vorteil dieses Konzepts ist es, dass in Anwendungen wie etwa der Bilderkennung bessere Ergebnisse erzielbar sind. Das Lernverhalten ist dem menschlichen Erkennen von Objekten ähnlicher.
Voilà wurde entwickelt, um Jupyter Notebooks in Standalone-Webapplikationen zu konvertieren. Aus einem Jupyter Notebook lassen sich beispielsweise Slideshows oder interaktive Dashboards erzeugen. Die Voilà-Webapplikationen vereinfachen das Teilen mit nicht-technischen Zielgruppen und verhindern, dass Anwender beliebigen Code ausführen. Voilà ist ein Unterprojekt des Jupyter-Projekts. Die Voilà Gallery stellt ist eine Sammlung von frei zugänglichen Beispielen zur Verfügung.
Prefect ist eine Plattform zur Automatisierung und zur Verwaltung von Dataflows und Workflows. Es besteht aus der Open-Source-basierten Workflow Engine Prefect Core und der Cloud-basierten Orchestrierungsplattform Prefect Cloud. Prefect untergliedert Workflows in einzelne Tasks. Tasks lassen sich mithilfe von Python-Funktionen beschreiben. Die Kombination von Prefect Core und Prefect Cloud erlaubt hybrides Workflow-Management.
Flask ist ein schlankes Mikro-Webframework zum Programmieren von Webanwendungen mit Python. Es wurde von dem österreichischen Open-Source-Entwickler Armin Ronacher entworfen. Das Framework ist als Bibliothek für Python installierbar und verfolgt einen minimalistischen Ansatz. Es benötigt das WSGI-Toolkit „Werkzeug“ und die Template-Engine „Jinja“. Die Software steht unter BSD-Lizenz und ist frei verfügbar.
VIGRA ist eine Bibliothek für die Programmiersprache C++, die sich für Aufgaben der Bildverarbeitung und Bildanalyse einsetzen lässt. Sie wurde von Ullrich Köthe entwickelt und stellt für eigene Zwecke einfach anpassbare Algorithmen und Datenstrukturen zur Verfügung. Für die Programmiersprache Python existiert mittlerweile ebenfalls eine VIGRA-Schnittstelle. Die Bibliothek steht unter MIT-Open-Source-Lizenz und ist im Netz frei verfügbar.
Waikato Environment for Knowledge Analysis ist eine unter Open-Source-Lizenz stehende freie Datenverarbeitungssoftware. Sie wurde an der neuseeländischen University of Waikato entwickelt und lässt sich für Data Mining und Maschinelles Lernen (ML) einsetzen. Die Software ist in Java programmiert, plattformunabhängig einsetzbar und verfügt über eine grafische Benutzeroberfläche.
Docker ist eine unter Apache 2.0 Lizenz stehende, frei verfügbare Software zur Containervirtualisierung. Mithilfe der Docker-Engine lassen sich Anwendungen inklusive ihrer Anwendungsumgebung parallel und untereinander isoliert auf einem Host-System bereitstellen. Die Software ist für Betriebssysteme wie Linux, Windows und macOS verfügbar. Im Gegensatz zu virtuellen Maschinen benötigen Docker-Container keine Virtualisierung des Betriebssystems.
Bei den SQL Server Integration Services handelt es sich um eine Software von Microsoft für SQL Server. Sie besteht aus verschiedenen Komponenten und Tools und lässt sich für das Extrahieren, Transformieren und Laden von Daten (ETL-Prozesse) verwenden. Typischer Anwendungsbereich sind Aufgaben im Business-Intelligence-Umfeld, beispielsweise zum Erstellen eines Data Warehouses.
HoloViews ist eine Open-Source-basierte Bibliothek für die Programmiersprache Python. Sie ist für Datenanalysen und das gleichzeitige Visualisieren der Daten vorgesehen. Interaktive Diagramme unterschiedlichsten Typs lassen sich mit relativ wenig Programmcode erstellen. HoloViews erfordert die Libraries NumPy and Param und arbeitet mit anderen Bibliotheken wie Datashader, Bokeh oder Matplotlib zusammen.
Vaex ist eine Python-Bibliothek, die große, in Tabellenform vorliegende Datenmengen performant verarbeitet und visualisiert. Dank des Out-of-Core-Konzepts der Library lassen sich die Daten unabhängig von der Größe des verfügbaren Arbeitsspeichers des Rechners verarbeiten. In Teilen ist Vaex mit dem Pandas API kompatibel und kann als Pandas-Ersatz genutzt werden.
Ein Geografisches Informationssystem (GIS) ist ein System zur Erfassung, Bearbeitung, Auswertung und Präsentation von Daten mit geografischen oder räumlichen Informationen. Zum System zählen die Hard- und Software, die Daten und alle benötigten Tools. Typische Anwendungen dieser Systeme sind in der Meteorologie, angewandten Geologie, Stadtplanung und Logistik oder im Marketing und Katastrophenmanagement zu finden.
Modin ist eine Python Library, mit der sich Pandas-Workflows beschleunigen lassen. Die Library ist mit der Pandas-API kompatibel und stellt auf mehreren CPUs parallel prozessierbare Data Frames zur Verfügung. Um Modin zu nutzen, genügt eine einzige Zeile Programmcode, die den Pandas-Import durch den Modin-Import ersetzt. Modin verwendet für die Parallelisierung der Arbeit Dask oder Ray.
Stemming ist ein Verfahren, das verschiedene Varianten eines Worts auf seine Stammform zurückführt. Es kommt in der linguistischen Informatik zum Einsatz und wird beispielsweise von Suchmaschinen oder im Natural Language Processing verwendet. Es existieren verschiedene Verfahren und Algorithmen für das Stemming. Das lexikonbasierte Stemming wird auch als Lemmatisierung bezeichnet.
spaCy ist eine Bibliothek für die Programmiersprache Python. Sie steht unter MIT-Open-Source-Lizenz und ist für das Natural Language Processing einsetzbar. Mithilfe der Library lässt sich Text computerbasiert analysieren und verstehen. spaCy ist für zahlreiche Sprachen verfügbar. Die Library verwendet zur Analyse der Texte Techniken wie Tokenisierung, Part-of-speech (POS) Tagging, Lemmatisierung und Einiges mehr.
Ein Advanced Driver Assistance System (ADAS) unterstützt den Fahrer beim Führen eines Fahrzeugs. Je nach System kann es für mehr Komfort, mehr Sicherheit oder für effizienteres Fahren sorgen. Fahrerassistenzsysteme sind in der Lage, verschiedene Aufgaben des Fahrens oder Bedienens zu übernehmen bis hin zum vollständigen autonomen Fahren. Technisch nutzt ein ADAS Sensoren zur Erfassung von Informationen und Informationstechnik zu deren Verarbeitung.
Das Argo-Projekt stellt Open Source Tools für das Kubernetes-Ökosystem bereit. Mit Argo Workflows bietet das Projekt eine Container-native Workflow Engine. Sie ermöglicht es, Workflows zu definieren, in denen die verschiedenen Arbeitsschritte aus einzelnen Containern bestehen. Abhängigkeiten lassen sich über gerichtete azyklische Graphen (DAG) abbilden. Weitere Tools des Projekts sind Argo CD, Argo Rollouts und Argo Events.
Data Science ist eine angewandte, interdisziplinäre Wissenschaft. Ziel der Datenwissenschaft ist es, Wissen aus Daten zu generieren, um beispielsweise die Unternehmenssteuerung zu optimieren oder die Entscheidungsfindung zu unterstützen. Es kommen Methoden und Wissen aus verschiedenen Bereichen wie Mathematik, Statistik, Stochastik, Informatik und Branchen-Know-how zum Einsatz.
Luigi ist der Name eines Software-Pakets und -Tools für die Programmiersprache Python. Mit Luigi lassen sich Workflows verwalten, die aus aufeinander folgenden Aufgaben bestehen. Die Aufgaben sind in Pipelines miteinander verknüpft. Luigi bildet die Abhängigkeiten der Jobs ab, führt das Fehler-Handling durch und visualisiert Pipelines mithilfe einer grafischen Web-Oberfläche.
SQL Server Analysis Services ist ein multidimensionales Online Analytical Processing und Data Mining Tool von Microsoft. Es ist seit der Microsoft SQL Server Version 2000 Bestandteil der SQL Server Software. SSAS kommt im Umfeld der Business Intelligence und des Berichtswesens zum Einsatz und erlaubt umfassende Datenanalysen. Das Tool nutzt das Unified Dimensional Model (UDM).
Seaborn ist eine frei verfügbare Bibliothek für die Programmiersprache Python. Mit der Library lassen sich Daten visualisieren. Die Bibliothek baut auf der Library Matplotlib auf und benötigt weitere Libraries wie NumPy, SciPy und Pandas. Seaborn lässt sich einsetzen, um Daten in anschauliche Grafiken und Diagramme zu verwandeln. Es werden verschiedene Diagrammtypen, Maps und Plots unterstützt.
Das Fuzzy Quantum Neural Network ist eine Variante des Quantum Neural Networks (QNN) und versucht die Gesetze der Quantenphysik mithilfe der Unschärfe der Fuzzy-Logik abzubilden. Es handelt sich um ein von der Quantenphysik inspiriertes Neuronales Netzwerk, das die Fähigkeiten der Künstlichen Intelligenz weiter verbessert. Im Gegensatz zu anderen QNN-Varianten arbeitet es nicht mit Quantenbits beziehungsweise mit Quantenneuronen.
Streamlit ist eine Bibliothek und ein Framework für Python. Streamlit lässt sich zum Erstellen von Web-Apps und zur Visualisierung oder Analyse von Daten einsetzen. Datenwissenschaftler können mit einfachen Python-Skripten interaktive Web-Apps mit grafischer Benutzeroberfläche und anschaulicher Datenvisualisierung erstellen und über das Web der Allgemeinheit zur Verfügung stellen.
Der Begriff Quron setzt sich aus den beiden Wörtern „Quantenbit“ und „Neuron“ zusammen. Es handelt sich um ein Neuron, das auf den Prinzipien der Quantenphysik basiert. Wie ein Qubit kann das Quron beliebige Zwischenzustände zwischen 0 und 1 oder aktiv und nicht aktiv annehmen. Erst beim Auslesen der Information legt es sich für einen konkreten Zustand fest. Aus Qurons lassen sich Quantum Neural Networks aufbauen.
Das Qubit ist die kleinste Rechen- und Informationseinheit eines Quantencomputers. Es basiert auf den Gesetzen der Quantenmechanik. Im Gegensatz zu einem herkömmlichen Bit kann es mehrere Zustände gleichzeitig annehmen. Erst bei der Messung legt es sich für einen konkreten Zustand fest. Quantencomputer erzielen schon mit wenigen Qubits große Rechenleistungen.
Shiny ist eine Software und ein Framework für die Programmiersprache R. Mit Shiny lassen sich interaktive grafische Darstellungen und Webapplikationen realisieren, ohne dass tiefere HTML-, CSS- oder JavaScript-Kenntnisse notwendig sind. Die grafische Darstellung der interaktiven Elemente erfolgt über den Webbrowser. Für das Deployment von Webapplikationen ist ein Shiny Server notwendig.
Bokeh ist eine frei verfügbare Bibliothek für die Programmiersprache Python. Sie erlaubt es, interaktive Visualisierungen großer Datenmengen zu erstellen. Die Bokeh Visualization Library nutzt Webbrowser zur Darstellung der generierten Visualisierungen und wird als Projekt von NumFOCUS gesponsert.
SAP HANA Studio ist eine Eclipse-basierte Anwendung für die In-Memory-Datenbank SAP HANA. Sie stellt eine Vielzahl an Funktionen bereit und dient sowohl als Entwicklungsumgebung als auch als zentrale Administrationsoberfläche für SAP HANA. Die Software eignet sich für Clients mit verschiedenen Betriebssystemen wie Windows, Linux oder macOS.
Artificial Intelligence for IT Operations (AIOps) verwendet Künstliche Intelligenz (KI), Maschinelles Lernen (ML) und Big Data zur Überwachung, Optimierung und Automatisierung des IT-Betriebs. Die von den verschiedenen Geräten und IT-Systemen gelieferten Daten werden mithilfe Künstlicher Intelligenz analysiert, um Probleme oder Anomalien zu erkennen und passend darauf zu reagieren.
Digitalisierung bezeichnet im ursprünglichen Sinn das Umwandeln von analogen Werten in digitale Formate. Diese Daten lassen sich informationstechnisch verarbeiten. Oft steht der Begriff Digitalisierung aber auch für die digitale Revolution oder die digitale Transformation.
Im Internet der Dinge (Englisch: Internet of Things, IoT) bekommen Gegenstände eine eindeutige Identität und können miteinander kommunizieren oder Befehle entgegennehmen. Mit dem Internet of Things lassen sich Anwendungen automatisieren und Aufgaben ohne Eingriff von außen erledigen.
Machine Learning, im Deutschen maschinelles Lernen, ist ein Teilgebiet der künstlichen Intelligenz. Durch das Erkennen von Mustern in vorliegenden Datenbeständen sind IT-Systeme in der Lage, eigenständig Lösungen für Probleme zu finden.
SAP BW ist ein Business-Intelligence-Paket von SAP und ermöglicht umfangreiche Auswertungen und Reports auf Basis von unterschiedlichsten Unternehmensdaten. Es besteht aus einer Kombination von Datenbanken, Datenbankmanagement-Tools sowie Analyse und Reporting-Anwendungen.
Die Abkürzung NLP steht für Natural Language Processing und beschreibt Techniken und Methoden zur maschinellen Verarbeitung natürlicher Sprache. Ziel ist eine direkte Kommunikation zwischen Mensch und Computer auf Basis der natürlichen Sprache.
In einem Cyber-physischen System (cyber-physical system, CPS) sind mechanische Komponenten über Netzwerke und moderne Informationstechnik miteinander verbunden. Sie ermöglichen die Steuerung und die Kontrolle von komplexen Systemen und Infrastrukturen. Für die Industrie 4.0 spielen Cyber-physische Systeme eine zentrale Rolle.
Das Data Warehouse stellt ein zentrales Datenbanksystem dar, das zu Analysezwecken im Unternehmen einsetzbar ist. Das System extrahiert, sammelt und sichert relevante Daten aus verschiedenen heterogenen Datenquellen und versorgt nachgelagerte Systeme.
Künstliche Neuronale Netze (KNN) sind inspiriert durch das menschliche Gehirn und lassen sich für maschinelles Lernen und die Künstliche Intelligenz einsetzen. Es lassen sich mit diesen Netzen verschiedene Problemstellungen computerbasiert lösen.
Data Mining ist die systematische Anwendung computergestützter Methoden, um in vorhandenen Datenbeständen Muster, Trends oder Zusammenhänge zu finden. Zur Wissensentdeckung eingesetzte Algorithmen basieren unter anderem auf statistischen Methoden.
CRISP-DM (Cross Industry Standard Process for Data Mining) ist ein von der EU gefördertes, branchenübergreifendes Standardmodell für das Data Mining. Es wurde 1996 unter Mitarbeit zahlreicher namhafter Konzerne entwickelt und definiert insgesamt sechs verschiedene Prozessphasen. CRISP-DM ist anwendungsneutral und in beliebigen Bereichen einsetzbar.
Datenvalidierung prüft Daten auf Einhaltung bestimmter Validierungsregeln. Diese wurden zuvor aufgestellt und beinhalten beispielsweise Vorgaben zu Wertebereichen oder Formaten. Die Datenvalidierung verbessert die Ergebnisse der Datenverarbeitung und Datenanalyse. Sie kann bei der Eingabe der Daten, direkt vor dem Start oder während der Datenverarbeitung stattfinden.
Deep Learning ist ein Teilbereich des Machine Learnings und nutzt neuronale Netze sowie große Datenmengen. Die Lernmethoden richten sich nach der Funktionsweise des menschlichen Gehirns und resultieren in der Fähigkeit eigener Prognosen oder Entscheidungen.
Relationale Datenbanken ist das am weitesten verbreitete Datenbankmodell. Es setzt auf das relationale Datenbankmodell, das auf der Speicherung von Informationen in verschiedenen Tabellen basiert, die untereinander über Beziehungen (Relationen) verknüpft sind.
Bei Hadoop handelt es sich um ein auf Java basierendes Software Framework. Mit ihm lassen sich große Datenmengen auf verteilten Systemen in hoher Geschwindigkeit verarbeiten. Es ist zur Bewältigung der Datenverarbeitung im Big-Data-Umfeld geeignet.
Eine Entität in der Informatik ist ein einzelnes, eindeutig identifizierbares Informationsobjekt. Es kann sich sowohl um existierende als auch um abstrakte Objekte handeln. Entitäten sind zusammen mit den Entitätstypen und Attributen sowie den Beziehungen zwischen den Entitäten wesentliche Elemente der Datenmodellierung.
NoSQL steht für „Not only SQL“ und bezeichnet Datenbanksysteme, die einen nicht-relationalen Ansatz verfolgen. Diese Datenbanken, denen verschiedene Datenbankmodelle zugrunde liegen können, sind horizontal skalierbar und lassen sich für Big-Data-Anwendungen einsetzen.
Der Begriff ACID (Atomicity, Consistency, Isolation, Durability) beschreibt Regeln und Eigenschaften zur Durchführung von Transaktionen in Datenbankmanagementsystemen (DBMS). Hält die Transaktion das ACID-Prinzip ein, gelten die Informationen in den Datenbanksystemen als verlässlich und konsistent.
Das Datenbankmanagementsystem, abgekürzt DBMS, ist neben den eigentlichen Daten der wichtigste Bestandteil einer jeden Datenbank. Es übernimmt die Aufgabe der Organisation und Strukturierung der Daten. Gleichzeitig kontrolliert es lesende und schreibende Zugriffe.
Beim Data Lake handelt es sich um einen sehr großen Datenspeicher, der die Daten aus den unterschiedlichsten Quellen in ihrem Rohformat aufnimmt. Er kann sowohl unstrukturierte als auch strukturierte Daten enthalten und lässt sich für Big-Data-Analysen einsetzen.
Bei einem Chatbot handelt es sich um ein technisches Dialogsystem, mit dem per Texteingabe oder Sprache kommuniziert werden kann. Chatbots werden häufig eingesetzt, um Anfragen automatisiert und ohne direkten menschlichen Eingriff zu beantworten oder zu bearbeiten.