„Willkommen bei der großen BigData-Insider-Leserwahl!

Dipl.-Ing. (FH) Stefan Luber

IT-Service Luber

Stefan Luber ist Diplom-Ingenieur (FH) der Nachrichtentechnik und arbeitet mit über 30 Jahren Berufserfahrung als freiberuflicher Autor sowie technischer Redakteur. Er ist spezialisiert auf IT- und Telekommunikationsthemen und verfasst hochwertige, suchmaschinenoptimierte Inhalte, Whitepaper, Produkttests, Blog-Artikel und technische Dokumentationen.

Seine Expertise umfasst ein breites Spektrum an IT-Themen, darunter Netzwerke (DSL, Mobilfunk, TCP/IP, Routing, Switching, VoIP), Webhosting, E-Commerce, Content-Management-Systeme wie WordPress, Suchmaschinenoptimierung (SEO), Smart Home, Cloud Computing, Business Intelligence, Big Data, Künstliche Intelligenz, IoT und IT-Sicherheit.

Luber hat für verschiedene Unternehmenswebseiten, Blogs und Fachportale wie Security-Insider, BigData-Insider, Storage-Insider, CloudComputing-Insider und IP-Insider Artikel verfasst, in denen er komplexe technische Sachverhalte verständlich aufbereitet.

Neben seiner Tätigkeit als Autor bietet er IT-Services an und betreibt mit dem IT-Service Luber eine eigene Webseite, auf der er seine Dienstleistungen und Veröffentlichungen präsentiert.

Seine berufliche Laufbahn umfasst Positionen wie Systemingenieur Netzwerkplanung/Internetworking bei verschiedenen Systemhäusern und Netzbetreibern und Manager im Bereich IP-TV-Netze bei der Deutschen Telekom AG. Seit August 2011 ist er als freier Autor und technischer Redakteur tätig.

Artikel des Autors

0102192446 (Bild: © aga7ta - stock.adobe.com)

Automatisiertes Part-of-Speech-Tagging, kurz: POS-Tagging, ist eine Teildisziplin der Computerlinguistik. Aufgabe des POS-Taggings ist es, den Wörtern eines Textes die jeweils passende Wortart zuzuordnen. Wortarten sind beispielsweise Nomen, Verb, Adverb, Pronomen, Konjunktion, Artikel und andere. Für verschiedene Sprachen existieren Standard-Tag-Sets, in denen die verfügbaren Wortart-Tags definiert sind. Zum Taggen kommen unterschiedliche Verfahren wie überwachtes oder unüberwachtes maschinelles Lernen zum Einsatz.

0102192446 (Bild: © aga7ta - stock.adobe.com)

Named Entity Recognition (NER) ist eine Teildisziplin der Computerlinguistik. Ihre Aufgabe ist es, Eigennamen (benannte Entitäten) in natürlichsprachigen Texten automatisiert zu erkennen und diese vordefinierten Kategorien zuzuordnen. Eigennamen sind beispielsweise Namen von Personen, Firmennamen, Orte, Ereignisse oder Zeitangaben. NER lässt sich wörterbuchbasiert, regelbasiert oder mithilfe von überwachtem maschinellem Lernen durchführen.

0102192446 (Bild: © aga7ta - stock.adobe.com)

Ein Conditional Random Field Layer (CRF-Layer) ist eine zusätzliche Ebene eines probabilistischen Modells innerhalb eines Machine-Learning-Modells. CRF-Layer kommen beispielsweise in BiLSTM-CRF-Modellen zusammen mit bidirektionalen Long Short-Term Memory (LSTM) zum Einsatz. Sie helfen Problemstellungen zu lösen, wie sie beispielsweise im Natural Language Processing (NLP) beim Part-of-Speech-Tagging (POS-Tagging) oder bei Named Entity Recognition (NER) auftreten.

0102192446 (Bild: © aga7ta - stock.adobe.com)

Mbed ist ein freies Betriebssystem und eine Entwicklungsplattform für ARM-Cortex-M-basierte 32-Bit-Mikrocontroller. Es wurde speziell für Anwendungen und Geräte des Internets der Dinge entworfen. Mbed stellt alle zur Entwicklung und zum Betrieb von Anwendungen auf IoT-Geräten benötigten Komponenten zur Verfügung. Dazu gehören Echtzeitbetriebssystem, Treiber, Bibliotheken, Entwicklungsoberfläche sowie Konnektivitäts- und Sicherheitsfunktionen.

0102192446 (Bild: © aga7ta - stock.adobe.com)

Modelle. Es wird der vollständige Prozess der Entscheidungsfindung von der Analyse der Problemstellung bis zur Kontrolle der Wirkung betrachtet. Operations Research arbeitet interdisziplinär und nutzt Methoden der angewandten Mathematik, Informatik, Statistik sowie der Ingenieurs- und Wirtschaftswissenschaften und anderer Fachbereiche.

0102192446 (Bild: © aga7ta - stock.adobe.com)

Model Drift ist ein Begriff aus dem Umfeld des maschinellen Lernens. Er bezieht sich auf das Phänomen, dass die Vorhersagegenauigkeit von Machine-Learning-Modellen mit der Zeit nachlassen kann. Ursachen hierfür sind beispielsweise, dass Annahmen oder Variablenbhängigkeiten, die beim Erstellen und Trainieren der Modelle noch gültig waren, sich über die Zeit verändert haben. Maßnahmen wie das Retraining oder Tuning der Modelle können den Model Drift beseitigen.

0102192446 (Bild: © aga7ta - stock.adobe.com)

Das Dataflow Model ist ein von Google entworfenes Datenverarbeitungsmodell und ein praktischer Ansatz zur Verarbeitung großer, ungebundener und unsortierter Datenmengen. Es ist in dem im Jahr 2015 veröffentlichten Paper „The Dataflow Model: A Practical Approach to Balancing Correctness, Latency, and Cost in Massive-Scale, Unbounded, Out-of-Order Data Processing“ im Detail beschrieben.

0102192446 (Bild: © aga7ta - stock.adobe.com)

Beim One-Shot-Lernen handelt es sich um eine Methode des Machine Learnings (ML), die den Trainingsaufwand deutlich reduziert und maschinelles Lernen dem menschlichem Lernen ähnlicher macht. ML-Modelle sind dank One-Shot-Lernen in der Lage, mit nur einem (oder wenigen) Trainingsbeispielen einer bestimmten Objektklasse anschließend korrekte Klassifizierungen vorzunehmen. Typischer Einsatzbereich des One-Shot-Lernens ist die Gesichtserkennung.

0102192446 (Bild: © aga7ta - stock.adobe.com)

Der Lesk-Algorithmus kommt in der Computerlinguistik und linguistischen Datenverarbeitung zum Einsatz. Mit dem Algorithmus lässt sich die in einem vorliegenden Text beabsichtigte Bedeutung von mehrdeutigen Wörtern bestimmen. Dieser Vorgang wird als Wortsinn-Disambiguierung (im Englischen: Word Sense Disambiguation – WSD) bezeichnet. Der Lesk-Algorithmus stützt sich auf maschinenlesbare Wörterbücher und sucht nach größtmöglichen Überlappungen im Kontext der mehrdeutigen Begriffe.

(© aga7ta - stock.adobe.com)

Machine Learning Operations (MLOps) überträgt das in der Softwareentwicklung etablierte DevOps-Konzept auf maschinelles Lernen. Mit Machine Learning Operations lässt sich das Entwickeln, Bereitstellen, Verwalten und Überwachen von Machine-Learning-Modellen effizienter gestalten. Data-Science-Prozesse werden in enger Zusammenarbeit der Datenwissenschaftler, Entwickler und Betriebsbereiche operationalisiert. Dank MLOps erzielen Unternehmen schnelleren und größeren geschäftlichen Nutzen aus maschinellem Lernen.

(© aga7ta - stock.adobe.com)

RoBERTa ist die Bezeichnung eines von Facebook und der Washington University entwickelten optimierten BERT-Pretraining-Ansatzes (BERT = Bidirectional Encoder Representations from Transformers). BERT wurde ursprünglich von Google entworfen und hat zu einem deutlichen Leistungsschub der Sprachmodelle für Natural Language Processing (NLP) beigetragen. RoBERTa basiert vollständig auf BERT und modifiziert einige Trainingsmethoden und -parameter.

(© aga7ta - stock.adobe.com)

Bidirectional Encoder Representations from Transformers (BERT) ist eine ursprünglich von Google entwickelte Technik für das Pretraining von Transformer-basierten NLP-Modellen. Die mit BERT bidirektional trainierten Sprachmodelle erfassen Beziehungen und kontextuelle Zusammenhänge der Wörter besser. BERT ist für verschiedene Anwendungen wie Frage-Antworten-Systeme einsetzbar. Google hat die BERT-Technik in die eigene Google-Suche implementiert.

(© aga7ta - stock.adobe.com)

GatorTron ist ein von der University of Florida (UF) Health für den medizinischen Bereich entwickeltes Natural-Language-Processing-Modell. Es basiert auf der Transformer-Architektur und dem Megatron-Framework von Nvidia. Mit seinen rund neun Milliarden Parametern ist GatorTron das aktuell größte medizinische NLP-Modell. Für das Training wurden von der UF Health bereitgestellte, anonymisierte medizinische Daten von über zwei Millionen Patienten verwendet.

(© aga7ta - stock.adobe.com)

Der Aufmerksamkeitsmechanismus wird eingesetzt, um Beschränkungen einfacher Encoder-Decoder-Modelle zu beseitigen und die Effizienz von Machine-Learning-Modellen zu steigern. Modelle mit integrierten Aufmerksamkeitsmechanismen lassen sich beispielsweise für das Natural Language Processing oder die Bilderkennung verwenden. Moderne, auf der Transformer-Architektur basierende Sprachmodelle wie GPT-3 nutzen Mechanismen der Selbstaufmerksamkeit.

(© aga7ta - stock.adobe.com)

Der Zero Redundancy Optimizer (ZeRO) ist zusammen mit der DeepSpeed-Library einsetzbar und optimiert den Speicherbedarf für das Training von großen Deep-Learning-Modellen mit vielen Milliarden Parametern. ZeRO wurde von Microsoft entwickelt und ist unter Open-Source-Lizenz frei verfügbar. Verwendet wurde der Zero Redundancy Optimizer beispielsweise für das Training der Sprachmodelle GPT-2 und Turing-NLG 17B.

(© aga7ta - stock.adobe.com)

Process Mining gehört zu den Data-Mining-Techniken und ermöglicht eine systematische, datengestützte Auswertung von Geschäftsprozessen. Digitale Spuren der Prozesse, wie sie die beteiligten IT-Systeme beispielsweise in Form von Log- und Event-Daten bereitstellen, werden vom Process Mining analysiert. Die Geschäftsprozesse lassen sich mithilfe des Process Minings rekonstruieren, überwachen, durchleuchten und optimieren.

(© aga7ta - stock.adobe.com)

GloVe ist ein unüberwachter Lernalgorithmus zur Repräsentation von Wörtern in einem multidimensionalen Vektorraum. Er wurde an der Stanford-Universität entwickelt und stellt Wörter in Form von multidimensionalen Vektoren dar. Die mit dem Algorithmus generierten Worteinbettungen lassen sich für Machine-Learning-Algorithmen und Aufgabenstellungen des Natural Language Processings wie Named Entity Recognition (NER) oder Part-of-Speech Tagging (POS-Tagging) verwenden.

(© aga7ta - stock.adobe.com)

BiLSTM-CRF ist ein Modell für neuronale Netzwerke, das beispielsweise für Aufgaben des Natural Language Processings wie Named Entity Recognition (NER) oder Part-of-Speech-Tagging (POS-Tagging) einsetzbar ist. Es kombiniert Bidirectional Long Short-term Memory mit einem CRF-Layer (Conditional Random Field Layer). Auf BiLSTM-CRF basierende Netzwerke erzielen gute NER- und POS-Tagging-Ergebnisse.

(© aga7ta - stock.adobe.com)

Google LaMDA ist ein auf Künstlicher Intelligenz (KI) basierendes Sprachmodell, das auf Dialoge spezialisiert ist. Mit dem Sprachmodell Google LaMDA sollen fundierte Dialoge und natürliche Gespräche mit offener Themenwahl möglich werden. Das Sprachmodell wurde mit Dialogdaten trainiert und basiert auf der Transformer-Architektur. Es kann sowohl die Rolle eines Gesprächspartners einnehmen als auch aus der Sicht von Gegenständen oder Objekten antworten.

(© aga7ta - stock.adobe.com)

Als Knowledge Base Construction wird der Prozess des Aufbaus einer Wissensdatenbank bezeichnet. Hierfür werden Informationen aus verschiedenen strukturierten und unstrukturierten Datenquellen extrahiert und miteinander zu Wissen verknüpft. Datenquellen sind beispielsweise Texte, Tabellen, Bilder, Diagramme, Datenbanken, Audio- und Video-Files und anderes. Auf Basis einer Wissensdatenbank lassen sich Anwendungen wie Expertensysteme oder Chatbots realisieren.

(© aga7ta - stock.adobe.com)

uTensor ist ein Framework, mit dem sich Machine-Learning-Inferenz auf ressourcenbeschränkten Mikrocontrollern ausführen lässt. Das Framework besteht aus einer Runtime-Bibliothek und einem Offline-Tool. Mit dem Offline-Tool lassen sich trainierte Machine-Learning-Modell in lesbaren C++-Code konvertieren. Dieser Code eignet sich für die Verwendung auf Mbed-Plattformen und ARM-Mikrocontroller.

(© aga7ta - stock.adobe.com)

CMSIS-NN ist Bestandteil des Common Microcontroller Software Interface Standards. Die Bibliothek steht unter Open-Source-Lizenz und stellt die Kernels für eine effiziente Verarbeitung neuronaler Netze auf ARM-Cortex-M-Plattformen zur Verfügung. Mithilfe von CMSIS-NN lassen sich Anwendungen neuronaler Netze auf ressourcenbeschränkten Mikrocontroller-Plattformen realisieren – beispielsweise für Anwendungen des Internets der Dinge (IoT).

(© aga7ta - stock.adobe.com)

Zero-Shot-Lernen (ZSL) ist eine Methode, die für Maschinelles Lernen zum Einsatz kommt. ML-Modelle erhalten mit ZSL die Fähigkeit, Instanzen zu klassifizieren, für die sie während des Trainings keine Beispiele gesehen haben. Die Menge gelabelter Trainingsdaten lässt sich mit dem Zero-Shot-Lernen reduzieren. Neue Klassen werden ohne ein vorheriges Beispiel gelernt, indem Informationen bereits vorhandener Klassen kombiniert oder semantische Informationen ausgewertet werden.

(© aga7ta - stock.adobe.com)

Low-Shot-Lernen ist eine Methode des Machine Learnings (ML).

(© aga7ta - stock.adobe.com)

Word Sense Disambiguation ist die Bestimmung der beabsichtigten Bedeutung mehrdeutiger Wörter oder Ausdrücke mithilfe des Kontexts, indem sie verwendet werden. Für die Computerlinguistik ist Word Sense Disambiguation eine wichtige Aufgabe. Nur durch die Bestimmung des genauen Wortsinns lassen sich Anwendungen wie maschinelle Übersetzungen oder sprachverstehende Systeme realisieren. Es existieren zahlreiche verschiedene Methoden zur Wortsinn-Disambiguierung.

(© aga7ta - stock.adobe.com)

Nvidia Megatron ist ein Framework für die Machine-Learning-Open-Source-Programmbibliothek PyTorch. Mit Megatron lassen sich große neuronale Sprachmodelle trainieren, die auf der Transformer-Architektur basieren. Entwickelt wurde das Framework vom Nvidia Applied Deep Learning Research Team. Nvidia Megatron kam beispielsweise für das Training des Megatron-Turing Natural Language Generation Models (MT-NLG) zum Einsatz.

(© aga7ta - stock.adobe.com)

DeepSpeed ist eine Library für PyTorch, die von Microsoft entwickelt wurde und unter Open-Source-Lizenz frei verfügbar ist. Die Bibliothek ist für die Optimierung des Trainings von Deep-Learning-Modellen vorgesehen. Sie ermöglicht ein effizientes und performantes verteiltes Training, indem sie den Bedarf an Rechenleistung und Arbeitsspeicher reduziert. DeepSpeed kommt zum Beispiel für das Training großer generativer Sprachmodelle mit vielen Parametern wie für das Modell Turing-NLG zum Einsatz.

(© aga7ta - stock.adobe.com)

STAC-M3 ist ein Tick-Analytics-Benchmark-Standard zur Messung der Performance bei der Arbeit mit großen Zeitreihendatensätzen (Tick-Datenbanken). Die Messmethode wurde vom STAC Benchmark Council für die Anforderungen des Finanzsektors und der Kapitalmärkte entworfen. Dem Council gehören Finanz- und IT-Unternehmen an. Die Testergebnisse lassen Rückschlüsse auf die Leistung der Soft- und Hardware inklusive Betriebssysteme, Datenbanken, Prozessoren, Serversysteme und Storage zu.

(© aga7ta - stock.adobe.com)

QNX ist ein Unix-ähnliches Echtzeitbetriebssystem, das auf eine Entwicklung an der kanadischen Universität Waterloo in den 1980er-Jahren zurückgeht. Das Betriebssystem hat einen Echtzeit-Mikrokernel und lässt sich auf eingebetteten Systemen für viele verschiedene Anwendungen einsetzen. Im Automotive-Bereich wird es beispielsweise für das Fahrzeug-Infotainment genutzt. Mittlerweile gehört das Betriebssystem zu BlackBerry. Der Quellcode des Kernels ist seit 2007 öffentlich zugänglich.

(© aga7ta - stock.adobe.com)

VxWorks ist ein proprietäres Real-Time Operating System von Wind River Systems. Es eignet sich für eine Vielzahl unterschiedlicher Prozessorarchitekturen. Die VxWorks-Entwicklungsumgebung ist auf verschiedenen Betriebssystemen wie Windows, Unix oder Linux einsetzbar. Typische Anwendungen von VxWorks sind in der Luft- und Raumfahrt, Medizintechnik, Industrieautomation, Netzwerktechnik und in zahlreichen weiteren Bereichen zu finden.

(© aga7ta - stock.adobe.com)

Digitalisierung bezeichnet im ursprünglichen Sinn das Umwandeln von analogen Werten in digitale Formate. Diese Daten lassen sich informationstechnisch verarbeiten. Oft steht der Begriff Digitalisierung aber auch für die digitale Revolution oder die digitale Transformation.

(© aga7ta - stock.adobe.com)

Im Internet der Dinge (Englisch: Internet of Things, IoT) bekommen Gegenstände eine eindeutige Identität und können miteinander kommunizieren oder Befehle entgegennehmen. Mit dem Internet of Things lassen sich Anwendungen automatisieren und Aufgaben ohne Eingriff von außen erledigen.

(© aga7ta - stock.adobe.com)

Machine Learning, im Deutschen maschinelles Lernen, ist ein Teilgebiet der künstlichen Intelligenz. Durch das Erkennen von Mustern in vorliegenden Datenbeständen sind IT-Systeme in der Lage, eigenständig Lösungen für Probleme zu finden.

(© aga7ta - stock.adobe.com)

SAP BW ist ein Business-Intelligence-Paket von SAP und ermöglicht umfangreiche Auswertungen und Reports auf Basis von unterschiedlichsten Unternehmensdaten. Es besteht aus einer Kombination von Datenbanken, Datenbankmanagement-Tools sowie Analyse und Reporting-Anwendungen.

(© aga7ta - stock.adobe.com)

Die Abkürzung NLP steht für Natural Language Processing und beschreibt Techniken und Methoden zur maschinellen Verarbeitung natürlicher Sprache. Ziel ist eine direkte Kommunikation zwischen Mensch und Computer auf Basis der natürlichen Sprache.

(© aga7ta - stock.adobe.com)

Das Business Intelligence Dashboard, kurz BI Dashboard, beschreibt ein Tool, das wichtige Indikatoren eines Unternehmens übersichtlich und stark verdichtet visualisiert. Das Dashboard führt eine Vielzahl an Zahlen in einer grafischen Anzeige zusammen.

(© aga7ta - stock.adobe.com)

In einem Cyber-physischen System (cyber-physical system, CPS) sind mechanische Komponenten über Netzwerke und moderne Informationstechnik miteinander verbunden. Sie ermöglichen die Steuerung und die Kontrolle von komplexen Systemen und Infrastrukturen. Für die Industrie 4.0 spielen Cyber-physische Systeme eine zentrale Rolle.

(© aga7ta - stock.adobe.com)

Das Data Warehouse stellt ein zentrales Datenbanksystem dar, das zu Analysezwecken im Unternehmen einsetzbar ist. Das System extrahiert, sammelt und sichert relevante Daten aus verschiedenen heterogenen Datenquellen und versorgt nachgelagerte Systeme.

(© aga7ta - stock.adobe.com)

Künstliche Neuronale Netze (KNN) sind inspiriert durch das menschliche Gehirn und lassen sich für maschinelles Lernen und die Künstliche Intelligenz einsetzen. Es lassen sich mit diesen Netzen verschiedene Problemstellungen computerbasiert lösen.

(© aga7ta - stock.adobe.com)

Eine Entität in der Informatik ist ein einzelnes, eindeutig identifizierbares Informationsobjekt. Es kann sich sowohl um existierende als auch um abstrakte Objekte handeln. Entitäten sind zusammen mit den Entitätstypen und Attributen sowie den Beziehungen zwischen den Entitäten wesentliche Elemente der Datenmodellierung.

(© aga7ta - stock.adobe.com)

Deep Learning ist ein Teilbereich des Machine Learnings und nutzt neuronale Netze sowie große Datenmengen. Die Lernmethoden richten sich nach der Funktionsweise des menschlichen Gehirns und resultieren in der Fähigkeit eigener Prognosen oder Entscheidungen.

(© aga7ta - stock.adobe.com)

Der Begriff ACID (Atomicity, Consistency, Isolation, Durability) beschreibt Regeln und Eigenschaften zur Durchführung von Transaktionen in Datenbankmanagementsystemen (DBMS). Hält die Transaktion das ACID-Prinzip ein, gelten die Informationen in den Datenbanksystemen als verlässlich und konsistent.

(© aga7ta - stock.adobe.com)

CRISP-DM (Cross Industry Standard Process for Data Mining) ist ein von der EU gefördertes, branchenübergreifendes Standardmodell für das Data Mining. Es wurde 1996 unter Mitarbeit zahlreicher namhafter Konzerne entwickelt und definiert insgesamt sechs verschiedene Prozessphasen. CRISP-DM ist anwendungsneutral und in beliebigen Bereichen einsetzbar.

(© aga7ta - stock.adobe.com)

Bei einem Chatbot handelt es sich um ein technisches Dialogsystem, mit dem per Texteingabe oder Sprache kommuniziert werden kann. Chatbots werden häufig eingesetzt, um Anfragen automatisiert und ohne direkten menschlichen Eingriff zu beantworten oder zu bearbeiten.

(© aga7ta - stock.adobe.com)

Das Datenbankmanagementsystem, abgekürzt DBMS, ist neben den eigentlichen Daten der wichtigste Bestandteil einer jeden Datenbank. Es übernimmt die Aufgabe der Organisation und Strukturierung der Daten. Gleichzeitig kontrolliert es lesende und schreibende Zugriffe.

(© aga7ta - stock.adobe.com)

Data Mining ist die systematische Anwendung computergestützter Methoden, um in vorhandenen Datenbeständen Muster, Trends oder Zusammenhänge zu finden. Zur Wissensentdeckung eingesetzte Algorithmen basieren unter anderem auf statistischen Methoden.

(© aga7ta - stock.adobe.com)

Relationale Datenbanken ist das am weitesten verbreitete Datenbankmodell. Es setzt auf das relationale Datenbankmodell, das auf der Speicherung von Informationen in verschiedenen Tabellen basiert, die untereinander über Beziehungen (Relationen) verknüpft sind.

(© aga7ta - stock.adobe.com)

Die Normalisierung findet bei relationalen Datenbankschemata statt und hat zum Ziel, Redundanzen, Inkonsistenzen und Anomalien zu vermeiden und zu beseitigen. Zur Durchführung kommen bis zu fünf verschiedene aufeinander aufbauende Normalformen zum Einsatz. Normalisierte Datenbanken folgen einem klar strukturierten Modell.

(© aga7ta - stock.adobe.com)

NoSQL steht für „Not only SQL“ und bezeichnet Datenbanksysteme, die einen nicht-relationalen Ansatz verfolgen. Diese Datenbanken, denen verschiedene Datenbankmodelle zugrunde liegen können, sind horizontal skalierbar und lassen sich für Big-Data-Anwendungen einsetzen.

(© aga7ta - stock.adobe.com)

Beim Data Lake handelt es sich um einen sehr großen Datenspeicher, der die Daten aus den unterschiedlichsten Quellen in ihrem Rohformat aufnimmt. Er kann sowohl unstrukturierte als auch strukturierte Daten enthalten und lässt sich für Big-Data-Analysen einsetzen.

(© aga7ta - stock.adobe.com)

Beim ETL-Prozess handelt es sich um mehrere Einzelschritte, durch die sich Daten aus verschiedenen Datenquellen per Extrahieren und Aufbereiten in ein Data Warehouse integrieren lassen. Der Prozess kommt häufig zur Verarbeitung großer Datenmengen im Big-Data- und Business-Intelligence-Umfeld zum Einsatz.

(© aga7ta - stock.adobe.com)

Random Forest ist ein Algorithmus, der sich für Klassifizierungs- und Regressionsaufgaben nutzen lässt. Er kombiniert die Ergebnisse vieler verschiedener Entscheidungsbäume, um bestmögliche Entscheidungen zu treffen. Der Lernalgorithmus gehört zu den Verfahren des überwachten Lernens und ist im Machine Learning einsetzbar. Das Verfahren ist relativ einfach und bietet kurze Trainingszeiten.

(© aga7ta - stock.adobe.com)

Bei Hadoop handelt es sich um ein auf Java basierendes Software Framework. Mit ihm lassen sich große Datenmengen auf verteilten Systemen in hoher Geschwindigkeit verarbeiten. Es ist zur Bewältigung der Datenverarbeitung im Big-Data-Umfeld geeignet.

(© aga7ta - stock.adobe.com)

Datenvalidierung prüft Daten auf Einhaltung bestimmter Validierungsregeln. Diese wurden zuvor aufgestellt und beinhalten beispielsweise Vorgaben zu Wertebereichen oder Formaten. Die Datenvalidierung verbessert die Ergebnisse der Datenverarbeitung und Datenanalyse. Sie kann bei der Eingabe der Daten, direkt vor dem Start oder während der Datenverarbeitung stattfinden.

(© aga7ta - stock.adobe.com)

Predictive Maintenance verfolgt als eine der Kernkomponenten von Industrie 4.0 einen vorausschauenden Ansatz und wartet Maschinen und Anlagen proaktiv, um Ausfallzeiten niedrig zu halten. Das Verfahren nutzt hierfür von Sensoren erfasste Messwerte und Daten.

(© aga7ta - stock.adobe.com)

Ein BLOB (Binary Large Object ) ist ein großes binäres Datenobjekt, das von Datenbanken meist in besonderer Form verarbeitet und gespeichert wird. Typische BLOBs sind Dateien wie Video-, Audio- oder Bilddateien

(© aga7ta - stock.adobe.com)

Das Convolutional Neural Network ist eine besondere Form des künstlichen neuronalen Netzwerks. Es besitzt mehrere Faltungsschichten und ist für maschinelles Lernen und Anwendungen mit Künstlicher Intelligenz (KI) im Bereich Bild- und Spracherkennung sehr gut geeignet.

(© aga7ta - stock.adobe.com)

Unstrukturierte Daten sind Informationen, die in einer nicht identifizierbaren und nicht normalisierten Datenstruktur vorliegen. Es kann sich beispielsweise um Texte, Bilder oder Audio- und Videodateien handeln. Im Big-Data-Umfeld haben unstrukturierte Daten eine große Bedeutung.

(© aga7ta - stock.adobe.com)

Eine Pivot-Tabelle strukturiert in Tabellenform vorliegende Daten, fasst sie zusammen und ermöglicht ihre Auswertung. Die Tabellenart gehört zu den Grundfunktionen aller gängigen Tabellenkalkulationsanwendungen. Für die Erstellung einer Pivot-Tabelle sind nur wenige Grundbedingungen zu erfüllen. Komplexe Formeln oder das Anwenden von SQL-Datenbankabfragen sind dank Pivot-Tabellen zum Teil überflüssig.

(© aga7ta - stock.adobe.com)

Apache Kafka ist eine Open Source Software, die die Speicherung und Verarbeitung von Datenströmen über eine verteilte Streaming-Plattform ermöglicht. Sie stellt verschiedene Schnittstellen bereit, um Daten in Kafka-Cluster zu schreiben, Daten zu lesen oder in und aus Drittsysteme zu importieren und zu exportieren.

(© aga7ta - stock.adobe.com)

Bei ODBC (Open Database Connectivity) handelt es sich um eine standardisierte, offene Schnittstelle für den Zugriff auf unterschiedliche Datenbankmanagementsysteme. Über ODBC-Treiber können Anwendungen direkt Anweisungen an Datenbanken erteilen oder Abfragen ausführen.

(© aga7ta - stock.adobe.com)

Das ARIMA-Modell ermöglicht die Beschreibung und Analyse von Zeitreihen. Es handelt sich um eine leistungsstarke Modellklasse, die den autoregressiven Teil und den gleitenden Mittelwertbeitrag des ARMA-Modells um die Differenzierung und Integration zur Trendbeseitigung und Herstellung der Stationarität erweitert.

(© aga7ta - stock.adobe.com)

Die Support Vector Machine (SVM) ist eine mathematische Methode, die im Umfeld des maschinellen Lernens zum Einsatz kommt. Sie gestattet das Klassifizieren von Objekten und ist vielfältig nutzbar. Unterstützt werden die lineare und die nicht-lineare Objektklassifizierung. Typische Anwendungsbereiche sind die Bild-, Text- oder Handschrifterkennung.

(© aga7ta - stock.adobe.com)

Big Data Analytics ermöglicht es, große Datenmengen aus unterschiedlichen Quellen zu analysieren. Die gewonnenen Informationen oder erkannten Muster lassen sich einsetzen, um beispielsweise Unternehmensprozesse zu optimieren.

(© aga7ta - stock.adobe.com)

Das Industrial Internet of Things (IIoT) stellt die industrielle Ausprägung des Internet of Things (IoT) dar. Es repräsentiert im Gegensatz zum IoT nicht die verbraucherorientierten Konzepte, sondern konzentriert sich auf die Anwendung des Internets der Dinge im produzierenden und industriellen Umfeld.

(© aga7ta - stock.adobe.com)

In einer Smart City werden moderne Technologien aus den Bereichen Energie, Mobilität, Stadtplanung, Verwaltung und Kommunikation so miteinander vernetzt, dass sich die Lebensqualität für die Bewohner steigert. Gleichzeitig profitiert die Nachhaltigkeit der Stadt.

Generative AI (Artificial Intelligence) ist eine Form von Künstlicher Intelligenz (KI), die auf Basis von Vorgaben und vorhandenen Informationen Inhalte generiert. Es kommen KI-Verfahren und -Technologien wie trainierte neuronale Netzwerke, maschinelles Lernen (Deep Learning) und KI-Algorithmen zum Einsatz, um nach Anweisungen Texte, Bilder, Audio- und Videoinhalte, Programmcode, 3D-Modelle und anderes zu erzeugen.

(© aga7ta - stock.adobe.com)

Die Smart Factory steht im Zentrum der sogenannten Industrie 4.0. Sie stellt eine Produktionsumgebung zur Verfügung, die sich im Idealfall ohne menschlichen Eingriff selbst organisiert. Dazu zählen Fertigungsanlagen und Logistiksysteme. Kernkomponenten sind cyber-physische Systeme und die intelligente Vernetzung.

(© aga7ta - stock.adobe.com)

Bei einem Management-Informationssystem (MIS) handelt es sich um ein computerunterstütztes Informationssystem, das wichtige Unternehmensinformationen für die Führungsebene sammelt und aufbereitet. Auf Basis der Informationen lassen sich Analysen durchführen, Probleme lösen oder strategische Entscheidungen treffen.

(© aga7ta - stock.adobe.com)

Ein Digitaler Zwilling repräsentiert ein reales Objekt in der digitalen Welt. Es kann sich um materielle oder immaterielle Objekte handeln. Die Digitalen Zwillinge sind aus Daten und Algorithmen aufgebaut und können über Sensoren mit der realen Welt gekoppelt sein. Für die Prozesse der Industrie 4.0 stellen Digitale Zwillinge die Basis dar.

(© aga7ta - stock.adobe.com)

Python ist eine Programmiersprache, die dank ihrer klaren Syntax und einfachen Lesbarkeit leicht zu erlernen ist und sich sehr vielseitig einsetzen lässt. Für die gängigen Betriebssysteme ist Python frei verfügbar. Die üblichen Programmierparadigmen wie die objektorientierte oder funktionale Programmierung werden unterstützt.

(© aga7ta - stock.adobe.com)

Der k-Means-Algorithmus ist ein Rechenverfahren, das sich für die Gruppierung von Objekten, die sogenannte Clusteranalyse, einsetzen lässt. Dank der effizienten Berechnung der Clusterzentren und dem geringen Speicherbedarf eignet sich der Algorithmus sehr gut für die Analyse großer Datenmengen, wie sie im Big-Data-Umfeld üblich sind.

(© aga7ta - stock.adobe.com)

Data Literacy oder Datenkompetenz beschreibt die Fähigkeit, mit Daten kompetent umzugehen. Sie umfasst verschiedene Einzelkompetenzen, um Daten zu erfassen, anzupassen, zu verändern, zu interpretieren und zu präsentieren. Die Datenkompetenz ist Grundlage und wichtiger Skill der Digitalisierung.

(© aga7ta - stock.adobe.com)

XGBoost ist eine frei verfügbare Bibliothek mit Open-Source-Lizenz. Sie ermöglicht überwachtes maschinelles Lernen mit dem Boosted-Tree-Algorithmus, einem Baumalgorithmus mit Gradient Boosting. Die Bibliothek ist für Betriebssysteme wie Linux, Windows oder macOS verfügbar und arbeitet mit Programmiersprachen wie C++, Java, Python, R und Julia.

(© aga7ta - stock.adobe.com)

Total Cost of Ownership, abgekürzt TCO, ist eine ganzheitliche Kostenbetrachtung von Produkten, Gütern oder Services, die nicht nur die Anschaffungskosten, sondern auch laufende direkte und indirekt Kosten über den kompletten Lebenszyklus hinweg berücksichtigt. Die Kostenbetrachtung bietet wichtige Hilfestellungen zur Beantwortung betriebswirtschaftlicher Fragestellungen wie Investitionsentscheidungen.

(© aga7ta - stock.adobe.com)

Die IT-Strategie macht Vorgaben über die zukünftige Entwicklung der Informationstechnik (IT) und IT-Infrastruktur eines Unternehmens. Sie folgt immer der Unternehmensstrategie und ist eine zentrale Komponente des IT-Managements. Ziel der Strategie ist es, durch das Management der IT und die Definition der Rahmenbedingungen die langfristigen Unternehmensziele zu erreichen.

(© aga7ta - stock.adobe.com)

OPC UA (Open Platform Communications Unified Architecture) ist eine Sammlung von Standards für die Kommunikation und den Datenaustausch im Umfeld der Industrieautomation. Mithilfe von OPC UA werden sowohl der Transport von Machine-to-Machine-Daten als auch Schnittstellen und die Semantik von Daten beschrieben. Die komplette Architektur ist serviceorientiert aufgebaut.

(© aga7ta - stock.adobe.com)

Neben dem Data Owner hat der Data Steward eine Schlüsselposition in der Umsetzung der Data Governance inne. Er ist verantwortlich für die Einhaltung der Datenqualität und setzt die strategischen Vorgaben der Data Governance fachlich um. Innerhalb des Unternehmens agiert er als Ansprechpartner für die verschiedenen Fachabteilungen bei Fragen oder Problemen zur Datenqualität.

(© aga7ta - stock.adobe.com)

Ein Key Performance Indicator, kurz KPI, ist eine aussagekräftige Kennzahl, mit der sich die Leistung einer Aktivität einer Organisation oder eines Unternehmens messen lässt. Es existieren viele verschiedene KPIs für unterschiedlichen Unternehmensbereiche und Tätigkeiten. Die leicht verständlichen Leistungsindikatoren können zur kontinuierlichen Überprüfung der Zielerreichung eingesetzt werden.

(© aga7ta - stock.adobe.com)

Data Science ist eine angewandte, interdisziplinäre Wissenschaft. Ziel der Datenwissenschaft ist es, Wissen aus Daten zu generieren, um beispielsweise die Unternehmenssteuerung zu optimieren oder die Entscheidungsfindung zu unterstützen. Es kommen Methoden und Wissen aus verschiedenen Bereichen wie Mathematik, Statistik, Stochastik, Informatik und Branchen-Know-how zum Einsatz.

1
...
5
6
7
...
16