Dipl.-Ing. (FH) Stefan Luber ♥ BigData-Insider

Dipl.-Ing. (FH) Stefan Luber

Stefan Luber arbeitet als freiberuflicher Autor und technischer Redakteur für IT-Fachthemen und deckt als Dipl.-Ing. (FH) der Nachrichtentechnik ein breites Spektrum an IT-Themen ab.

Artikel des Autors

0102192446 (Bild: © aga7ta - stock.adobe.com)
Definition

Was ist LAMBADA (LAnguage-Model-BAsed Data Augmentation)?

LAMBADA (LAnguage-Model-BAsed Data Augmentation) ist eine Methode, mit der sich auf Basis vorhandener Trainingsdaten weitere Trainingsdaten synthetisch erstellen lassen. Die Trainingsdaten werden mithilfe eines bereits trainierten und speziell feinabgestimmten Sprachmodells automatisch erzeugt. Typischer Einsatzzweck der generierten Daten ist das Training von Modellen zur Textklassifizierung im NLP-Bereich. Ein Training mit den synthetisch vermehrten Daten verbessert die Textklassifizierungsleistung der Modelle in vielen Fällen signifikant.

Weiterlesen
0102192446 (Bild: © aga7ta - stock.adobe.com)
Definition

Was ist ChatGPT?

ChatGPT ist der Prototyp eines dialogorientierten Chatbots des US-Unternehmens OpenAI. Er basiert auf dem Sprachmodell GPT-3 (Generative Pretrained Transformer 3) und ist seit November 2022 für die Öffentlichkeit frei zugänglich. Der Chatbot ist thematisch nicht eingeschränkt und kommuniziert in verschiedenen Sprachen. Er versteht Eingaben in natürlicher Sprache und produziert Antworten, die nur schwer von menschlichen Antworten zu unterscheiden sind.

Weiterlesen
0102192446 (Bild: © aga7ta - stock.adobe.com)
Definition

Was ist BoolQ?

BoolQ ist der Name eines Datensatzes mit knapp 16.000 Fragen, die mit ja oder nein zu beantworten sind. Er lässt sich einsetzen, um die NLI-Leistung (Natural Language Inference) und die Fähigkeit eines trainierten Sprachmodells zur Beantwortung von Fragen zu prüfen und zu bewerten. Jede Aufgabe besteht aus der Frage selbst und einem Absatz aus einem Wikipedia-Artikel, aus dem sich die richtige Antwort ableiten lässt.

Weiterlesen
0102192446 (Bild: © aga7ta - stock.adobe.com)
Definition

Was ist PIQA?

PIQA ist ein Datensatz zur Bewertung der Fähigkeit von NLP-Systemen zu vernünftigen Schlussfolgerungen auf Basis ihres physisch-technischen Wissens. Er besteht aus mehreren tausend Fragestellungen für Training, Entwicklung und Bewertung der Sprachmodelle. Das NLP-System muss zu jeder Frage die richtige aus den beiden vorgegebenen Antworten wählen. Während Menschen eine Erfolgsquote von fast 95 Prozent erreichen, liegen aktuelle Sprachmodelle maximal in einem Bereich um die 80 Prozent.

Weiterlesen
0102192446 (Bild: © aga7ta - stock.adobe.com)
Definition

Was ist WinoGrande?

WinoGrande ist ein großer Datensatz zur Bewertung der Fähigkeit von NLP-Systemen zu vernünftigen Schlussfolgerungen. Der Datensatz besteht aus insgesamt 44.000 Problemstellungen, die vom Sprachmodell gelöst werden müssen. Inspiriert ist WinoGrande von der Winograd Schema Challenge. WinoGrande besteht aber aus wesentlich mehr Problemstellungen und ist für NLP-Systeme schwieriger zu lösen. Entwickelt wurde der Datensatz vom Allen Institute for Artificial Intelligence und der University of Washington.

Weiterlesen
0102192446 (Bild: © aga7ta - stock.adobe.com)
Definition

Was ist HellaSwag?

HellaSwag ist ein großer Datensatz, mit dem sich die Fähigkeiten der Commonsense Natural Language Inference (NLI) von Sprachmodellen beurteilen und messen lässt. Der Datensatz besteht aus tausenden von Fortsetzungsaufgaben. Es muss zwischen mehreren vorgegebenen Alternativen jeweils die richtige Fortsetzung eines mit wenigen Sätzen beschriebenen Sachverhalts gefunden werden. HellaSwag ist mit gesundem Menschenverstand relativ einfach zu lösen, stellt Sprachmodelle aber vor größere Herausforderungen.

Weiterlesen
0102192446 (Bild: © aga7ta - stock.adobe.com)
Definition

Was ist TriviaQA?

TriviaQA ist ein Datensatz zum Testen des Leseverständnisses und der Fähigkeit zum Beantworten von Fragen. Er kommt für Benchmarks von Sprachmodellen zum Einsatz und besteht aus 95.000 Frage-Antwort-Paaren mit 650.000 zugehörigen Nachweistexten. Entwicklungsziel von TriviaQA war es, schwer zu beantwortende Fragen mit hoher syntaktischer und lexikalischer Variabilität zusammenzustellen. Die Beantwortung erfordert ein Verständnis längerer Textpassagen und die Fähigkeit zu logischen Schlussfolgerungen.

Weiterlesen
0102192446 (Bild: © aga7ta - stock.adobe.com)
Definition

Was ist Dunkelverarbeitung?

Dunkelverarbeitung bezeichnet Geschäftsprozesse, die vollständig automatisiert im Hintergrund ablaufen. Die Verarbeitung findet IT-gestützt, ohne menschliches Eingreifen statt. Üblich ist die Dunkelverarbeitung in der Versicherungsbranche, in der ein hoher Prozentsatz der Geschäftsabläufe auf diese Weise prozessiert wird. Beispiele für typische Aufgaben der Dunkelverarbeitung sind Bestandsdatenänderungen, Vorsortierung von E-Mails oder das Erstellen und Versenden von Rechnungen.

Weiterlesen
0102192446 (Bild: © aga7ta - stock.adobe.com)
Definition

Was ist das Generalist Language Model (GLaM)?

Das Generalist Language Model ist ein riesiges KI-Sprachmodell von Google. Es wurde 2021 vorgestellt und hat 1,2 Billionen Parameter. GLaM zeichnet sich durch einen geringen Energieverbrauch und eine hohe NLP-Leistung aus. Im Vergleich zu GPT-3 ist es siebenmal größer, verbraucht aber beim Training nur rund ein Drittel der Energie von GPT-3. Das Sprachmodell hat eine Mixture-of-Experts-Architektur (MoE) mit 32 MoE-Schichten und jeweils 64 Experten-Netzen.

Weiterlesen
0102192446 (Bild: © aga7ta - stock.adobe.com)
Definition

Was ist Matter?

Matter ist ein neuer, herstellerübergreifender Verbindungsstandard für das interoperable Smart Home. Er ist aus einer Initiative mehrerer Hersteller entstanden. Die Spezifikation Matter 1.0 ist seit Oktober 2022 fertiggestellt. Erste Matter-zertifizierte Geräte sollen noch in diesem Jahr verfügbar sein. Ziel der Entwicklung des Matter-Standards ist es, die Interoperabilität zwischen Hausautomatisierungsgeräten zu verbessern und eine zunehmende Fragmentierung im Smart-Home-Umfeld zu verhindern.

Weiterlesen
0102192446 (Bild: © aga7ta - stock.adobe.com)
Definition

Was ist BigQuery Omni?

BigQuery Omni ist eine von Google im Jahr 2020 vorgestellte Multi-Cloud-Analytics-Lösung. Sie ermöglicht Datenanalysen in Multi-Cloud-Umgebungen, ohne die Notwendigkeit, Daten zwischen Clouds zu verschieben oder zu kopieren. Unterstützt werden die Cloud-Plattformen Microsoft Azure und Amazon Web Services (AWS) sowie On-premises-Cloud-Infrastrukturen. Von einer einheitlichen BigQuery-Benutzeroberfläche aus lassen sich die Daten direkt dort analysieren, wo sie gespeichert sind.

Weiterlesen
0102192446 (Bild: © aga7ta - stock.adobe.com)
Definition

Was ist Cloudera?

Cloudera ist ein US-Softwareunternehmen aus dem Big-Data-Umfeld. Es bietet Lösungen und Produkte für die datengetriebene digitale Transformation und die Bewältigung und Analyse großer Datenmengen. Basis bildet eine hybride Datenplattform mit einheitlicher Data Fabric, skalierbarem Data Mesh und offenen Data Lakehouse. 2022 brachte Cloudera die Data Platform (CDP) One für schnelle und einfache Self-Service-Analysen und explorative Datenanalysen als SaaS-Angebot auf den Markt.

Weiterlesen
0102192446 (Bild: © aga7ta - stock.adobe.com)
Definition

Was ist Neural Gas?

Neural Gas ist ein Algorithmus, mit dem sich vektorielle Daten klassifizieren lassen. Er ist von der Arbeitsweise Selbstorganisierender Karten inspiriert (Self-Organizing Maps – SOM), auch Kohonen-Karten genannt). Mithilfe eines neuronalen Netzwerks und unüberwachtem Lernen ist Neural Gas für Aufgaben wie die Datenkomprimierung oder Vektorquantisierung einsetzbar. Typische Anwendungsbereiche sind Cluster-Analysen, Mustererkennung, die Verarbeitung natürlicher Sprache oder die Bildverarbeitung.

Weiterlesen
0102192446 (Bild: © aga7ta - stock.adobe.com)
Definition

Was sind Selbstorganisierende Karten?

Bei Selbstorganisierenden Karten (Self-Organizing Maps – SOM) handelt es sich um künstliche neuronale Netzwerke, die für unüberwachte Lernverfahren einsetzbar sind. Die Funktionsweise ist dem zerebralen Kortex des menschlichen Gehirns nachempfunden. Selbstorganisierende Karten erlauben eine dimensionsreduzierte, topologische Darstellung hochdimensionaler Eingangsdaten. Typischer Einsatzbereich von Self-Organizing Maps ist das Data Mining.

Weiterlesen
0102192446 (Bild: © aga7ta - stock.adobe.com)
Definition

Was ist SQuAD (Stanford Question Answering Dataset)?

Bei SQuAD handelt es sich um eine Sammlung von Frage-/Antwortpaaren zu Wikipedia-Artikeln, mit dem sich das Textverständnis von NLP-Modellen trainieren, testen und vergleichen lässt. Die NLP-Modelle müssen die richtigen Antworten auf verschiedene Fragen zu Auszügen aus Wikipedia-Texten finden. Der Datensatz enthält über 100.000 Frage-/Antwortpaare zu mehr als 500 ausgewählten Wikipedia-Artikeln. Mittlerweile existiert eine Version SQuAD 2.0, die die 100.000 Fragen um 50.000 nicht beantwortbare Fragen ergänzt.

Weiterlesen
0102192446 (Bild: © aga7ta - stock.adobe.com)
Definition

Was ist SWAG (Situations With Adversarial Generations)?

SWAG ist die Bezeichnung für einen großen Datensatz mit über 100.000 Satzvervollständigungsaufgaben. Mit ihm lassen sich Natural-Language-Understanding-Modelle (NLU-Modelle) hinsichtlich ihres allgemeinen Weltwissens und ihrer Fähigkeit zu logischen Schlussfolgerungen prüfen. Das zu beurteilende Modell muss aus vier vorgegebenen Möglichkeiten die jeweils plausibelste Fortsetzung einer textlich beschriebenen Videoszene auswählen. Ergebnisse lassen sich über ein Leaderboard online veröffentlichen.

Weiterlesen
0102192446 (Bild: © aga7ta - stock.adobe.com)
Definition

Was ist GLUE (General Language Understanding Evaluation)?

GLUE ist ein Multitask-Benchmark und eine Analyse-Plattform für NLU-Modelle (Natural Language Understanding). Das Verständnis natürlicher Sprache wird mithilfe verschiedener Aufgaben geprüft und beurteilt. Das Benchmarking besteht aus insgesamt neun verschiedenen NLU-Aufgaben. Über eine Online-Plattform lassen sich die Ergebnisse der getesteten Modelle veröffentlichen und vergleichen. Ziel von GLUE ist es, die Leistung von NLU-Systemen vergleichbar zu machen und deren Entwicklung voranzubringen.

Weiterlesen
0102192446 (Bild: © aga7ta - stock.adobe.com)
Definition

Was ist Massive Machine Type Communication (mMTC)?

Bei Massive Machine Type Communication (mMTC) handelt es sich um eines von mehreren Anforderungsprofilen für 5G-Mobilfunknetze. Es ist für die energieeffiziente Vernetzung einer großen Zahl sporadisch und nur mit niedrigen Datenmengen kommunizierender Geräte aus dem IoT- und M2M-Umfeld vorgesehen. Zu diesen Geräten zählen zum Beispiel Sensoren oder intelligente Zähler in Energienetzen.

Weiterlesen
0102192446 (Bild: © aga7ta - stock.adobe.com)
Definition

Was ist ein Data Engineer?

Ein Data Engineer schafft die Grundlagen für eine professionelle Nutzung von Daten. Er trägt Daten zusammen, bereitet sie auf und stellt sie Datenkonsumenten wie Datenwissenschaftlern oder Datenanalysten zur Verfügung. Neben dem Erstellen von Datenpipelines beschäftigt er sich mit relationalen Datenbanken, Big-Data- und Cloud-Technologien, ETL-Tools und einigem mehr. Ein Data Engineer benötigt umfangreiches Wissen im Bereich Datenverarbeitung und Dateninfrastrukturen.

Weiterlesen
0102192446 (Bild: © aga7ta - stock.adobe.com)
Definition

Was ist ein Data Architect?

Ein Data Architect übersetzt geschäftliche und prozessuale Anforderungen in eine ganzheitliche Datenarchitektur. Er ist für Design, Implementierung und Pflege dieser Architektur verantwortlich. Zu seinen Aufgaben zählen unter anderem die Auswahl des Technologie-Stacks, die Entscheidung für On-premises- oder cloudbasierte Architekturen und die Festlegung von Datenquellen. Im Vergleich zum Data Engineer ist er weniger praktisch, sondern mehr konzeptionell und strategisch tätig.

Weiterlesen
0102192446 (Bild: © aga7ta - stock.adobe.com)
Definition

Was ist der Dirichlet-Prozess?

Beim Dirichlet-Prozess handelt es sich um eine Familie stochastischer Prozesse der Wahrscheinlichkeitstheorie. Er basiert auf der nach Johann Peter Gustav Lejeune Dirichlet benannten Dirichletverteilung, einer Familie multivarianter Wahrscheinlichkeitsverteilungen. Der Dirichlet-Prozess bildet eine Wahrscheinlichkeitsverteilung von Wahrscheinlichkeitsverteilungen. Einsatzbereiche sind die bayessche Inferenz und Anwendungen wie maschinelles Lernen, Data Mining oder die Verarbeitung natürlicher Sprache.

Weiterlesen
0102192446 (Bild: © aga7ta - stock.adobe.com)
Definition

Was ist die Levenshtein-Distanz?

Die Levenshtein-Distanz ist die minimale Anzahl der notwendigen Änderungen, um zwei Zeichenketten aneinander anzugleichen. Sie wird auch als Editierdistanz bezeichnet und ermöglicht computerbasiert zu berechnen, wie ähnlich zwei Zeichenketten sind. Der Algorithmus arbeitet mit einer Matrixberechnung. Typischerweise kommt die Editierdistanz für Anwendungen wie die Rechtschreibprüfung oder für Suchfunktionen zum Einsatz.

Weiterlesen
0102192446 (Bild: © aga7ta - stock.adobe.com)
Definition

Was ist Latent Dirichlet Allocation (LDA)?

Latent Dirichlet Allocation (LDA) ist ein für die Themenmodellierung eingesetztes generatives, statistisches Wahrscheinlichkeitsmodell. Es ist in der Lage, latente Themen eines Dokuments zu identifizieren und Wörter diesen Themen zuzuordnen. LDA wird häufig im Umfeld der Verarbeitung natürlicher Sprache (Natural Language Processing – NLP) verwendet, ist aber auch in der Bildverarbeitung und anderen Anwendungen, wie in der Bioinformatik, einsetzbar.

Weiterlesen
0102192446 (Bild: © aga7ta - stock.adobe.com)
Definition

Was ist Chinchilla?

Chinchilla ist ein sehr leistungsfähiges Sprachmodell von DeepMind. Es umfasst „nur“ 70 Milliarden Parameter, wurde aber mit 1,4 Billionen Token trainiert. Chinchilla übertrifft Sprachmodelle mit wesentlich mehr Parametern wie GPT-3, Gopher oder Megatron-Turing NLG in fast allen NLP-Benchmarks. Das Chinchilla-Sprachmodell geht auf ein 2022 von DeepMind veröffentlichtes Paper zurück, das das optimale Verhältnis der Anzahl von Parametern und Trainings-Token von Sprachmodellen empirisch untersucht.

Weiterlesen
0102192446 (Bild: © aga7ta - stock.adobe.com)
Definition

Was ist Apache Pulsar?

Apache Pulsar ist der Name eines verteilten Publish-Subscribe-Messaging-Systems der Apache Software Foundation (ASF). Die Open Source Software wurde ursprünglich von Yahoo entwickelt und konkurriert mit anderen Messaging- und Streaming-Systemen wie Apache Kafka. Als dauerhaften Nachrichtenspeicher nutzt Pulsar Apache BookKeeper. Das Messaging-System arbeitet Cloud-nativ, ist in großem Umfang skalierbar, bietet eine niedrige Latenz und garantiert die Zustellung der Nachrichten.

Weiterlesen
0102192446 (Bild: © aga7ta - stock.adobe.com)
Definition

Was ist PaLM (Pathways Language Model)?

Das Pathways Language Model (PaLM) ist ein von Google 2022 vorgestelltes Sprachmodell. Es hat 540 Milliarden Parameter und erzielt in verschiedenen NLP-Benchmarks beeindruckende Ergebnisse. In einigen Bereichen soll es mit menschlichen Leistungen vergleichbar sein. PaLM nutzt die multitaskingfähige Pathways-KI-Architektur. Trainiert wurde das Sprachmodell per Few-Shot Learning auf dem Pathways-System mit 6.144 TPU-v4-Chips.

Weiterlesen
0102192446 (Bild: © aga7ta - stock.adobe.com)
Definition

Was ist Vertex AI?

Vertex AI ist ein voll gemanagter Cloud-Service der Google Cloud Platform (GCP). Er stellt eine Machine-Learning-Plattform für alle Lebenszyklen von Machine-Learning-Anwendungen bereit – vom Training der Modelle bis zu ihrem produktiven Einsatz. KI-Tools wie AutoML, AI Platform und viele weitere sind über eine einheitliche Benutzeroberfläche und API erreichbar. Die Plattform ist für Datenwissenschaftler und ML-Engineers konzipiert und deckt das MLOps-Konzept (Machine Learning Operations) ab

Weiterlesen
0102192446 (Bild: © aga7ta - stock.adobe.com)
Definition

Was ist Spanner Change Streams?

Mit Spanner Change Streams lassen sich Änderungen in einer Google-Cloud-Spanner-Datenbank in nahezu Echtzeit nachverfolgen und streamen. Change Streams sind für komplette Datenbanken oder einzelne Tabellen und Tabellenbereiche konfigurierbar. Das Change-Streams-Feature ist Bestandteil von Google Cloud Spanner, einem Cloud-Service für relationale Datenbanken, und wird ohne Extrakosten im Rahmen des nutzungsbasierten Preismodells abgerechnet.

Weiterlesen
0102192446 (Bild: © aga7ta - stock.adobe.com)
Definition

Was ist Google Cloud Spanner?

Google Cloud Spanner ist ein cloudbasierter Service für eine vollständig von Google verwaltete relationale Datenbank. Sie wird auf der Google Cloud Platform (GCP) produziert und ist horizontal skalierbar. Die Datenbank bietet SQL-Unterstützung, strikte Konsistenz und eine Verfügbarkeit von bis zu 99,999 Prozent. Der global verteilte Datenbankdienst steht für Google-Kunden seit 2017 öffentlich zur Verfügung und dient auch als Basis zahlreicher interner Services von Google.

Weiterlesen
0102192446 (Bild: © aga7ta - stock.adobe.com)
Definition

Was ist BigQuery?

BigQuery ist ein Analytics-Webservice von Google. Der Webservice wird auf der Google Cloud Platform (GCP) produziert und stellt ein vollständig von Google verwaltetes, serverloses Data Warehouse zur Verfügung. BigQuery eignet sich für die Abfrage, Analyse und Verarbeitung großer Datenmengen. Abfragen sind über SQL möglich. Die Cloud-Data-Warehouse-Lösung bietet einen nativen Support von Künstlicher Intelligenz und maschinellem Lernen.

Weiterlesen
 (© aga7ta - stock.adobe.com)
Definition

Was ist Digitalisierung?

Digitalisierung bezeichnet im ursprünglichen Sinn das Umwandeln von analogen Werten in digitale Formate. Diese Daten lassen sich informationstechnisch verarbeiten. Oft steht der Begriff Digitalisierung aber auch für die digitale Revolution oder die digitale Transformation.

Weiterlesen
 (© aga7ta - stock.adobe.com)
Definition

Was ist SAP BW?

SAP BW ist ein Business-Intelligence-Paket von SAP und ermöglicht umfangreiche Auswertungen und Reports auf Basis von unterschiedlichsten Unternehmensdaten. Es besteht aus einer Kombination von Datenbanken, Datenbankmanagement-Tools sowie Analyse und Reporting-Anwendungen.

Weiterlesen
 (© aga7ta - stock.adobe.com)
Definition

Was ist das Internet of Things?

Im Internet der Dinge (Englisch: Internet of Things, IoT) bekommen Gegenstände eine eindeutige Identität und können miteinander kommunizieren oder Befehle entgegennehmen. Mit dem Internet of Things lassen sich Anwendungen automatisieren und Aufgaben ohne Eingriff von außen erledigen.

Weiterlesen
 (© aga7ta - stock.adobe.com)
Definition

Was ist Machine Learning?

Machine Learning, im Deutschen maschinelles Lernen, ist ein Teilgebiet der künstlichen Intelligenz. Durch das Erkennen von Mustern in vorliegenden Datenbeständen sind IT-Systeme in der Lage, eigenständig Lösungen für Probleme zu finden.

Weiterlesen
 (© aga7ta - stock.adobe.com)
Definition

Was ist Natural Language Processing?

Die Abkürzung NLP steht für Natural Language Processing und beschreibt Techniken und Methoden zur maschinellen Verarbeitung natürlicher Sprache. Ziel ist eine direkte Kommunikation zwischen Mensch und Computer auf Basis der natürlichen Sprache.

Weiterlesen
 (© aga7ta - stock.adobe.com)
Definition

Was ist ein Cyber-physisches System (CPS)?

In einem Cyber-physischen System (cyber-physical system, CPS) sind mechanische Komponenten über Netzwerke und moderne Informationstechnik miteinander verbunden. Sie ermöglichen die Steuerung und die Kontrolle von komplexen Systemen und Infrastrukturen. Für die Industrie 4.0 spielen Cyber-physische Systeme eine zentrale Rolle.

Weiterlesen
 (© aga7ta - stock.adobe.com)
Definition

Was ist ein Data Warehouse?

Das Data Warehouse stellt ein zentrales Datenbanksystem dar, das zu Analysezwecken im Unternehmen einsetzbar ist. Das System extrahiert, sammelt und sichert relevante Daten aus verschiedenen heterogenen Datenquellen und versorgt nachgelagerte Systeme.

Weiterlesen
 (© aga7ta - stock.adobe.com)
Definition

Was ist ein Neuronales Netz?

Künstliche Neuronale Netze (KNN) sind inspiriert durch das menschliche Gehirn und lassen sich für maschinelles Lernen und die Künstliche Intelligenz einsetzen. Es lassen sich mit diesen Netzen verschiedene Problemstellungen computerbasiert lösen.

Weiterlesen
 (© aga7ta - stock.adobe.com)
Definition

Was ist Deep Learning?

Deep Learning ist ein Teilbereich des Machine Learnings und nutzt neuronale Netze sowie große Datenmengen. Die Lernmethoden richten sich nach der Funktionsweise des menschlichen Gehirns und resultieren in der Fähigkeit eigener Prognosen oder Entscheidungen.

Weiterlesen
 (© aga7ta - stock.adobe.com)
Definition

Was ist CRISP-DM?

CRISP-DM (Cross Industry Standard Process for Data Mining) ist ein von der EU gefördertes, branchenübergreifendes Standardmodell für das Data Mining. Es wurde 1996 unter Mitarbeit zahlreicher namhafter Konzerne entwickelt und definiert insgesamt sechs verschiedene Prozessphasen. CRISP-DM ist anwendungsneutral und in beliebigen Bereichen einsetzbar.

Weiterlesen
 (© aga7ta - stock.adobe.com)
Definition

Was ist ein Datenbankmanagementsystem?

Das Datenbankmanagementsystem, abgekürzt DBMS, ist neben den eigentlichen Daten der wichtigste Bestandteil einer jeden Datenbank. Es übernimmt die Aufgabe der Organisation und Strukturierung der Daten. Gleichzeitig kontrolliert es lesende und schreibende Zugriffe.

Weiterlesen
 (© aga7ta - stock.adobe.com)
Definition

Was ist eine relationale Datenbank?

Relationale Datenbanken ist das am weitesten verbreitete Datenbankmodell. Es setzt auf das relationale Datenbankmodell, das auf der Speicherung von Informationen in verschiedenen Tabellen basiert, die untereinander über Beziehungen (Relationen) verknüpft sind.

Weiterlesen
 (© aga7ta - stock.adobe.com)
Definition

Was ist Data Mining?

Data Mining ist die systematische Anwendung computergestützter Methoden, um in vorhandenen Datenbeständen Muster, Trends oder Zusammenhänge zu finden. Zur Wissensentdeckung eingesetzte Algorithmen basieren unter anderem auf statistischen Methoden.

Weiterlesen
 (© aga7ta - stock.adobe.com)
Definition

Was ist eine Entität?

Eine Entität in der Informatik ist ein einzelnes, eindeutig identifizierbares Informationsobjekt. Es kann sich sowohl um existierende als auch um abstrakte Objekte handeln. Entitäten sind zusammen mit den Entitätstypen und Attributen sowie den Beziehungen zwischen den Entitäten wesentliche Elemente der Datenmodellierung.

Weiterlesen
 (© aga7ta - stock.adobe.com)
Definition

Was ist NoSQL?

NoSQL steht für „Not only SQL“ und bezeichnet Datenbanksysteme, die einen nicht-relationalen Ansatz verfolgen. Diese Datenbanken, denen verschiedene Datenbankmodelle zugrunde liegen können, sind horizontal skalierbar und lassen sich für Big-Data-Anwendungen einsetzen.

Weiterlesen
 (© aga7ta - stock.adobe.com)
Definition

Was ist ACID?

Der Begriff ACID (Atomicity, Consistency, Isolation, Durability) beschreibt Regeln und Eigenschaften zur Durchführung von Transaktionen in Datenbankmanagementsystemen (DBMS). Hält die Transaktion das ACID-Prinzip ein, gelten die Informationen in den Datenbanksystemen als verlässlich und konsistent.

Weiterlesen
 (© aga7ta - stock.adobe.com)
Definition

Was ist ein Chatbot?

Bei einem Chatbot handelt es sich um ein technisches Dialogsystem, mit dem per Texteingabe oder Sprache kommuniziert werden kann. Chatbots werden häufig eingesetzt, um Anfragen automatisiert und ohne direkten menschlichen Eingriff zu beantworten oder zu bearbeiten.

Weiterlesen
 (© aga7ta - stock.adobe.com)
Definition

Was ist ein Data Lake?

Beim Data Lake handelt es sich um einen sehr großen Datenspeicher, der die Daten aus den unterschiedlichsten Quellen in ihrem Rohformat aufnimmt. Er kann sowohl unstrukturierte als auch strukturierte Daten enthalten und lässt sich für Big-Data-Analysen einsetzen.

Weiterlesen
 (© aga7ta - stock.adobe.com)
Definition

Was ist Normalisierung?

Die Normalisierung findet bei relationalen Datenbankschemata statt und hat zum Ziel, Redundanzen, Inkonsistenzen und Anomalien zu vermeiden und zu beseitigen. Zur Durchführung kommen bis zu fünf verschiedene aufeinander aufbauende Normalformen zum Einsatz. Normalisierte Datenbanken folgen einem klar strukturierten Modell.

Weiterlesen
 (© aga7ta - stock.adobe.com)
Definition

Was ist Hadoop?

Bei Hadoop handelt es sich um ein auf Java basierendes Software Framework. Mit ihm lassen sich große Datenmengen auf verteilten Systemen in hoher Geschwindigkeit verarbeiten. Es ist zur Bewältigung der Datenverarbeitung im Big-Data-Umfeld geeignet.

Weiterlesen
 (© aga7ta - stock.adobe.com)
Definition

Was ist Validierung?

Datenvalidierung prüft Daten auf Einhaltung bestimmter Validierungsregeln. Diese wurden zuvor aufgestellt und beinhalten beispielsweise Vorgaben zu Wertebereichen oder Formaten. Die Datenvalidierung verbessert die Ergebnisse der Datenverarbeitung und Datenanalyse. Sie kann bei der Eingabe der Daten, direkt vor dem Start oder während der Datenverarbeitung stattfinden.

Weiterlesen
 (© aga7ta - stock.adobe.com)
Definition

Was ist ETL (Extract, Transform, Load)?

Beim ETL-Prozess handelt es sich um mehrere Einzelschritte, durch die sich Daten aus verschiedenen Datenquellen per Extrahieren und Aufbereiten in ein Data Warehouse integrieren lassen. Der Prozess kommt häufig zur Verarbeitung großer Datenmengen im Big-Data- und Business-Intelligence-Umfeld zum Einsatz.

Weiterlesen
 (© aga7ta - stock.adobe.com)
Definition

Was ist Predictive Maintenance?

Predictive Maintenance verfolgt als eine der Kernkomponenten von Industrie 4.0 einen vorausschauenden Ansatz und wartet Maschinen und Anlagen proaktiv, um Ausfallzeiten niedrig zu halten. Das Verfahren nutzt hierfür von Sensoren erfasste Messwerte und Daten.

Weiterlesen
 (© aga7ta - stock.adobe.com)
Definition

Was ist Random Forest?

Random Forest ist ein Algorithmus, der sich für Klassifizierungs- und Regressionsaufgaben nutzen lässt. Er kombiniert die Ergebnisse vieler verschiedener Entscheidungsbäume, um bestmögliche Entscheidungen zu treffen. Der Lernalgorithmus gehört zu den Verfahren des überwachten Lernens und ist im Machine Learning einsetzbar. Das Verfahren ist relativ einfach und bietet kurze Trainingszeiten.

Weiterlesen
 (© aga7ta - stock.adobe.com)
Definition

Was ist Apache Kafka?

Apache Kafka ist eine Open Source Software, die die Speicherung und Verarbeitung von Datenströmen über eine verteilte Streaming-Plattform ermöglicht. Sie stellt verschiedene Schnittstellen bereit, um Daten in Kafka-Cluster zu schreiben, Daten zu lesen oder in und aus Drittsysteme zu importieren und zu exportieren.

Weiterlesen
 (© aga7ta - stock.adobe.com)
Definition

Was ist ein BLOB?

Ein BLOB (Binary Large Object ) ist ein großes binäres Datenobjekt, das von Datenbanken meist in besonderer Form verarbeitet und gespeichert wird. Typische BLOBs sind Dateien wie Video-, Audio- oder Bilddateien

Weiterlesen
 (© aga7ta - stock.adobe.com)
Definition

Was ist ein Convolutional Neural Network?

Das Convolutional Neural Network ist eine besondere Form des künstlichen neuronalen Netzwerks. Es besitzt mehrere Faltungsschichten und ist für maschinelles Lernen und Anwendungen mit Künstlicher Intelligenz (KI) im Bereich Bild- und Spracherkennung sehr gut geeignet.

Weiterlesen
 (© aga7ta - stock.adobe.com)
Definition

Was ist ODBC?

Bei ODBC (Open Database Connectivity) handelt es sich um eine standardisierte, offene Schnittstelle für den Zugriff auf unterschiedliche Datenbankmanagementsysteme. Über ODBC-Treiber können Anwendungen direkt Anweisungen an Datenbanken erteilen oder Abfragen ausführen.

Weiterlesen
 (© aga7ta - stock.adobe.com)
Definition

Was sind unstrukturierte Daten?

Unstrukturierte Daten sind Informationen, die in einer nicht identifizierbaren und nicht normalisierten Datenstruktur vorliegen. Es kann sich beispielsweise um Texte, Bilder oder Audio- und Videodateien handeln. Im Big-Data-Umfeld haben unstrukturierte Daten eine große Bedeutung.

Weiterlesen
 (© aga7ta - stock.adobe.com)
Definition

Was ist eine Pivot-Tabelle?

Eine Pivot-Tabelle strukturiert in Tabellenform vorliegende Daten, fasst sie zusammen und ermöglicht ihre Auswertung. Die Tabellenart gehört zu den Grundfunktionen aller gängigen Tabellenkalkulationsanwendungen. Für die Erstellung einer Pivot-Tabelle sind nur wenige Grundbedingungen zu erfüllen. Komplexe Formeln oder das Anwenden von SQL-Datenbankabfragen sind dank Pivot-Tabellen zum Teil überflüssig.

Weiterlesen
 (© aga7ta - stock.adobe.com)
Definition

Was ist Big Data Analytics?

Big Data Analytics ermöglicht es, große Datenmengen aus unterschiedlichen Quellen zu analysieren. Die gewonnenen Informationen oder erkannten Muster lassen sich einsetzen, um beispielsweise Unternehmensprozesse zu optimieren.

Weiterlesen
 (© aga7ta - stock.adobe.com)
Definition

Was ist das Industrial Internet of Things (IIoT)?

Das Industrial Internet of Things (IIoT) stellt die industrielle Ausprägung des Internet of Things (IoT) dar. Es repräsentiert im Gegensatz zum IoT nicht die verbraucherorientierten Konzepte, sondern konzentriert sich auf die Anwendung des Internets der Dinge im produzierenden und industriellen Umfeld.

Weiterlesen
 (© aga7ta - stock.adobe.com)
Definition

Was ist eine Smart Factory?

Die Smart Factory steht im Zentrum der sogenannten Industrie 4.0. Sie stellt eine Produktionsumgebung zur Verfügung, die sich im Idealfall ohne menschlichen Eingriff selbst organisiert. Dazu zählen Fertigungsanlagen und Logistiksysteme. Kernkomponenten sind cyber-physische Systeme und die intelligente Vernetzung.

Weiterlesen
 (© aga7ta - stock.adobe.com)
Definition

Was ist eine Smart City?

In einer Smart City werden moderne Technologien aus den Bereichen Energie, Mobilität, Stadtplanung, Verwaltung und Kommunikation so miteinander vernetzt, dass sich die Lebensqualität für die Bewohner steigert. Gleichzeitig profitiert die Nachhaltigkeit der Stadt.

Weiterlesen
 (© aga7ta - stock.adobe.com)
Definition

Was ist ein Digitaler Zwilling?

Ein Digitaler Zwilling repräsentiert ein reales Objekt in der digitalen Welt. Es kann sich um materielle oder immaterielle Objekte handeln. Die Digitalen Zwillinge sind aus Daten und Algorithmen aufgebaut und können über Sensoren mit der realen Welt gekoppelt sein. Für die Prozesse der Industrie 4.0 stellen Digitale Zwillinge die Basis dar.

Weiterlesen
 (© aga7ta - stock.adobe.com)
Definition

Was ist eine Support Vector Machine?

Die Support Vector Machine (SVM) ist eine mathematische Methode, die im Umfeld des maschinellen Lernens zum Einsatz kommt. Sie gestattet das Klassifizieren von Objekten und ist vielfältig nutzbar. Unterstützt werden die lineare und die nicht-lineare Objektklassifizierung. Typische Anwendungsbereiche sind die Bild-, Text- oder Handschrifterkennung.

Weiterlesen
 (© aga7ta - stock.adobe.com)
Definition

Was ist XGBoost?

XGBoost ist eine frei verfügbare Bibliothek mit Open-Source-Lizenz. Sie ermöglicht überwachtes maschinelles Lernen mit dem Boosted-Tree-Algorithmus, einem Baumalgorithmus mit Gradient Boosting. Die Bibliothek ist für Betriebssysteme wie Linux, Windows oder macOS verfügbar und arbeitet mit Programmiersprachen wie C++, Java, Python, R und Julia.

Weiterlesen
 (© aga7ta - stock.adobe.com)
Definition

Was ist das ARIMA-Modell?

Das ARIMA-Modell ermöglicht die Beschreibung und Analyse von Zeitreihen. Es handelt sich um eine leistungsstarke Modellklasse, die den autoregressiven Teil und den gleitenden Mittelwertbeitrag des ARMA-Modells um die Differenzierung und Integration zur Trendbeseitigung und Herstellung der Stationarität erweitert.

Weiterlesen
 (© aga7ta - stock.adobe.com)
Definition

Was ist Data Literacy?

Data Literacy oder Datenkompetenz beschreibt die Fähigkeit, mit Daten kompetent umzugehen. Sie umfasst verschiedene Einzelkompetenzen, um Daten zu erfassen, anzupassen, zu verändern, zu interpretieren und zu präsentieren. Die Datenkompetenz ist Grundlage und wichtiger Skill der Digitalisierung.

Weiterlesen
 (© aga7ta - stock.adobe.com)
Definition

Was ist ein Management-Informationssystem (MIS)?

Bei einem Management-Informationssystem (MIS) handelt es sich um ein computerunterstütztes Informationssystem, das wichtige Unternehmensinformationen für die Führungsebene sammelt und aufbereitet. Auf Basis der Informationen lassen sich Analysen durchführen, Probleme lösen oder strategische Entscheidungen treffen.

Weiterlesen
 (© aga7ta - stock.adobe.com)
Definition

Was ist Python?

Python ist eine Programmiersprache, die dank ihrer klaren Syntax und einfachen Lesbarkeit leicht zu erlernen ist und sich sehr vielseitig einsetzen lässt. Für die gängigen Betriebssysteme ist Python frei verfügbar. Die üblichen Programmierparadigmen wie die objektorientierte oder funktionale Programmierung werden unterstützt.

Weiterlesen
 (© aga7ta - stock.adobe.com)
Definition

Was ist OPC UA?

OPC UA (Open Platform Communications Unified Architecture) ist eine Sammlung von Standards für die Kommunikation und den Datenaustausch im Umfeld der Industrieautomation. Mithilfe von OPC UA werden sowohl der Transport von Machine-to-Machine-Daten als auch Schnittstellen und die Semantik von Daten beschrieben. Die komplette Architektur ist serviceorientiert aufgebaut.

Weiterlesen
 (© aga7ta - stock.adobe.com)
Definition

Was ist TCO (Total Cost of Ownership)?

Total Cost of Ownership, abgekürzt TCO, ist eine ganzheitliche Kostenbetrachtung von Produkten, Gütern oder Services, die nicht nur die Anschaffungskosten, sondern auch laufende direkte und indirekt Kosten über den kompletten Lebenszyklus hinweg berücksichtigt. Die Kostenbetrachtung bietet wichtige Hilfestellungen zur Beantwortung betriebswirtschaftlicher Fragestellungen wie Investitionsentscheidungen.

Weiterlesen
 (© aga7ta - stock.adobe.com)
Definition

Was ist eine IT-Strategie?

Die IT-Strategie macht Vorgaben über die zukünftige Entwicklung der Informationstechnik (IT) und IT-Infrastruktur eines Unternehmens. Sie folgt immer der Unternehmensstrategie und ist eine zentrale Komponente des IT-Managements. Ziel der Strategie ist es, durch das Management der IT und die Definition der Rahmenbedingungen die langfristigen Unternehmensziele zu erreichen.

Weiterlesen
 (© aga7ta - stock.adobe.com)
Definition

Was ist der k-Means-Algorithmus?

Der k-Means-Algorithmus ist ein Rechenverfahren, das sich für die Gruppierung von Objekten, die sogenannte Clusteranalyse, einsetzen lässt. Dank der effizienten Berechnung der Clusterzentren und dem geringen Speicherbedarf eignet sich der Algorithmus sehr gut für die Analyse großer Datenmengen, wie sie im Big-Data-Umfeld üblich sind.

Weiterlesen
 (© aga7ta - stock.adobe.com)
Definition

Was ist ein KPI (Key Performance Indicator)?

Ein Key Performance Indicator, kurz KPI, ist eine aussagekräftige Kennzahl, mit der sich die Leistung einer Aktivität einer Organisation oder eines Unternehmens messen lässt. Es existieren viele verschiedene KPIs für unterschiedlichen Unternehmensbereiche und Tätigkeiten. Die leicht verständlichen Leistungsindikatoren können zur kontinuierlichen Überprüfung der Zielerreichung eingesetzt werden.

Weiterlesen
 (© aga7ta - stock.adobe.com)
Definition

Was ist Data Science?

Data Science ist eine angewandte, interdisziplinäre Wissenschaft. Ziel der Datenwissenschaft ist es, Wissen aus Daten zu generieren, um beispielsweise die Unternehmenssteuerung zu optimieren oder die Entscheidungsfindung zu unterstützen. Es kommen Methoden und Wissen aus verschiedenen Bereichen wie Mathematik, Statistik, Stochastik, Informatik und Branchen-Know-how zum Einsatz.

Weiterlesen
 (© aga7ta - stock.adobe.com)
Definition

Was ist ein Data Steward?

Neben dem Data Owner hat der Data Steward eine Schlüsselposition in der Umsetzung der Data Governance inne. Er ist verantwortlich für die Einhaltung der Datenqualität und setzt die strategischen Vorgaben der Data Governance fachlich um. Innerhalb des Unternehmens agiert er als Ansprechpartner für die verschiedenen Fachabteilungen bei Fragen oder Problemen zur Datenqualität.

Weiterlesen
 (© aga7ta - stock.adobe.com)
Definition

Was ist CUDA?

CUDA ist eine von NVIDIA entwickelte Technologie und Programmierschnittstelle, mit der sich die Rechenleistung von Grafikprozessoren (GPUs) für Anwendungen nutzen lässt. Aufgrund der hohen Rechenleistung und parallelen Arbeitsweise der GPUs sind bei bestimmten Anwendungen enorme Performancegewinne erzielbar.

Weiterlesen