Definition Was ist Knowledge Base Construction?

Als Knowledge Base Construction wird der Prozess des Aufbaus einer Wissensdatenbank bezeichnet. Hierfür werden Informationen aus verschiedenen strukturierten und unstrukturierten Datenquellen extrahiert und miteinander zu Wissen verknüpft. Datenquellen sind beispielsweise Texte, Tabellen, Bilder, Diagramme, Datenbanken, Audio- und Video-Files und anderes. Auf Basis einer Wissensdatenbank lassen sich Anwendungen wie Expertensysteme oder Chatbots realisieren.

Anbieter zum Thema

(Bild: © aga7ta - stock.adobe.com)

Das Akronym für Knowledge Base Construction ist KBC. Der deutsche Begriff lautet „Aufbau einer Wissensdatenbank“. Unter Knowledge Base Construction versteht man den Prozess der Extraktion und Verknüpfung von Informationen aus verschiedenen Datenquellen und das Befüllen einer Datenbank mit dem aus den gewonnenen Informationen generierten Wissen. Die für Knowledge Base Construction genutzten Datenquellen können sehr unterschiedlich sein. Es kann sich sowohl um strukturierte als auch um unstrukturierte Datenquellen handeln. Von KBC genutzte Datenquellen sind beispielsweise Datenbanken, Texte, Tabellen, Diagramme, Bilder, Audio- und Video-Files, Internetseiten und vieles mehr.

Ziel von KBC ist es, die verteilt vorhandenen Informationen in Wissen zu überführen und in einem strukturierten Format abzulegen. Das in der Wissensdatenbank abgelegte Wissen ist einfacher zugänglich als die in den ursprünglichen Datenquellen verteilt vorhandenen Informationen und lässt sich für viele verschiedene Anwendungen wie Chatbots, Expertensysteme, Business-Intelligence-Anwendungen und anderes verwenden.

Es existieren zahlreiche Software-Lösungen, mit denen sich die Prozesse des Extrahierens und Verknüpfens von Informationen sowie des Generierens von Wissen und Befüllens von strukturierten Datenbanken mit diesem Wissen automatisieren lassen. Zum Einsatz kommen Verfahren und Lösungen aus dem Bereich der Künstlichen Intelligenz (KI), des Maschinellen Lernens (ML) und des Big-Data-Umfelds. Prozessuale Schritte im Rahmen von Knowledge Base Construction sind das Extrahieren von Entitäten, das Erkennen von Duplikaten, das Finden von Beziehungen, das Verknüpfen von Entitäten und die Validierung des Wissens. Das extrahierte Wissen kann beispielsweise in Form von Wissensgraphen dargestellt werden.

Beispiel für ein KBC-Open-Source-Framework ist Fonduer. Es ist für den Aufbau von Wissensdatenbanken und die Realisierung von KBC-Anwendungen aus vielfältig und stark formatierten Daten (Richly Formatted Data) vorgesehen. Vielfältig und stark formatierte Daten sind beispielsweise Webseiten, Datenblätter, wissenschaftliche Dokumente oder Geschäftsberichte.

Was ist eine Wissensdatenbank?

Knowledge Base Construction dient zum Aufbau von Wissensdatenbanken. Eine Wissensdatenbank ist eine spezielle Form einer strukturierten Datenbank, in der sich explizites und implizites Wissen hinterlegen und bereithalten lässt. Die Datenbank sammelt, verwertet und verknüpft Informationen unterschiedlicher Art zu Wissen. Das Wissen ist aufbereitet und für Nutzer und Anwendungen leicht zugänglich. Für die verschiedenen Anwendungen ist das Wissen maschinell interpretierbar. Die Wissensdatenbank lässt sich einfach nach bestimmten Themen oder Fragestellungen durchsuchen und liefert Antworten oder komplette Problemlösungen.

Wissensdatenbanken kommen für verschiedene Themenbereiche und Anwendungen zum Einsatz. Sie unterstützen beispielsweise bei medizinischen Diagnosen oder stellen einheitliche Standards für die Beantwortung von Kundenfragen zur Verfügung.

Wichtige Grundbegriffe von Knowledge Base Construction

Im Umfeld von Knowledge Base Construction ist immer wieder von bestimmten Grundbegriffen die Rede. Im Folgenden kurze Erklärungen einiger dieser Grundbegriffe:

Entität (Entity): Bei einer Entität handelt es sich um ein einzelnes, eindeutig identifizierbares Informationsobjekt. Dieses Objekt kann sowohl real wie eine Person als auch abstrakt wie ein Ereignis sein. Entitäten sind über Entitätsklassen, Entitätstypen, Attribute und Attributwerte genauer bestimmt.

Erwähnung (Mention): Ein Mention ist eine Erwähnung oder Referenz einer Entität in einer Datenquelle.

Mention-level-Datenquellen: Mention-level-Datenquellen sind Datenquellen mit Erwähnungen von Entitäten (zum Beispiel Texte).

Entitäten-Verknüpfungen: In den Entitäten-Verknüpfungen sind die Beziehungen verschiedener Entitäten untereinander abgebildet.

Wissensdatenbanken speichern Informationen über Entitäten und deren Beziehungen untereinander. Zum Teil sind diese Beziehungen in Form von grafischen Entity-Relationship-Diagrammen und Wissensgraphen abgebildet.

Konzeptioneller Aufbau eines KBC-Systems

Systeme, mit denen sich Knowledge Base Construction betreiben lässt, können je nach Domäne und Themengebiet sehr unterschiedlich sein. Häufig lässt sich der Aufbau aber in diese grundlegenden Ebenen unterteilen:

Die unterste Ebene bilden die Datenquellen. Es kann sich um verteilte Datenquellen oder zentral organisierte Datenquellen wie einen Data Lake handeln. In diesen Datenquellen sind Informationen in strukturierter oder unstrukturierter Form abgelegt. Die darüber befindliche Ebene enthält die notwendigen Komponenten, um Informationen aus den Datenquellen zu extrahieren und aufzubereiten. Aus den extrahierten Informationen generiert die darüber angeordnete Ebene Wissen, indem beispielsweise Entitäten in Beziehung gesetzt und Beziehungen in Graphen abgebildet werden. Bei den Komponenten dieser beiden Ebenen handelt es sich beispielsweise um KI-, ML-, Natural-Language-Processing- oder Data-Mining-Anwendungen. Die oberste Ebene hält das gewonnene Wissen in strukturierter, durchsuchbarer und leicht zugänglicher Art für Anwendungen und Nutzer bereit.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung

(ID:48089051)