Was ist SolR?

Definition Was ist SolR?

27.06.2018Autor / Redakteur: Dipl.-Ing. (FH) Stefan Luber / Nico Litzel

SolR basiert auf der Java-Bibliothek von Apache Lucene und stellt mächtige Suchfunktionen zur Verfügung, die sich auch im Big-Data-Umfeld einsetzen lassen. Zur Kommunikation nutzt SolR das Hypertext Transfer Protocol (HTTP) und unterstützt Dateiformate wie XML, JSON oder PDF.

Anbieter zum Thema

fsas-afc-horizontal-2-positive-rgb-nov24 (Fsas)

Fujitsu Technology Solutions GmbH

Disy Informationssysteme GmbH

BigData-Insider

Bei SolR, ausgesprochen „Solar“, handelt es sich um eine Open-Source-basierte Suchplattfom aus dem Apache-Lucene-Projekt. Die Software ist in Java geschrieben und stellt eine Vielzahl an Suchfunktionen bereit. SolR ist fehlertolerant und sehr gut skalierbar. Die Suchplattform lässt sich daher für Anwendungen im Big-Data-Umfeld einsetzen.

Apache Lucene und Apache SolR stammen vom gleichen Entwicklungsteam der Apache Software Foundation. SolR läuft als eigenständiger Full-Text-Such-Server und verwendet die Java-Such-Bibliothek von Lucene. Über Plug-ins lässt sich SolR sehr gut an spezifische Anforderungen anpassen. Typische Anwendungsbereiche sind Anwendungen für die unternehmensinterne Suche und Suchfunktionen für Onlineshops oder E-Commerce-Applikationen. SolR kann auch Dokumente und E-Mail-Anhänge durchsuchen. Stärken sind die Unterstützung verschiedener Dateiformate von PDF über JSON und XML bis zu Microsoft-Office-Dateien. Programmierschnittstellen stehen für die gängigen Programmiersprachen wie Python, Ruby oder JavaScript zur Verfügung.

Für die Kommunikation setzt die Software das Hypertext Transfer Protocol (HTTP) ein. Über HTTP POST und HTTP GET lassen sich Abfragen ausführen und Dokumente erstellen. Lizenziert ist SolR unter Apache License 2.0 als Open Source Software. Dank einer großen Community an Entwicklern hat sich SolR als eine beliebte Alternative zu kommerziellen Suchplattformen und -lösungen etabliert.

Abgrenzung zwischen Lucene und SolR

SolR und Lucene sind deutlich voneinander abgrenzbar. Während es sich bei Lucene um ein Framework für die Entwicklung von Suchmaschinen handelt, ist SolR eine Server-Software, die die Indizierung von Datenbeständen und die Suche nach Informationen als Service zur Verfügung stellt. Lucene erfordert daher die Programmierung von Suchanwendungen, SolR muss nach der Installation nur noch für die gewünschten Suchfunktionen konfiguriert werden.

Häufig genutzte Funktionen von SolR

SolR bietet einen riesigen Umfang mächtiger Funktionen rund um die Suche. Häufig genutzte Funktionen sind beispielsweise:

Indexierungsfunktionen in nahezu Echtzeit,

die Replikation von Indices im Push-Verfahren,

erweiterte Volltextsuchen,

Sortierung nach Relevanz oder Rankinglisten,

Verfeinerung von Suchergebnissen,

Treffer-Highlighting,

geobasierte Suchfunktionen,

Extraktion von Metadaten,

Rechtschreibvorschläge, Auto-Vervollständigen, Stammworterkennung sowie

erweiterbare Cachingfunktionen.

Vorteile beim Einsatz von SolR

Zahlreiche Vorteile sprechen für den Einsatz der Suchplattform SolR. Wichtige Vorteile sind:

Unterstützung verteilter Architekturen und großer Datenmengen,

Unterstützung eines hohen Verkehrsaufkommens,

Transaktionslogs für das Vermeiden von Datenverlust,

Bereitstellung umfangreicher Serverstatistiken

Mechanismen für automatisch Failover- und Recovery-Funktionen,

gute Skalierbarkeit,

flexible Einsatzmöglichkeiten,

modularer Aufbau, einfach zu erweitern sowie

Load-Banlancing-Funktionen für höhere Abfrageleistungen.

Skalierbarkeit von SolR

Eine der großen Stärken von SolR ist die gute Skalierbarkeit. Verteilte Architekturen lassen sich beispielsweise über Apache Zookeeper fehlertolerant bedienen. Die Rechenleistung kann flexibel verändert werden, während sich SolR um die Lastverteilung kümmert. Bei Kapazitätserweiterungen ist es nicht zwingend erforderlich, den kompletten Inhalt erneut zu indizieren. Per User-Interfaces erhalten Anwender einen detaillierten Überblick über den jeweiligen Status im Clusterverbund. Die Anzahl der in die Suchplattform integrierbaren Rechner ist nahezu unbegrenzt. Milliarden von Dokumenten sind mit einem hohen Abfrageaufkommen prozessierbar. Die Suchkapazität und Skalierbarkeit erfüllen problemlos die Anforderungen von Big-Data-Anwendungen.

Typischer Ablauf einer Suche mit SolR

Bei der Suche mit SolR werden typischerweise die folgenden vier Schritte nacheinander durchlaufen:

1. Indizierung

2. Abfragen

3. Mapping

4. Darstellung und Sortierung der Ergebnisse

Im ersten Schritt erfolgt die Indexierung der zu durchsuchenden Dateien. Hierfür werden sie in ein maschinenlesbares Format, den Index, übersetzt. Anschließend findet die Übersetzung der Sucheingaben und Suchbegriffe der User oder der Anwendung statt. Diese Suchbegriffe werden im Mapping auf die Dokumente des Index angewandt, um die gewünschten Ergebnisse zu finden. Die von der Suchmaschine gelieferten Ergebnisse werden anschließend nach bestimmten Kriterien wie Relevanz sortiert und gelistet.

Anwendungsbereiche und vorhandene Integrationen von SolR

Die Suchplattform SolR bietet sich überall dort an, wo schnell auf bestimmte Informationen oder Dokumente eines großen Datenbestands zugegriffen werden soll. Die Suchlogiken von SolR unterstützen komplexe Suchen und lassen sich auf Unternehmensservern, Onlineshops oder in Applikationen einsetzen. Typische Anwendungen sind die Suche in unternehmensinternen Dokumentenmanagementsystemen, Suchfunktionen im E-Commerce-Umfeld, die Navigation durch umfangreichen Web-Content oder die Suche in CRM- und CMS-Anwendungen. Viele Content-Management-Systeme und andere Anwendungen stellen integrierte Suchfunktionen auf Basis von SolR bereit. Dazu zählen beispielsweise verschiedene Hadoop-Distributionen der Big-Data-Lösungen von Hortonworks, Cloudera oder MapR.

(ID:45373709)