Definition

Was ist SolR?

| Autor / Redakteur: Tutanch / Nico Litzel

(Bild: © aga7ta - stock.adobe.com)

SolR basiert auf der Java-Bibliothek von Apache Lucene und stellt mächtige Suchfunktionen zur Verfügung, die sich auch im Big-Data-Umfeld einsetzen lassen. Zur Kommunikation nutzt SolR das Hypertext Transfer Protocol (HTTP) und unterstützt Dateiformate wie XML, JSON oder PDF.

Bei SolR, ausgesprochen „Solar“, handelt es sich um eine Open-Source-basierte Suchplattfom aus dem Apache-Lucene-Projekt. Die Software ist in Java geschrieben und stellt eine Vielzahl an Suchfunktionen bereit. SolR ist fehlertolerant und sehr gut skalierbar. Die Suchplattform lässt sich daher für Anwendungen im Big-Data-Umfeld einsetzen.

Apache Lucene und Apache SolR stammen vom gleichen Entwicklungsteam der Apache Software Foundation. SolR läuft als eigenständiger Full-Text-Such-Server und verwendet die Java-Such-Bibliothek von Lucene. Über Plug-ins lässt sich SolR sehr gut an spezifische Anforderungen anpassen. Typische Anwendungsbereiche sind Anwendungen für die unternehmensinterne Suche und Suchfunktionen für Onlineshops oder E-Commerce-Applikationen. SolR kann auch Dokumente und E-Mail-Anhänge durchsuchen. Stärken sind die Unterstützung verschiedener Dateiformate von PDF über JSON und XML bis zu Microsoft-Office-Dateien. Programmierschnittstellen stehen für die gängigen Programmiersprachen wie Python, Ruby oder JavaScript zur Verfügung.

Für die Kommunikation setzt die Software das Hypertext Transfer Protocol (HTTP) ein. Über HTTP POST und HTTP GET lassen sich Abfragen ausführen und Dokumente erstellen. Lizenziert ist SolR unter Apache License 2.0 als Open Source Software. Dank einer großen Community an Entwicklern hat sich SolR als eine beliebte Alternative zu kommerziellen Suchplattformen und -lösungen etabliert.

Abgrenzung zwischen Lucene und SolR

SolR und Lucene sind deutlich voneinander abgrenzbar. Während es sich bei Lucene um ein Framework für die Entwicklung von Suchmaschinen handelt, ist SolR eine Server-Software, die die Indizierung von Datenbeständen und die Suche nach Informationen als Service zur Verfügung stellt. Lucene erfordert daher die Programmierung von Suchanwendungen, SolR muss nach der Installation nur noch für die gewünschten Suchfunktionen konfiguriert werden.

Häufig genutzte Funktionen von SolR

SolR bietet einen riesigen Umfang mächtiger Funktionen rund um die Suche. Häufig genutzte Funktionen sind beispielsweise:

  • Indexierungsfunktionen in nahezu Echtzeit,
  • die Replikation von Indices im Push-Verfahren,
  • erweiterte Volltextsuchen,
  • Sortierung nach Relevanz oder Rankinglisten,
  • Verfeinerung von Suchergebnissen,
  • Treffer-Highlighting,
  • geobasierte Suchfunktionen,
  • Extraktion von Metadaten,
  • Rechtschreibvorschläge, Auto-Vervollständigen, Stammworterkennung sowie
  • erweiterbare Cachingfunktionen.

Vorteile beim Einsatz von SolR

Zahlreiche Vorteile sprechen für den Einsatz der Suchplattform SolR. Wichtige Vorteile sind:

  • Unterstützung verteilter Architekturen und großer Datenmengen,
  • Unterstützung eines hohen Verkehrsaufkommens,
  • Transaktionslogs für das Vermeiden von Datenverlust,
  • Bereitstellung umfangreicher Serverstatistiken
  • Mechanismen für automatisch Failover- und Recovery-Funktionen,
  • gute Skalierbarkeit,
  • flexible Einsatzmöglichkeiten,
  • modularer Aufbau, einfach zu erweitern sowie
  • Load-Banlancing-Funktionen für höhere Abfrageleistungen.

Skalierbarkeit von SolR

Eine der großen Stärken von SolR ist die gute Skalierbarkeit. Verteilte Architekturen lassen sich beispielsweise über Apache Zookeeper fehlertolerant bedienen. Die Rechenleistung kann flexibel verändert werden, während sich SolR um die Lastverteilung kümmert. Bei Kapazitätserweiterungen ist es nicht zwingend erforderlich, den kompletten Inhalt erneut zu indizieren. Per User-Interfaces erhalten Anwender einen detaillierten Überblick über den jeweiligen Status im Clusterverbund. Die Anzahl der in die Suchplattform integrierbaren Rechner ist nahezu unbegrenzt. Milliarden von Dokumenten sind mit einem hohen Abfrageaufkommen prozessierbar. Die Suchkapazität und Skalierbarkeit erfüllen problemlos die Anforderungen von Big-Data-Anwendungen.

Typischer Ablauf einer Suche mit SolR

Bei der Suche mit SolR werden typischerweise die folgenden vier Schritte nacheinander durchlaufen:

  • 1. Indizierung
  • 2. Abfragen
  • 3. Mapping
  • 4. Darstellung und Sortierung der Ergebnisse

Im ersten Schritt erfolgt die Indexierung der zu durchsuchenden Dateien. Hierfür werden sie in ein maschinenlesbares Format, den Index, übersetzt. Anschließend findet die Übersetzung der Sucheingaben und Suchbegriffe der User oder der Anwendung statt. Diese Suchbegriffe werden im Mapping auf die Dokumente des Index angewandt, um die gewünschten Ergebnisse zu finden. Die von der Suchmaschine gelieferten Ergebnisse werden anschließend nach bestimmten Kriterien wie Relevanz sortiert und gelistet.

Anwendungsbereiche und vorhandene Integrationen von SolR

Die Suchplattform SolR bietet sich überall dort an, wo schnell auf bestimmte Informationen oder Dokumente eines großen Datenbestands zugegriffen werden soll. Die Suchlogiken von SolR unterstützen komplexe Suchen und lassen sich auf Unternehmensservern, Onlineshops oder in Applikationen einsetzen. Typische Anwendungen sind die Suche in unternehmensinternen Dokumentenmanagementsystemen, Suchfunktionen im E-Commerce-Umfeld, die Navigation durch umfangreichen Web-Content oder die Suche in CRM- und CMS-Anwendungen. Viele Content-Management-Systeme und andere Anwendungen stellen integrierte Suchfunktionen auf Basis von SolR bereit. Dazu zählen beispielsweise verschiedene Hadoop-Distributionen der Big-Data-Lösungen von Hortonworks, Cloudera oder MapR.

Kommentare werden geladen....

Kommentar zu diesem Artikel abgeben

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Aktuelle Beiträge zu diesem Thema

IoT-Basics – die technische Basis von Big Data

Data Science

IoT-Basics – die technische Basis von Big Data

Big Data beinhaltet eine Reihe von IT-Techniken wie Cluster Computing und MapReduce sowie mathematisch-statistischer Verfahren (Data Mining, Machine Learning). Der Beitrag gibt einen Überblick über die relevanten Datenbankenkonzepte (Hadoop- und NoSQL-Datenbanken) und Programmiersprachen. lesen

So analysieren Sie große Datenmengen mit Apache Storm

Big Data in Echtzeit verarbeiten

So analysieren Sie große Datenmengen mit Apache Storm

Mit Apache Storm lassen sich Daten in Big-Data-Systemen in Echtzeit verarbeiten. Das Tool arbeitet mit verschiedenen Datenquellen zusammen und fügt sich optimal in Hadoop-Umgebungen ein. lesen

Datastax-Nutzer setzen auf Cloud Service

NoSQL-Datenbanken und Big Data

Datastax-Nutzer setzen auf Cloud Service

Datastax gehört zu den erfolgreichen „Resten“ der NoSQL-Gründungswelle der Nuller-Jahre. Das Unternehmen bietet nun seine Datenbank auch in der Oracle-Cloud an, denn die Mehrzahl der Anwender nutzt sie bereits als Cloud-Service. Viel Engagement fließt in Weiterbildung und Unterstützung der Anwender bei der Implementierung neuer Geschäftsmodelle. lesen

Elasticsearch-Modul für Magnolia CMS

CMS-Such-Schnittstelle

Elasticsearch-Modul für Magnolia CMS

Um große Datenmengen effizient durchsuchbar zu machen, kommen meistens Apache Solr und Elasticsearch zum Einsatz, zwei Enterprise Suchtechnologien, die den Markt für hochperformante Suchserver anführen. lesen

5 Schritte, mit denen Sie Ihren Hadoop Cluster sicherer machen

Schutz vor Ransomware

5 Schritte, mit denen Sie Ihren Hadoop Cluster sicherer machen

Hadoop-Anwender müssen sich derzeit vor Hacker-Angriffen in Acht nehmen: Laut den Sicherheitsforschern von Threat Geek werden Nutzer von Hadoop-Distributed-File-System-Installationen (HDFS) angegriffen. Die Kriminellen „leeren“ die Hadoop-Datenbank und bieten dann den Opfern an, die gestohlenen Daten gegen Zahlung eines Lösegeldes wieder herauszugeben. Von solchen Angriffen dürften weltweit 8.000 bis 10.000 HDFS-Installationen betroffen sein. lesen

ASF veröffentlicht Lucene und Solr 6.4

Starkes Such-Team

ASF veröffentlicht Lucene und Solr 6.4

Die Entwickler des Lucene-Projekts haben Apache Lucene und Apache Solr auf die Version 6.4 aktualisiert. Lucene bringt vor allem eine verbesserte Textanalyse und Solr beherrscht jetzt den Learning-To-Rank-Algorithmus. lesen

Ein Hadoop-Server in jedem Fahrzeug

Nachbericht Hortonworks-Roadshow in München

Ein Hadoop-Server in jedem Fahrzeug

120 Besucher kamen zur Hortonworks-Roadshow nach München – unter anderem, um Christopher Goth kennenzulernen, den neuen Verantwortlichen für die Region Deutschland, Österreich und die Schweiz. lesen

Riak – die Big-Data-Datenbank

Open-Source-Datenbank fürs Internet der Dinge

Riak – die Big-Data-Datenbank

Mit der Open-Source-Datenbank Riak können Unternehmen NoSQL-, Zeitreihen- und Objekt-Speicher realisieren, vor allem im Zusammenspiel mit IoT-Szenarien (Internet of Things). Die Lösung arbeitet mit Apache Spark, Redis und Apache Solr zusammen. In Big-Data-Umgebungen und Hybrid-Clouds werden darüber hinaus ebenfalls leistungsstarke und skalierbare Datenbanken benötigt. Auch hier kann Riak interessant sein. lesen

Neue Lösungen machen Hadoop unternehmensreif

Kommentar von Bernard Doering, Cloudera

Neue Lösungen machen Hadoop unternehmensreif

Mit Big Data lassen sich Daten analysieren, um daraus Neues zu lernen, Theorien mit Fakten zu untermauern oder neue Produkte und vor allem Dienstleistungen zu entwickeln. Analysen versprechen Erkenntnisse für klügere geschäftliche Entscheidungen, Wettbewerbsvorteile, bessere Kundenbeziehungen sowie ganz neue Produkte. Basis für jedes Big-Data-Projekt ist jedoch zuerst einmal das Handling der riesigen Datenmengen. lesen

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 45373709 / Definitionen)