Suchen

Big-Data-Suchmaschine Das kann Yahoo Vespa

| Autor / Redakteur: Thomas Joos / Nico Litzel

Vespa wurde von Verizon, dem Eigentümer von Yahoo, als Open-Source-Lösung zur Verfügung gestellt. Damit haben Unternehmen die Möglichkeit, Flickr-Technologien auch für eigene Daten einzusetzen.

Firma zum Thema

Vespa ist eine „Big-Data-Suchmaschine“, die nicht einfach nur ein Suchergebnis anzeigt, sondern aus riesigen Datenmengen mithilfe von intelligenten Algorithmen genau das anzeigen kann, was der Anwender sucht.
Vespa ist eine „Big-Data-Suchmaschine“, die nicht einfach nur ein Suchergebnis anzeigt, sondern aus riesigen Datenmengen mithilfe von intelligenten Algorithmen genau das anzeigen kann, was der Anwender sucht.
(Bild: Yahoo Holdings 2018)

Bei Vespa handelt es sich um den Kern der Suchtechnologie von Yahoo. Die ehemalig größte Suchmaschine der Welt hat Vespa seinerzeit entwickelt, weil es noch keine Software gab, die Suchergebnisse im Internet optimal darstellen kann.

Die Technologie hat Yahoo, beziehungsweise dessen Eigentümer Verizon, jetzt als Open-Source-Technologie zur Verfügung gestellt. Vespa zeigt, einfach ausgedrückt, ein Suchergebnis an, wenn ein Anwender eine Suchanfrage in ein Textfeld eingibt. Vespa wird im Verizon-Konzern nicht nur für die Yahoo-Suche verwendet, sondern auch für Yahoo Mail – aber auch für den Bilderdienst Flickr und für die Verwaltung von mehreren Milliarden Werbeanzeigen.

Vespa zeigt dabei nicht einfach nur ein Suchergebnis an, sondern kann aus riesigen Datenmengen mit intelligenten Algorithmen genau das anzeigen, was der Anwender sucht. Selbst dann, wenn ein Anwender nicht eine korrekte und optimale Suchanfrage stellt, kann Vespa in Bruchteilen von Sekunden korrekte Ergebnisse anzeigen – dank seiner intelligenten Algorithmen.

Cluster-Architektur

Vespa kann riesige Datenmengen in einem Cluster verarbeiten, ohne dass ein Master zum Einsatz kommen muss. Generell sind alle Knoten im Cluster gleichberechtigt. Das heißt, Masterknoten im Cluster fallen als Flaschenhals aus, da alle Knoten sofort mit der Berechnung beginnen können.

Mit Vespa können Entwickler Daten mit einer nahezu unbeschränkten Größe schneller und unkomplizierter verarbeiten, als mit anderen Produkten. Die Schnittstelle zu Endanwendern ermöglicht außerdem die intelligente Präsentation von Big-Data-Informationen. Hier liegt auch der Schwerpunkt von Vespa.

Vespa gehört zu den internen Big-Data-Lösungen von Yahoo, die für eigene Dienste eingesetzt werden. Interessant ist das auch vor allem, weil Yahoo maßgeblich an der Entwicklung von Hadoop beteiligt war, also in diesem Bereich durchaus Erfahrung mit Produkten hat, die effektiv große Datenmengen verarbeiten können.

Große Datenmengen Endanwendern zur Verfügung stellen

Im Fokus von Vespa stehen die Endanwender. Diese sollen Ergebnisse über Abfragen von sehr großen Datenmengen erhalten können, ohne selbst die Technologien im Hintergrund zu verstehen. Lösungen wie Hadoop und Storm können zwar ebenfalls riesige Datenmengen sehr schnell verarbeiten, allerdings fehlt hier die Schnittstelle zu den Endanwendern. Das heißt, Vespa ersetzt Hadoop oder Storm nicht, sondern kann einen Hadoop-Cluster ergänzen, der auf Storm setzt. Die Benutzer erhalten Ergebnisse ihrer Suche in Echtzeit. Verarbeitet werden die Daten dabei im Vorfeld von Hadoop/Storm oder anderen Big-Data-Lösungen.

Vespa ist – einfach ausgedrückt – also eine Suchmaschine, die den Endanwendern Informationen zur Verfügung stellt, die mit Hadoop und Storm analysiert wurden. Allerdings handelt es sich bei Vespa nicht nur um ein Frontend. Die Big-Data-Lösung kann nämlich zusätzlich ebenfalls Daten analysieren. Vespa ist also nicht nur eine Suchmaschine für Big-Data-Umgebungen, sondern bietet intelligente Suchalgorithmen.

Die Suchmaschine gibt angepasste und intelligente Antworten zu Suchanfragen sowie optimierte Vorschläge. Dadurch lassen sich Suchergebnisse präziser gestalten und automatisiert filtern. Anwender erhalten also ein Suchergebnis, das perfekt für sie zugeschnitten ist, auch ohne selbst die richtigen Suchbegriffe zu kennen. Auch natürliche Sprache lässt sich integrieren sowie Suchergebnisse für spezifische Daten, wie zum Beispiel in der Medizin, Chemie, aber auch Empfehlungen.

Vespa mit Chatbots, Siri, Cortana und Google Assistant einsetzen

Auch zusammen mit Chatbots ist Vespa sinnvoll, genauso wie in der Zusammenarbeit mit persönlichen Assistenten wie Siri, Cortana oder Google Assistant. Denn auch diese Assistenten brauchen im Hintergrund eine intelligente Suchmaschine, die beim Präsentieren des richtigen Suchergebnisses helfen.

Wenn ein Anwender zum Beispiel nach einem bestimmten Ergebnis in Big-Data-Umgebung sucht, zeigt Vespa nicht nur die gefilterten Ergebnisse an. Die Open-Source-Lösung kann die Suchergebnisse nach Relevanz sortieren, doppelte Suchergebnisse entfernen und Empfehlungen geben. Auch Hinweise zu den Suchergebnissen können passend gegeben werden. Die ganzen Schritte zur optimierten Anzeige eines Suchergebnisses dürfen aber auch nicht zu lange dauern, sondern müssen sehr schnell abgeschlossen werden. Hier spielen also auch Machine-Learning-Ansätze eine wichtige Rolle. Vespa kann als lokale Lösung genutzt werden. Aber auch der Einsatz in Cloudumgebungen ist sinnvoll. Die Entwickler bieten und umfassende Dokumentation und einen Quick Start Guide, mit dem sich der Einsatz der Lösung effektiv planen lässt.

Alternativen von Vespa im Vergleich

Elasticsearch oder Produkte von IBM, wie zum Beispiel Streams, liefern einen ähnlichen Funktionsumfang wie Vespa. Es lässt sich nicht immer sagen, welches dieser Produkte am besten für die eigenen Daten geeignet ist. Hier spielen die zu analysierenden Daten, deren Aufbau sowie das Benutzererlebnis eine wichtige Rolle. Es ist aber sinnvoll, wenn sich Entwickler parallel mit den Möglichkeiten von Vespa auseinandersetzen, wenn eine intelligente Suchmaschine gesucht wird, und diese unter Umständen auch an persönliche, digitale Assistenten angebunden werden soll.

Generell ist Vespa vor allem auf Endanwender zugeschnitten. In Szenarien, in denen Endanwender mit Big-Data-Lösungen arbeiten, ist es zumeist sinnvoll, Vespa einzusetzen. Das bedeutet aber nicht, dass Vespa für Unternehmenskunden ungeeignet ist.

Die Stärken von Vespa, im Vergleich zu Produkten wie Elasticsearch oder Suchmaschinen, die relationale Datenbanken durchsuchen, liegen vor allem in der Verwendung von Machine-Learning-Algorithmen, die sich in Echtzeit anpassen lassen. Wer allerdings nur relationale Datenbanken als Datenquellen nutzt, sollte eher auf andere Suchlösungen setzen, denn hier ist Vespa nicht geeignet, da Vespa keine ACID-Transaktionen unterstützt.

Artikelfiles und Artikellinks

(ID:45417535)

Über den Autor

 Thomas Joos

Thomas Joos

Freiberuflicher Autor und Journalist