Suchen

Big Data Engine Yahoo Vespa wird Open Source

| Autor / Redakteur: Martin Hensel / Nico Litzel

Im Rahmen eines Blog-Eintrags hat Oath bekanntgegeben, dass die Big Data Processing und Serving Engine Vespa nun quelloffen über GitHub zugänglich ist. Die Engine stammt von Yahoo, das selbst zu Oath und damit zur Verizon-Gruppe gehört.

Firmen zum Thema

Die Big Data Engine Vespa ist ab sofort Open Source.
Die Big Data Engine Vespa ist ab sofort Open Source.
(Bild: Oath / Vespa)

Bereits 2006 hatte Yahoo/Oath mit Hadoop die Open-Source-Community bereichert. Mit der quelloffenen Vespa-Engine will man jetzt noch mehr Entwickler erreichen. Im Zuge der Anwendungsentwicklung müssen Developer zunehmend auf den Umgang mit großen Datenmengen vorbereitet sein. Diese lassen sich zwar via Hadoop und Storm speichern und verarbeiten, die Auslieferung der Resultate an die Nutzer bereitet aber Schwierigkeiten. Dies gilt insbesondere, wenn eine schnelle Datenverarbeitung notwendig ist, während der Benutzer auf die Ergebnisse wartet. Dabei kann es sich beispielsweise um Suchfunktionen, Empfehlungen oder Personalisierung handeln. Vespa soll hier Abhilfe schaffen und auch große Datenbestände in Echtzeit verarbeiten.

Oath nutzt Vespa selbst, zum Beispiel für die Dienste Yahoo.com, Yahoo News, Yahoo Finance und das Bildportal Flickr. Dabei werden pro Tag Milliarden an Anfragen zu einer ebenso großen Menge an Dokumenten bearbeitet. Vespa liefert etwa 90.000 Inhalte und Werbeanzeigen pro Sekunde aus, wobei sich die Latenz im Bereich von wenigen Zehnteln einer Millisekunde bewegt.

Flexible Einsatzmöglichkeiten

Bei Oath wird Vespa in der Anwendungsentwicklung für verschiedene Zwecke eingesetzt. Dazu zählt etwa die Auswahl von bestimmten Inhalten über SQL-ähnliche Queries und Textsuche. Treffer werden für datengetriebene Ergebnisseiten aufbereitet und nach manuell definierten oder per Machine Learning erzeugten Relevanzkriterien sortiert. Die Resultate liefern die Vespa-basierten Anwendungen dann in kürzester Zeit aus. Daten werden in Echtzeit und mehrere tausend Mal pro Sekunde und Node geschrieben. Cluster lassen sich während dieser Prozesse vergrößern, verkleinern und umkonfigurieren.

Um sowohl Geschwindigkeit als auch Skalierbarkeit zu gewährleisten, verteilt Vespa Daten und deren Bearbeitung über viele Maschinen und vermeidet somit einen Flaschenhals. Berechnungen werden direkt bei den Daten durchgeführt. Dazu sind Node-Cluster erforderlich, die unter anderem im Hintergrund Daten redundant bereithalten und für deren Konsistenz sorgen. All diese Eigenschaften sorgen oftmals für bessere Benutzererfahrungen bei gleichzeitig reduzierten Hardware-Kosten und verringerter Komplexität.

Vespa lässt sich On-Premise oder in der Cloud einsetzen. Oath stellt sowohl Docker-Images als auch rpm-Packages und entsprechende Guides bereit. Eine „Getting Started“-Anleitung sorgt für den einfachen Einstieg – laut Oath ist eine Anwendung in weniger als zehn Minuten einsatzfertig. Weitere Informationen sind auf der Vespa-Website zu finden.

(ID:44942806)