Automatisierte Dateneinspeisung RichRelevance setzt auf Pentaho

Autor / Redakteur: Davy Nys / Nico Litzel

RichRelevance ist der weltweit führende Anbieter für Omnichannel-Personalisierungen. Über 200 internationale Unternehmen nutzen die Data Analytics Engine von RichRelevance mit ihren mehr als hundert lernfähigen Algorithmen, die die Präferenzen der Onlinekunden durchleuchten, um ihnen zeitnah personalisierte Kaufempfehlungen anbieten zu können.

Anbieter zum Thema

Der Autor: Davy Nys ist Vice President EMEA & APAC bei Pentaho
Der Autor: Davy Nys ist Vice President EMEA & APAC bei Pentaho
(Bild: Pentaho)

Dass sich Personalisierung für Onlinehändler auszahlt, hat die IDC-Studie „Why Personalisation Should Be at the Heart of a Retailer's Customer Strategy“ aufgezeigt. Demnach haben besonders in Deutschland persönliche Empfehlungen große Auswirkungen darauf, was sich Kunden anschauen und kaufen. 74 Prozent der Umfrageteilnehmer klicken die Empfehlungen direkt an, während 35 Prozent sogar spontan kaufen und 28 Prozent die vorgeschlagenen Artikel in ihre Merkliste aufnehmen.

Kein Wunder also, dass RichRelevance seit seiner Gründung 2006 kontinuierlich gewachsen ist. Mittlerweile ist das Unternehmen für mehr als eine Milliarde Kaufentscheidungen täglich und für bisher etwa zehn Milliarden Dollar zurechenbare Verkäufe verantwortlich. In Deutschland zählen Firmen wie Galeria Kaufhof oder Viking zu den Kunden des Unternehmens.

Dabei war gerade das schnelle Wachstum eine Herausforderung für das Unternehmen. In seinen zwölf Rechenzentren, verteilt auf Asien, Europa und die USA, hostet RichRelevance mehr als 400 Websites auf seiner Multi-Tenancy-Plattform. Zwei Rechenzentren beherbergen große Hadoop-Cluster, in denen auch die Kaufneigungen analysiert werden. Die anderen sind Proximity-Rechenzentren, von denen aus die persönlichen Empfehlungen in weniger als 65 Millisekunden optimiert und bereitgestellt werden.

Hunderttausende Produkte täglich

Damit das möglich ist, muss RichRelevance die Katalogdaten seiner Kunden in sein System einspeisen. Täglich oder aber auch mehrmals am Tag müssen dazu enorme Datenmengen bewegt werden, bei manchen Kunden sind mehrere Hunderttausende Produkte zu erfassen. Insgesamt verwaltet RichRelevance über 1,6 Petabyte Rohdaten im HDFS (Hadoop Distributed File System). Dabei stellt die Datenmenge an sich nicht einmal die eigentliche Herausforderung dar, sondern vielmehr die Vielfalt der Datenformate. Oftmals schickt ein und derselbe Kunde Daten in unterschiedlichen Formaten: Semistrukturierte Daten, die Informationen zu Preis, Produktnamen, Produktbeschreibungen oder Strichcodes enthalten.

Als Folge stellten die hoch qualifizierten IT-Fachleute oftmals die Implementierung neuer Daten ins System sicher, anstatt sich der Weiterentwicklung der eigenen Produkte widmen zu können. Damit sich die IT-Fachleute wieder auf ihre Hauptaufgabe konzentrieren konnten, suchte das Unternehmen eine ETL-Lösung, die den Dateneinspeisungsprozess weitgehend automatisiert. Die Lösung sollte flexibel und vor allem in der Lage sein, Daten aus vielfältigsten Formaten in Hadoop zu laden und auch den Hadoop Resource Manager YARN unterstützen.

Letzteres war ein wichtiges Kriterium für RichRelevance, da es dem Unternehmen erlaubt, Jobs im Hadoop Cluster zu skalieren. YARN wird seit der Version 2.0 als Hadoop Resource Manager eingesetzt. Im Gegensatz zum Batch-orientierten MapReduce Framework unterstützt YARN auch nicht-Batch-orientierte Prozesse, wie beispielsweise. Streamings. Das bestehende MapReduce ist mit YARN nicht mehr notwendig, wodurch Hadoop einfacher in der Handhabung wird.

YARN-Unterstützung

Die Wahl fiel auf Pentaho Data Integration (PDI), da es eine der wenigen ETL-Lösungen war, die überhaupt YARN unterstützten und darüber hinaus mit sehr guter Leistung im Hadoop-Umfeld überzeugte. Ein großes Plus war auch, dass PDI viele verschiedene Datenformate unterstützt. Die einfache grafische Benutzeroberfläche machte es möglich, dass die Dateneinspeisung nun vom Kundenservice-Team übernommen werden konnte, sodass die IT-Spezialisten sich ganz der Weiterentwicklung der Kernprodukte widmen können. Außerdem hat sich mit Pentaho der Prozess der Einspeisung der Katalogdaten wesentlich beschleunigt.

„Unser Geschäftsmodell und unsere Kundenbeziehungen sind abhängig von den Einblicken in Big Data“, erklärt Marc Hayem, VP of Platform Transformation bei RichRelevance. „Um mit 1,6 Petabytes an Daten, Tendenz steigend, diese für uns und unsere Kunden verständlich darzustellen und zugänglich zu machen, müssen wir uns kontinuierlich neuen Herausforderungen stellen. Mit Pentaho haben wir nun eine zukunftssichere Lösung, die uns in die Lage versetzt, diese Daten einfach ins System einzuspeisen und zugänglich zu machen.“

(ID:43508489)