Das soziale Netzwerk Pinterest hat auf der @Scale-Konferenz von Facebook angekündigt, sein Hadoop-Querie-Tool Terrapin unter eine Open-Source-Lizenz zu stellen. Terrapin ermöglicht bei Pinterest effizientere Hadoop-Abfragen als die zuvor eingesetzte HBase-basierte Lösung.
Terrapin, eine vom sozialen Netzwerk Pinterest entwickelte HBase-Alternative, wird Open Source.
(Bild: Pinterest)
Die Entwickler von Pinterest hatten Terrapin als Ersatz für die bisher eingesetzte NoSQL-Datenbank HBase entwickelt, weil diese offenbar bei Datensätzen oberhalb von 100 Gigabyte schlecht performte. Die Bulk-Upload-Funktion von Hadoop hatte das Problem offenbar nur anfänglich beheben können und verursachte zudem durch die Verteilung der Daten im Cluster erhöhte Latenzen beim Zugriff.
Pinterest hatte sich daher zunächst nach einem geeigneten Open Source Key-Value Store, wie etwa ElephantDB, als mögliche Alternative umgesehen, sich dann aber zu einer Eigenentwicklung entschlossen.
Datenlokalität im Fokus
Terrapin kombiniert das HFile-Format von HBase mit dem Hadoop-eigenen Dateisystem HDFS. ZUdem nutzt Pinterest Apache Helix für die ZooKeeper-basierte Cluster-Koordination.
(Bild: Pinterest)
Terrapin erlaubt einen sogenannten Random Key-Value Access über sehr große Datasets mit sehr niedriger Latenz. Laut einem Blogpost des Pinterest-Entwicklers Varun Sharma kombiniert Terrapin dazu das HFile-Format von HBase mit dem Hadoop-eigenen Dateisystem HDFS. Ferner nutzt Pinterest Apache Helix für die ZooKeeper-basierte Cluster-Koordination.
Das Besondere an Terrapin ist, dass die Lösung die Datenlokalität optimiert, indem sie den jeweiligen Speicherort der Daten stets im Blick behält und die Daten immer an ihrem Speicherort verarbeitet. Dabei haben MapReduce-Jobs die Wahl, die Daten entweder direkt auf einen Terrapin-Server oder zunächst auf HDFS oder S3 abzulegen.
Laut Aussage von Varun Sharma ist Terrapin fehlertolerant, elastisch und für die verschiedenen Online-Apps von Pinterest wie Pinnability oder Discovery Data ausreichend performant.
Nach Angabe von Sharma setzt Pinterest das Tool seit über einem Jahr zum Verwalten einer Datenmenge von etwa 180 Terabyte produktiv ein. Diese sind auf knapp 100 Filesets mit 50.000 Dateien verteilt.
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von redaktionellen Newslettern nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://support.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung, Abschnitt Redaktionelle Newsletter.