Version mit neuem SQL-Interface geht an den Start IBM ergänzt MapReduce und Hive in BigInsights 3.0

Autor / Redakteur: Michael Matzer / Nico Litzel |

IBM bringt im Herbst die dritte Version des Hadoop-SQL-Werkzeugs „Infosphere BigInsights“ auf den Markt. Diese Hadoop-Distribution ersetzt MapReduce durch eine eigene und IBM zufolge performantere Technik. Mit dem Tool „BigSheets“ sollen selbst Fachabteilungen Datenberge ohne Programmieraufwand durchforsten können.

Anbieter zum Thema

Wilfried Hoge, Datenbankexperte bei IBM Deutschland
Wilfried Hoge, Datenbankexperte bei IBM Deutschland
(Bild: IBM)

Im Gegensatz etwa zu der Hadoop-Distribution von Hortonworks besteht BigInsights nicht rein aus Opensource-Software, sondern neben Hadoop auch aus IBM-eigenen Komponenten. MapReduce und Hive wurden durch ein neues SQL-Interface in BigInsights 3.0 ergänzt.

Der Vorteil: BigSQL, die CommonSQL-basierte Datenbank-Engine, soll nun SQL-Abfragen in der von den Kunden gewohnten Art und Weise ausführen können. Die optimierte Abfrage soll im Durchschnitt 20-mal, bei individuell optimierten Abfragen sogar 70-mal schneller erfolgen als mit Apache Hive. Die SQL-Nutzer, die IBMs Analysewerkzeuge verwenden, sollen sich quasi wie zu Hause fühlen, wenn sie nun auch auf Hadoop 2.0 zugreifen.

Föderierter Datenzugriff

„BigSQL ist nun in der Lage, dem Nutzer einen föderierten Zugriff sowohl auf Daten in Hadoop wie auf Daten in einer relationalen Datenbank zu erlauben“, berichtet Wilfried Hoge, Datenbankexperte bei IBM Deutschland. Mit nur einem SQL-Statement lassen sich so Daten aus Hadoop, DB2, Oracle, Netezza oder Teradata zusammenführen, beispielsweise in einer Social-Media-Analyse. Dabei erfolge die Abfrage stets optimal, denn durch den Query Optimizer ließen sich Abfragen an der Zahl der gleichzeitigen Nutzer und des vorhandenen Speichers ausrichten. Allerdings sei das Datenvolumen derzeit noch auf ein Terabyte begrenzt.

Dafür benötige der Nutzer, der in einer Fachabteilung sitzt, laut Hoge keine Programmierkenntnisse mehr. Er nutzt das Tool BigSheets, das genau wie eine Tabellenkalkulation à la Excel gehandhabt werden könne. In der Version v3 stünden hier neben den üblichen Diagrammtypen auch D3-Charts, also Data-driven Documents, für den Web-Browser zur Verfügung. D3 soll Wirtschaftsanalytikern und Datenwissenschaftlern die schnelle Visualisierung von Ad-hoc-Analysen ermöglichen.

IBMs eigenes Dateisystem löst HDFS ab

Eine weitere Neuerung ist, zumindest in der Enterprise Edition das Ersetzen des Hadoop-Filesystems (HDFS) durch IBMs eigenes GPFS-Filesystems, das bereits im High Performance Computing im Einsatz ist. Interessant ist die Unterstützung von sowohl zeilen- als auch spaltenorientierter Datenformaten, denn bekanntlich lassen sich spaltenorientierte Lesevorgänge viel schneller abwickeln als zeilenorientierte – siehe SAP HANA. Statistische Funktionen stellt die R-Integration bereits seit der Version v2.1.2 bereit, die hier „BigR“ heißt.

In der Enterprise Edition kann das Unternehmen seine wertvollen Daten mit einem hohen Maß von Sicherheitsfunktionen schützen. Diese werden von dem Datenbank-Werkzeug InfoSphere Guardium bereitgestellt. Dazu gehören die Nutzer-Authentifizierung per Betriebssystem, LDAP oder Kerberos und die feingranulare rollenbasierte Zugriffsregelung bis hinunter auf die Objekt-, Spalten- und Zeilenebene. Auch die TLS-basierte Datenübertragung zwischen Client und BigSQL selbst lässt sich überwachen und auditieren.

Bereitstellung

IBM bietet InfoSphere BigInsights v.3 in drei Versionen an. Die QuickStart Edition stellt eine Mini-Distribution ohne Lizenzkosten dar, umfasst aber immerhin BigSQL und BigSheets. Sie dient dem Testen und Entwickeln, hat aber in Sachen Lizenz nichts mit den Developer- und Produktiv-Versionen zu tun. Man kann sie für VMware als Image und als selbstinstallierendes Package herunterladen.

Die Standard Edition von BigInsights 3.0 bietet ebenfalls die Grundfunktionen BigSQL und BigSheets, ist aber schon gebührenpflichtig, da sie im Rahmen des Platform-as-a-Service IBM BlueMix als SaaS angeboten wird. Erst die Enterprise Edition bietet den vollen Funktionsumfang, also zusätzlich zu BigSQL und BigSheets auch GPFS, Data Mining (für Text, Social-Daten und Maschinendaten), R, Akzeleratoren usw., die eine leistungsfähige Produktivumgebung erfordert. InfoSphere Streams, Data Explorer sowie Cognos-Bundles werden mit der Enterprise Edition angeboten. Der Umfang des nutzbaren Daten-Volumens ist zunächst auf ein Terabyte begrenzt.

Laut Wilfried Hoge erfolgt die Bepreisung gemäß genutzten virtuellen Rechnerinstanzen: fünf virtuelle Rechner ergeben demzufolge fünf Lizenzen.

Das sagt die Forrester Group

Mike Gualtieri und Noel Yuhanna von der Forrester Group schätzten im Februar 2014 IBMs Hadoop-Distribution als für größere Installationen geeignet ein. Neben Know-how in Grid Computing und Datenmanagement bestünden IBMs Stärken in leistungsfähigen Analysewerkzeugen, einer weltweiten Präsenz für Implementierungsservices. „Daher“, so Gualtieri, „kann IBM mit BigInsights eine Big-Data-Lösung anbieten, die für viele Kunden attraktiv sein wird.“ Die Produktplanung umfasse etwa SPSS-Werkzeuge, Modellierung, BI-Tools und Workload-Management für High Performance Computing.

(ID:42955743)