Das kostenlose Java-Tool OpenRefine kann Daten aus verschiedenen Quellen importieren und auch direkt mit Datenbanken kommunizieren. Das Tool kann darüber hinaus die importierten Daten bereinigen, transformieren, gliedern und für andere Lösungen bereitstellen.
Daten aus verschiedenen Datenquellen bearbeiten, sichten und erforschen – all das leistet OpenRefine.
OpenRefine ist ein Open Source Tool, dessen Aufgabe darin besteht, Daten aus verschiedenen Datenquellen zu bearbeiten, aber auch zu sichten oder zu erforschen, um zu planen, ob eine Bereinigung oder eine Transformation notwendig ist. Auch zum Zusammenführen von Daten aus verschiedenen Quellen oder für das Bereichern und Erweitern von Daten kann OpenRefine zum Einsatz kommen, genauso wie zur Validierung oder zur Deduplizierung.
Auf Anforderung kann das Tool auch Daten aus einer Datenquelle mit einer anderen abgleichen. Es gibt viele Möglichkeiten, die sich mit dem Tool wirklich unproblematisch auf dem lokalen Rechner durchführen lassen, auch auf Rechnern mit Windows 10 und Windows 11. Hier kann OpenRefine auch ohne Installation zum Einsatz kommen.
Die Stärke des Tools besteht darin, dass es riesige Datenmengen genauso schnell und einfach transformieren und bearbeiten lässt, wie kleinere Datensammlungen. Es gibt nahezu keine Grenze an Datenmengen, die sich mit OpenRefine analysieren lassen. Wichtig ist, dass das Tool auf dem Computer über genügend RAM verfügt. Es sind mindestens ein Gigabyte Datenspeicher für OpenRefine notwendig.
Auch hybride Szenarien mit vielen Datenquellen können mit dem Tool bearbeitet werden. Dabei kann OpenRefine strukturierte Informationen ebenso wie unstrukturierte Daten verarbeiten. Auch heterogene oder inkonsistente Daten lassen sich mit OpenRefine bearbeiten und transformieren.
Bezüglich des Datenschutzes ist OpenRefine ebenfalls ein geeignetes Tool. Das Analysewerkzeug verarbeitet ebenfalls personenbezogene Daten, die unter die DSGVO fallen und stellt dabei sicher, dass niemand an die Daten kommt, während das Tool diese bearbeitet. Die Verarbeitung findet komplett intern statt und auf dem lokalen Computer. Die Verwaltung erfolgt über eine Weboberfläche, es findet aber keinerlei Datenübertragung in die Cloud statt.
Für Linux, Windows und MacOS
Mit OpenRefine lassen sich so gut wie alle Datenbanken anbinden, wenn die verwendete Datenbank-Engine unterstützt wird, doch dazu später mehr. Um die Daten in das Tool zu importieren und zu transformieren, müssen diese entweder manuell eingelesen werden oder über eine Verbindung zu einer Datenbank. Daten aus Dateien sind ebenfalls mit OpenRefine problemlos nutzbar, auch Informationen aus der Zwischenablage. So lassen sich zum Beispiel auch Dateien auf Basis von TSV, CSV, *SV, Excel (.xls und .xlsx), JSON, XML, RDF, XML, und Google Data mit OpenRefine nutzen. Auch bei der Installation ist OpenRefine flexibel. Neben der Installation auf Linux, kann das Open Source Tool mit MacOS oder Windows genutzt werden. Hier ist keine Installation notwendig, sondern die ausführbare Datei lässt sich direkt starten, wenn die Java-integrierte Version zum Einsatz kommt.
OpenRefine in der Praxis
Für den Betrieb von OpenRefine sind die Java Runtime Environment (JRE) und das Java Development Kit (JDK) notwendig. Der Download erfolgt am besten auf der Seite Adoptium.net. Es ist aber auch möglich, OpenRefine auf Windows-Rechnern ohne die Installation von Java zu starten. In diesem Fall laden Sie die Version herunter, in der bereits Java installiert ist.
Der Betrieb von OpenRefine ist relativ einfach. Nach dem Installieren von Java und dem Extrahieren der ZIP-Datei erfolgt der Start am besten mit der Ausführung von „refine.bat“ am Beispiel von Windows. Startet OpenRefine nicht, fügen Sie am Ende der Batch-Datei ein „pause“ hinzu. Dann sehen Sie im Fenster eventuelle Fehler, die den Start verhindern. Alternativ ist der Start auch mit der ausführbaren Datei „openrefine.exe“ möglich, wenn Sie die Version verwenden, in der Java bereits integriert ist.
Die Weboberfläche erreichen Sie über die Adresse http://127.0.0.1:3333 über den lokalen Computer. Generell ist der Einsatz auch nur über die lokale Adresse empfehlenswert, um Sicherheit und Datenschutz zu gewährleisten. OpenRefine bietet keinerlei Authentifizierungsmechanismus an, sondern dient lediglich der Verarbeitung von Daten.
Nach der Installation oder dem Start des Tools steht die Oberfläche zur Verarbeitung der Daten über ein Webinterface zur Verfügung. Hier können mit „Durchsuchen“ schnell und einfach neue Dateien importiert werden. Danach zeigt das Tool in der Weboberfläche auch eine Vorschau der Daten an. Es ist in der Weboberfläche auch möglich, zu filtern und durch die Daten zu browsen. Auf der linken Seite sind die einzelnen Daten zu sehen. Diese sind mit Links versehen. Dadurch können Anwender die Informationen auch öffnen und nach bestimmten Werten und Spalten sortieren. Ein Video zu den umfangreichen Funktionen von OpenRefine ist auf YouTube zu finden:
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
Sobald die Daten im Tool eingelesen sind, können sich Anwender an die Bereinigung machen. Dabei funktioniert OpenRefine wie eine Tabellenkalkulation. Dadurch können auch ungeübte Anwender schnell die importierten Daten bereinigen, mit Mitteln aus Tabellenkalkulationen, aber sehr viel schneller und auch bei sehr großen Datenmengen. Dazu kommt, dass OpenRefine alle durchgeführten Aktionen in Echtzeit aktualisiert und in der Tabelle anzeigt. Dadurch sehen Anwender sofort die Auswirkungen ihrer Änderungen.
Nach dem Start der Weboberfläche, kann mit „Create Project“ ein neues Verarbeitungsprojekt erstellt werden. Hier lassen sich auch Daten von Datenbanken importieren, wenn die Daten nicht direkt als einzelne Datei vorliegen. Über „New Connection“ ist es danach möglich aus den verschiedenen Datenbanken den richtigen Typ auszuwählen. Danach sind nur noch die Verbindungsdaten zur Datenbank notwendig. Auf diesem Weg lassen sich zum Beispiel auch Datenbanken von MySQL, PostgreSQL, MariaDB oder SQLlite einlesen. Über „Create Project“ lassen sich außerdem Daten von URLs einlesen oder aus der Zwischenablage. Ebenfalls möglich ist mit „Google Data“ das Einlesen von Daten aus veröffentlichten Google-Tabellen über deren URL.