MongoDB im Einsatz an der Uni Bremen Bremen geht neue Wege in der Materialforschung
Neue Werkstoffe sind erforderlich, um technische Visionen zu realisieren. Bisher folgten Forscher ihrem Instinkt oder untersuchten Anomalien – doch die Entdeckung neuer Werkstoffe kann nicht mehr dem Zufall überlassen werden. Künftig werden daher Wissenschaftler Data-Miner sein und die nächsten Werkstoffe nicht in einem Labor, sondern mit einem Suchalgorithmus entdecken.
Anbieter zum Thema

Ein Doktorand entdeckt während seiner Promotion im Durchschnitt vier bis fünf neue Werkstoffe. Mit Blick auf den unersättlichen Bedarf an innovativen Materialien ist das wenig. 400 bis 500 pro Tag wären erstrebenswert. Damit wird klar, dass ein neuer Ansatz in der Materialforschung dringend notwendig ist.
Die Hochdurchsatzmethode ist eines dieser möglichen Verfahren. In einem weitgehend automatisierten Prozess lassen sich in kurzer Zeit mehrere Millionen Kombinationen untersuchen, die allerdings sehr große Datenmengen erzeugen. Die Universität Bremen wendet auf Basis neuer Methoden zur Urformung, Mikrostruktureinstellung und Charakterisierung mikroskopischer Werkstoffproben, der Probenlogistik sowie mathematischer und informatischer Verfahren ein solch neuartiges Hochdurchsatzverfahren in der Materialentwicklung zur Analyse großer Datenmengen an.
Aufgrund der beispiellosen Geschwindigkeits- und Effizienzsteigerung in der Materialforschung geht der fachbereichsübergreifende Sonderforschungsbereich 1232 „Farbige Zustände” (SFB 1232) der Bremer Universität neue Wege: Bis dato noch unbekannte Werkstoffe werden quasi am Fließband entwickelt und getestet, wobei der Prozess auf einem völlig neuen Ansatz für die Erfassung, Zusammenstellung und Nutzung von Daten basiert. So verspricht sich der interdisziplinäre Forschungsverbund enorme Fortschritte in der Forschung und bei der Entwicklung neuer Konstruktionswerkstoffe.
Das Herzstück: Forschungsdaten dokumentieren
Die wesentliche Neuerung in der Materialforschung ist das wertschöpfende Verarbeiten der Datenmengen. In der Vergangenheit war es gängig, ausschließlich die Charakterisierungsergebnisse zu dokumentieren. Einzelne Details während der Prozessschritte wurden, wenn überhaupt, nur unsystematisch aufgezeichnet – und das in inkompatiblen elektronischen Formaten oder in analogen Notizbüchern. Der SFB 1232 wählte hier bewusst einen neuen Ansatz in der Materialwissenschaft: Sämtliche Details der Herstellungs- und Charakterisierungsprozesse werden in einer flexiblen Datenbank dokumentiert und sogenannte Deskriptoren für jede Werkstoffprobe ermittelt. Diese Deskriptoren beschreiben eine Werkstoffprobe charakteristisch.
„Wir können also die gesamte Lebensgeschichte jeder einzelnen Probe rekonstruieren. Datenbankspezialisten finden das vielleicht langweilig, aber für die Materialwissenschaftler ist es ungemein spannend. So etwas gab es noch nie“, so Sebastian Huhn, Informatiker und Doktorand im SFB 1232, der die Dateninfrastruktur für die Materialforschung aufgebaut hat.
Mit Unterstützung der Deutschen Forschungsgemeinschaft (DFG) konnte der Sonderforschungsbereich für alle Etappen des kreativen Prozesses – vom Legierungsdesign und der Urformung über die Verarbeitung bis hin zu neuen Charakterisierungsverfahren – und für die Verarbeitung der riesigen Datenmengen Spezialisten zusammenbringen.
Das Experiment: Brücken schlagen zu Neuartigem
Die Materialwissenschaft sucht wie andere Wissenschaften nach Mustern, steht allerdings vor der Herausforderung, bisher nur kleine Wissensinseln im unerforschten Ozean zu kennen. Der neue datenbasierte Ansatz kann hier helfen, neue Brücken zu bereits bekannten Ideen zu schlagen. Beispielsweise bei der Herstellung von Stahl.
Eines der vielen Experimente beginnt beispielsweise mit einem Strom aus winzigen geschmolzenen Stahltröpfchen, etwa 20 oder 30 pro Sekunde. Diese Tröpfchen fallen durch einen senkrechten, sieben Meter tiefen, mit Argon gefüllten Fallturm. Dabei kühlen sie ab und erstarren zu maximal einem Millimeter großen Kügelchen.
Das Forscherteam probiert verschiedene Kombinationen aus oder verändert Details bei der Produktion und bearbeitet die Kügelchen auf verschiedene Art weiter. Die Metallkügelchen werden unter anderem unterschiedlich erhitzt oder es wird mit variierender Kraft auf sie eingeschlagen, um im Nachgang die Materialeigenschaften wie Härte und Verformbarkeit zu prüfen.
Phase Eins: Bekannte Werkstoffe testen und Daten sammeln
In der ersten Phase werden aktuell 20 Deskriptorverfahren entwickelt und validiert. Ein präziser Hammerschlag kann beispielsweise die interne Struktur der Metallkügelchen verändern. Doch dazu müssen „Hämmer“ entwickelt werden, mit denen man denselben Test zehnmal durchführen und dabei sehr ähnliche Ergebnisse erzielen kann. „Für Zugfestigkeitstests hat das zum Beispiel hundert Jahre gedauert, aber wir haben es in zweieinhalb Jahren geschafft“, sagt Dr.-Ing. Nils Ellendt, Geschäftsführer des SFB 1232.
Die Testergebnisse selbst haben sehr verschiedene Formate, von einfachen Zahlen bis hin zu detaillierten Abbildungen, Röntgendiffraktionsdaten, den Ergebnissen elektrochemischer Tests und – später – kompletten 3D-Scans.
Wenn man bedenkt, dass keine zwei Gerätehersteller dasselbe Format nutzen, selbst wenn die Geräte dieselben Tests durchführen, wird schnell klar, warum die Datenverarbeitung genauso wichtig ist, wie jeder andere Aspekt. Bestenfalls werden jeden Tag tausend Proben getestet und dabei jeweils mehrere Dutzend Gigabyte an Daten generiert. Die Verarbeitung dieser Daten ist eine ingenieurtechnische Herausforderung für sich.
Phase Zwei: Suche nach neuen Werkstoffen
Die zweite Phase beginnt, wenn die Versuchsanordnungen kalibriert sind und für bekannte Werkstoffe konsistente, zuverlässige und korrekte Ergebnisse liefern. In dieser Phase findet die Suche nach neuen Werkstoffen statt. Die Forscher erstellen Deskriptoren für die schätzungsweise etwas über eine Million Proben, die sie ihrer Roadmap 2028 zufolge bis zum Ende dieser Etappe verarbeiten wollen.
Wenn die Datenbank mehr Einträge enthält, wird es möglich sein, die Deskriptoren zu durchsuchen, um einen Werkstoff zu finden, der bestimmte Anforderungen erfüllt oder Anregungen für weitere Experimente gibt. Darüber hinaus können Prädiktorfunktionen entwickelt werden, die Gruppen von Deskriptoren analysieren und auf der Basis von Prognosen Änderungen an den erzeugenden Prozessparametern empfehlen, um eine neue Werkstoffprobe mit den gewünschten Eigenschaften herzustellen. Diese Änderungen werden dann in das System eingegeben, die Proben hergestellt und die Testergebnisse genutzt, um die Prognosefunktionen zu verbessern und nützlicher zu machen. Basierend auf den Daten können zukünftig vielversprechende Kombinationen aus Prozessparametern vorgeschlagen werden, an die Forscher möglicherweise gar nicht erst gedacht haben.
Agile Infrastruktur: MongoDB für flexible Anwendungen
Die Herausforderung bei der anfänglichen Planung der Datenbank war es, die extrem heterogenen Datensätze bestmöglich in einem System zusammenfassen zu können. Statt schlichter Zahlenlisten sollte das System auch unterschiedlichste Datentypen, wie beispielsweise Bilder oder Temperaturverläufe, Prozessparameter und auch spezifische Probenzustände, erfassen. Jedem Prozessschritt sollten auch Meta- und experimentelle Informationen beigefügt werden können. Denn die Auskunft darüber, wer, wann, wie und wo etwas an einer Probe verändert hat, liefert entscheidende Zusatzinformationen, die für die Erforschung der Methoden im Sonderforschungsbereich „Farbige Zustände" unerlässlich sind und eine gute wissenschaftliche Praxis sicherstellen. Deshalb musste die in einem solchen Umfeld genutzte Datenbank anpassungsfähig sein und durfte weder die Art noch die Verarbeitung der Daten einschränken.
Dokumentenorientierte Datenbanken wie MongoDB bieten die notwendige Datenstruktur, um die experimentelle Methode der Werkstoffentwicklung des SFB 1232 ideal zu unterstützen. Dadurch können die heterogenen Daten aus allen Teilprojekten, die Historien der Proben und die Metadaten der Prozessschritte flexibel einzeln betrachtet oder zusammengeführt werden. Insbesondere ist die MongoDB-Datenbank dem großen Datenvolumen, das auch durch den Hochdurchsatz der Proben entsteht, gewachsen.
Dafür waren allerdings noch ein paar Anpassungen an der Datenbank notwendig. Für den studierten Informatiker Sebastian Huhn war das zwar eine Herausforderung, aber kein Hindernis: „Im Testprozess haben wir ein umfangreiches Datenmodell entwickelt, das es uns erlaubt, unsere heterogenen Daten strukturiert abzulegen“, sagt er und erklärt: „Durch eine enge Symbiose von neu entwickelten Basisoperatoren und dem aktuellen Erkenntnisgewinn des Sonderforschungsbereiches konnten neuartige Zugriffstechniken umgesetzt werden. Erst diese neuen Zugriffstechniken erlauben es uns, die vielfältigen Forschungsfragen zu adressieren.“
Forschung digital
Nach Testprozessen mit der flexiblen Datenbank zeigte sich, dass die Aggregationspipelines von MongoDB besonders für die algorithmusbasierte Analyse der Testdaten geeignet waren. Eine Aggregationspipeline wendet eine bestimmte Abfolge von Transformationen auf ein und dasselbe Dokument an und entspricht damit genau der Nachbereitung von Dokumenten, die im SFB 1232 manuell stattfand. Mit dem Befehl „eval“ konnten die Forscher den von der Datenbank bereitgestellten Operatorensatz sogar erweitern. Dazu haben sie die Mongo Shell mit der Datenbank verbunden und – mithilfe von weiteren serverseitigen Skripten – vordefinierte Aggregationspipelines zugänglich gemacht. Diese Pipelines laden auch dynamische Matrizen mit vorab ermittelten Informationen über die wechselseitigen Abhängigkeiten und Zusammenhänge zwischen den verschiedenen Experimenten, sodass die Daten automatisch normalisiert und konvertiert werden können. Die Forscher erkannten, dass MongoDB für diesen Ansatz besonders geeignet ist.
Für die Einspeisung der Daten wird ein System in node.js verwendet, das die Daten verarbeitet und die erforderlichen Verbindungen zum MongoDB-Server herstellt. Die Daten selbst werden in der Datenbank nach Proben aufgeteilt und jeweils mit einer ID in Form einer Zeichenkette versehen. Ein weiterer wichtiger Aspekt ist das Vorhandensein verschiedener Flags, die für das Filtern und die algorithmenbasierte Analyse verwendet werden.
Eine Besonderheit der Datenbank ist, dass sie Informationen über alle Prozesse enthält, die eine Probe durchlaufen hat. Diese Daten werden in einem Satz sequenzieller Arrays gespeichert, die als Prozessschritte bezeichnet werden. Mithilfe der Object-ID kann direkt auf den ganzen Satz zugegriffen und ihre Entstehungsgeschichte rekonstruiert werden. Durch die Verwendung der Object-IDs können einzelne Dokumente mehrfach referenziert werden, welches eine zusätzliche Datendeduplikation ermöglicht und die resultierende Datenbankgröße signifikant reduziert. Beispielsweise werden im Rahmen einer Urformung mit einem Parametersatz gleichzeitig Hunderte Kugeln erzeugt ؘ– diese Parameter müssen nur einfach gespeichert werden, aber n-fach referenziert werden.
Für jeden Prozessschritt können zudem viele Dateien, Metadaten und experimentelle Daten gespeichert werden. Diese enthalten oder verweisen auf Daten aus Formulareingaben, JPEGs mit Mikroskop-Aufnahmen und andere relevante Informationen. „In einem weiteren Teil der Datenbank werden die formalen Spezifikationen der Prozesse gespeichert, die unter anderem zur dynamischen Erzeugung des Eingabesystems sowie zur Dokumentation dienen. Hierfür wurde eine Art Sprachbibliothek entwickelt, die auf standardisierten JSON Dateien aufsetzt, welche ebenfalls einen elementaren Bestandteil der MongoDB bilden. Somit ist es beispielsweise möglich, über ein einzelnes Schlüsselwort ein gesamtes Periodensystem in die jeweilige Spezifikation mit einzubinden“, beschreibt Sebastian Huhn.
Damit stehen sehr umfassende Informationen bereit, die für die zukünftige Forschung, die erneute Herstellung einzelner Proben oder für algorithmusbasierte Suchen nach Gemeinsamkeiten zwischen verschiedenen Proben genutzt werden können. Das System generiert auch dynamisch Parser, die Rohdaten über verschiedene Experimente durchgehen und charakteristische Werte generieren oder die Datenqualität bewerten.
Ausblick: Wissenschaftler als Data-Miner
Der Ansatz ähnelt sehr dem des Maschinellen Lernens und der Künstlichen Intelligenz (KI). Aus diesem Grund arbeitet der Sonderforschungsbereich mit einer Vielzahl von Industriepartnern aus der Automobil- und Raumfahrtbranche zusammen, wie beispielsweise auch die Robert Bosch GmbH: „Unsere Partner möchten nicht nur mit unserer Datenbank arbeiten, sondern auch andere Ideen – wie das maschinelle Auswerten der wissenschaftlichen Literatur – ausprobieren und diese Methoden kombinieren, um sich ein immer detaillierteres Gesamtbild zu verschaffen. Die nächsten neuen Werkstoffe werden vielleicht nicht in einem Labor, sondern mit einem Suchalgorithmus entdeckt werden“, so Sebastian Huhn.
„In Zukunft“, vermutet er, „findet wissenschaftliche Forschung womöglich in Datenbanken statt und Wissenschaftler werden Data-Miner sein, die ihre Entdeckungen am Computer machen.“
In der Zwischenzeit hat der Forschungsbereich jedoch schon sehr konkrete Fortschritte zu vermelden, deren Auswirkungen über die eigene Forschung und die Industriepartnerschaften hinausgehen. Dazu Dr.-Ing. Ellendt: „In Deutschland wird eine neue Initiative für die Erstellung einer nationalen Werkstoffdatenbank gestartet, bei der wir eine führende Rolle spielen. Wir sehen uns in unserem eigenen Land als Wegbereiter gegenüber anderen State-of-the-art-Werkstoffdatenbanken und auch international gibt es nichts Vergleichbares.“ Die Datenbank sei kein experimenteller Prototyp, sondern eine belastbare, zukunftsfähige Lösung, betont er.
Wenn die Datenbank genug Daten enthält, wird es möglich sein, Deskriptoren abzufragen, um ein Material zu finden, das einem Bedarf entspricht oder zumindest eine Richtung für die Suche vorzugeben. MongoDB wird die Forschung auch in der zweiten Phase des SFB 1232 unterstützen, um die große Datenmenge und die heterogenen Datensätze effektiv für die Prädiktion handhaben zu können. Damit wäre der SFB 1232 seinem Forschungsziel einen Riesenschritt nähergekommen.
„Es geht nicht nur um härtere, leichtere und stärkere Materialien“, sagt Dr.-Ing. Ellendt. „Wir suchen nach Werkstoffen, die weniger Veredelung erfordern und besser in eine nachhaltige Wirtschaft passen. Das beinhaltet auch die Einbeziehung recycelter Materialien mit potentiellen Kontaminationen. Wir wollen daher nicht möglichst viele, sondern möglichst wenige verschiedene Elemente nutzen. Innovative Werkstoffkonzepte müssen auch möglich sein, wenn keine hochreinen Legierungselemente verwendet werden.“
Artikelfiles und Artikellinks
(ID:46302185)