Storage für Bildgeneratoren in Life SciencesRiesige Datenmengen beim Kampf gegen COVID-19 & Co.
Von
Adam Marko*
Neue Datentypen erhöhen den Bedarf an Speicher mit großer Kapazität und hoher Leistung in den Biowissenschaften: Geräte zur kryogenen Elektronenmikroskopie (CryoEM) etwa generieren täglich mehrere Terabyte an Daten – Tendenz: steigend.
Kryogenische Elektronenmikroskopie (CryoEM) wird erfolgreich im Kampf gegen COVID-19 eingesetzt – entsprechende Storage-Systeme sind die Basis für die Nutzung der Geräte.
Bildgebende Technologien der nächsten Generation produzieren massenhaft Daten für Life Sciences (Biowissenschaften). Künstliche Intelligenz und maschinelles Lernen unterstützen Wissenschaftler bei der schnellen Ableitung von Erkenntnissen aus diesen Daten. Viele Organisationen verfügen aber nicht über die nötige Rechen- und Speicherinfrastruktur zur Bewältigung der Kombination aus enormen Bilddatenmengen und anspruchsvollen Analyse-Workloads.
Der Grund: Die installierten Infrastrukturen wurden für die Anforderungen des vor mehr als zehn Jahren auf den Markt gekommenen Next Generation Sequencing (NGS) konzipiert. Auch wenn die Infrastrukturen zur Unterstützung von NGS groß und sicherlich teuer waren, benötigten sie nicht unbedingt modernste Rechnertechnologie. Trotz einiger Erfolge bei der Nutzung von GPUs, CPU-Erweiterungen und FPGAs konnte sich diese Technik nicht in der NGS-Analyse durchsetzen. Die Anforderungen herkömmlicher Genomik-Pipelines ließen sich mit handelsüblichen CPUs und Dateisystemen mittlerer Leistung erfüllen.
Bildergalerie
Auch wenn die Herausforderungen im Zusammenhang mit der Sequenzanalyse bekannt und lösbar sind, werden neue Technologien und Weiterentwicklungen bei bestehenden Instrumenten die Art und den Aufbau der IT-Speicherinfrastruktur im Forschungsbereich verändern.
Imaging-Technologien sorgen für wachsende Datenmengen in Life Sciences
Obwohl viele Imaging-Technologien schon seit Jahren oder Jahrzehnten im Einsatz sind, gibt es bei einigen von ihnen ein rasantes Wachstum und eine schnelle Entwicklung; dies führt zu einer Zunahme des Speicherbedarfs. Vor allem Technologien wie die kryogene Elektronenmikroskopie (CryoEM) und die Lattice-Light-Sheet-Mikroskopie wirken sich deutlich auf die Forschung und die menschliche Gesundheit aus. Diese Technologien stellen die Art und Weise der Implementation und die Nutzung von Speichersystemen von Grund auf in Frage.
Kryogenische Elektronenmikroskopie (CryoEM)
Die CryoEM-Methode der Elektronenmikroskopie dient zur Abbildung kryogen eingefrorener Moleküle. Anders als die gängige ältere Technik zur Molekülbestimmung, die Röntgenkristallographie, bietet CryoEM vor allem den Vorteil, dass man nicht-kristallisierte Molekülproben verwenden kann. Viele Moleküle lassen sich nicht kristallisieren, oder ihre Strukturen verändern sich durch den Kristallisationsprozess. Bisher konnte CryoEM zwar für Moleküle in einem ursprünglicheren Zustand verwendet werden, die Bildauflösung war aber zu gering, um wissenschaftliche Erkenntnisse auf dem Niveau einer röntgengestützten Strukturanalyse zu gewinnen. Jüngste Fortschritte bei CryoEM führen jedoch mittlerweile zu vermehrtem Interesse in der Wissenschaft und einer besseren Anwendbarkeit der Technik.
Obwohl CryoEM bereits seit den 1980er-Jahren genutzt wird, bewirkten Verbesserungen bei Detektortechnologie und Software erst in den vergangenen fünf Jahren ein massives Wachstum. Diese Veränderungen brachten eine deutlich verbesserte Auflösung und einen größeren Nutzen der Ergebnisse. Diese Verbesserung führten jedoch auch zu größeren Datenmengen sowie erhöhten Anforderungen an Speicherung und Verarbeitung.
Heutige Mikroskope können pro Tag mehrere Terabyte (TB) an Daten generieren, wobei diese Menge weiter zunimmt. Da viele Unternehmen mehrere Geräte einsetzen, kann man davon ausgehen, dass ein Unternehmen allein mit CryoEM jährlich mehrere Petabytes an Daten generiert.
Institutionen, die CryoEM-Geräte nutzen, stehen vor dem Problem, dass sich die Technologie schnell weiterentwickelt und weitere Geräte hinzukommen. Ein paralleles, mit der Infrastruktur mitwachsendes Dateisystem ist nicht nur hinsichtlich der Kapazität, sondern auch für die Analyse in Bezug auf Speicherung und Rechenleistung unerlässlich. Die Software für die CryoEM-Analyse arbeitet zudem mit mehreren Threads und kann sowohl die steigende Anzahl an Rechenkernen als auch die Vorteile von GPUs nutzen. Eine intelligente Kompilierung der Software für die Skalierung mit Multicore-CPUs und GPUs trägt entscheidend zur Beschleunigung bei, damit sich eine Analyse genauso schnell durchführen lässt, wie Daten generiert werden.
Lattice-Light-Sheet-Mikroskopie (LLS)
Die von Nobelpreisträger Eric Betzig in den vergangenen fünf Jahren entwickelte Lattice-Light-Sheet-Mikroskopie ist eine relativ neue Technik. Mit ihr lassen sich über einen langen Zeitraum dynamische biologische Prozesse in 3D abbilden. Diese Mikroskopietechnik arbeitet weitgehend zerstörungsarm und ermöglicht damit die Abbildung lebender Organismen in Echtzeit. Andere Technologien beschädigen das Probenmaterial, so dass sich keine langen Videos aufnehmen lassen.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
LLS nutzt dünne Lichtbögen zur Beleuchtung des Probenmaterials, das aus lebendem Gewebe, Zellen oder Organismen bestehen kann. Die Technik ist für lebende Proben weniger schädlich und ermöglicht eine längere Aufnahmezeit (Stunden anstelle von Sekunden oder Minuten). Gegenüber herkömmlicheren Methoden wie der konfokalen Mikroskopie ermöglicht die Nutzung eines Lichtbogens eine schnellere Datenerfassung. Durch die höhere Erfassungsrate können Forscher bisher nicht sichtbare biologische Prozesse in drei Dimensionen sichtbar machen.
Wie CryoEM erzeugt LLS mehrere TB an Daten pro Gerät und Tag. Die Datenmenge ist derzeit mit der von CryoEM vergleichbar oder übersteigt sie sogar. Verbesserungen der Technik und die wachsende Zahl eingesetzter Geräte dürften zu weiter zunehmenden Datenmengen führen. Für eine zeitnahe Analyse der Datensätze benötigt Lattice Light Sheet GPUs und Hochleistungsspeicher. Wie bei den anderen genannten Techniken trägt die Verbesserung der Auflösung, in diesem Fall an Zeitdauer und Datenerfassungsrate, zu den massiven Datenmengen bei.
Gedanken zur Infrastruktur für eine zukünftige Bildanalyse
Aktuelle, für NGS implementierte Infrastrukturdesigns eignen sich nicht für die Anforderungen der Bildanalyse und für Pipelines mit gemischten Arbeitslasten. Das Speichersystem ist von zentraler Bedeutung für die Bildanalyse-Workflows; es muss genug Kapazität zur Bewältigung des Datenvolumens haben und ausreichend Leistung für sich ändernde Arbeitslasten bieten. Bisher lieferten große Mengen an Speicher mittlerer Leistung und reine, über 1G oder 10G vernetzte CPU-Knoten genug Leistung für Genomik-Pipelines. Der zunehmende Einsatz bildgebender Geräte stellt deutlich höhere Anforderungen an Speicher und Rechenleistung. Neben Multicore-Knoten sind auch GPU-Knoten erforderlich. Bestehende 10G-Netzwerke bieten nicht die nötige Bandbreite zur Übertragung dieser größeren Datensätze an GPUs oder Multicore-Server. Eine für die Bildanalyse optimale Infrastruktur erfordert einen Hochleistungsspeicher mit hoher Kapazität und GPU-Knoten, die mit einer Bandbreite von 25G oder mehr mit dem Speicher verbunden sind.
Mit zunehmendem wissenschaftlichen Output wachsen auch die Anforderungen an die Infrastruktur. IT-Mitarbeiter in der Forschung werden mehr Zeit als je zuvor damit verbringen müssen, Wissenschaftler zu unterstützen und experimentelle Technologien zu implementieren. Der für Bildanalyse-Workflows unerlässliche Speicher muss nicht nur stabil und zuverlässig, sondern auch leistungsstark sein. IT-Mitarbeiter in der Forschung werden zudem immer weniger Zeit zum Problemlösen haben oder sich mit komplizierten Systemkonfigurationen zu befassen, da ihre Fähigkeiten zunehmend zur Unterstützung der Wissenschaftler benötigt werden. Die wachsende Komplexität der Forschungsabläufe wird einen erhöhten Beitrag der IT-Mitarbeiter fordern, und die IT wird sich von ihrer Rolle als Infrastruktur-Support zu einem Partner bei der Beschleunigung der Forschungsarbeit wandeln.
Storage-Management Teil 1 – Immer den Überblick behalten
Um einen umfassenden Überblick bieten zu können, behandelt dieses eBook unter anderem die folgenden Themen: # Was ist Storage-Management? # Nahe Verwandte des Speichermanagements # Der Status quo der Storage-Systeme
Künstliche Intelligenz und maschinelles Lernen in der Bildanalyse
Auch der verstärkte Einsatz künstlicher Intelligenz (KI) und maschinellen Lernens (ML) in der Bildanalyse erhöht die Anforderungen an die Infrastruktur. Die Geschwindigkeit, mit der Bilder generiert werden, übersteigt bei weitem die Fähigkeiten von Menschen, diese manuell zu analysieren. KI/ML bietet ein großes Potenzial zur Beschleunigung der Forschungsarbeit über Bildanalyse. Allerdings gibt es zwei große Herausforderungen.
1. Bilddateien, vor allem ältere Daten, sind über verschiedene Speicherplattformen verteilt und unterliegen keiner oder nur einer eingeschränkten Dateiverwaltung. Namenskonventionen und standardisierte Verzeichnisstrukturen existieren nur selten innerhalb von Organisationen und extern fast nie.
2. Einige Forschungsbereiche, wie zum Beispiel CryoEM, generieren erst jetzt genügend qualitativ hochwertige Datensätze, die für das Training von Modellen verwendet werden können. Bisher gab es einfach nicht genügend Daten, um eine Entwicklung von Algorithmen zu ermöglichen. Die Zunahme an Datensätzen ermöglichte bereits erste Erfolge (zum Beispiel bei der Partikelauswahl in der Verarbeitungspipeline), die dazu führten, dass die Software eine der manuellen Analyse ähnliche Leistung erzielte.
Leider werden größere Erfolge in der Datenverwaltung von Life-Sciences-Bilddateien erst dann möglich sein, wenn es gelingt, diese Herausforderungen zu meistern. Wer sofort bei der Erzeugung seiner Daten mit der Verwaltung beginnt, kann die Vorteile von KI/ML viel besser nutzen. Bei der Erzeugung dieser Daten ist es wichtig, dass eine KI/ML-fähige Infrastruktur für die Durchführung der Analyse vorhanden ist. Dies erfordert eine Hochleistungsinfrastruktur mit einem parallelen Dateisystem, das GPUs auslasten kann, um bildbezogene KI/ML-Workflows in Life Sciences effizient und schnell auszuführen.
COVID-19 und CryoEM
Es fällt leicht, sich in den technischen Details neuer Technologien zu verlieren. Die mit dieser Technik einhergehende Forschung erscheint oft als esoterisch und ohne praktische Bedeutung. Allerdings erzielte CryoEM zum Beispiel große Erfolge beim weltweiten Einsatz gegen COVID-19. Im März 2020 konnten Forscher mithilfe von CryoEM die Struktur des trimeren Spike-Glykoproteins von 2019-nCoV visualisieren. In kürzester Zeit konnte man die Struktur in einem biologisch relevanten Zustand mit einer Auflösung von 3,5 Angström bestimmen, ähnlich wie bei Röntgenkristallographietechniken.
Die Proteinstruktur des Virus ist ein wichtiges Ziel für Impfstoffe, Medikamente, Antikörper und Diagnostik und leistet einen Beitrag zu unserem Verständnis der Infektion. Nachdem diese Struktur nun bestimmt wurde, kann sie als Leitfaden für künftige therapeutische Bemühungen dienen, wie in einem Artikel mit dem Titel „Cryo-EM structure of the 2019-nCoV spike in the prefusion conformation“ in der Ausgabe von Science vom März 2020 beschrieben wird.
Zukunft der Bildanalyse
Die in den vergangenen zehn Jahren für die NGS-Anforderungen genutzten IT-Infrastrukturdesigns können die Anforderungen der Bildanalyse in den Life Sciences von heute und morgen nicht mehr erfüllen. Institutionen, die bisher nur Genomanalyse-Workloads hatten, werden bald mit neueren Imaging-Technologien und dem daraus resultierenden Anstieg der Datengrößen und -mengen konfrontiert. Diese gemischten Workloads werden die Speicherinfrastruktur auf ungeahnte Weise belasten. Organisationen, die sich für neue, andere Forschungs-Pipelines rüsten wollen, müssen eine Datenspeicherbasis vorhalten, die auf zuverlässige, skalierbare und anpassbare Weise hohe Leistung liefert. So können IT-Verantwortliche sich von der administrativen Last der Speichersysteme freimachen und zu Partnern der wissenschaftlichen Forschung werden.
*Der Autor: Adam Marko, Direktor für Life Science Lösungen bei Panasas