Storage für Bildgeneratoren in Life Sciences Riesige Datenmengen beim Kampf gegen COVID-19 & Co.

Autor / Redakteur: Adam Marko* / Dr. Jürgen Ehneß

Neue Datentypen erhöhen den Bedarf an Speicher mit großer Kapazität und hoher Leistung in den Biowissenschaften: Geräte zur kryogenen Elektronenmikroskopie (CryoEM) etwa generieren täglich mehrere Terabyte an Daten – Tendenz: steigend.

Firmen zum Thema

Kryogenische Elektronenmikroskopie (CryoEM) wird erfolgreich im Kampf gegen COVID-19 eingesetzt – entsprechende Storage-Systeme sind die Basis für die Nutzung der Geräte.
Kryogenische Elektronenmikroskopie (CryoEM) wird erfolgreich im Kampf gegen COVID-19 eingesetzt – entsprechende Storage-Systeme sind die Basis für die Nutzung der Geräte.
(Bild: gemeinfrei / Pixabay )

Big Data in Life Sciences

Bildgebende Technologien der nächsten Generation produzieren massenhaft Daten für Life Sciences (Biowissenschaften). Künstliche Intelligenz und maschinelles Lernen unterstützen Wissenschaftler bei der schnellen Ableitung von Erkenntnissen aus diesen Daten. Viele Organisationen verfügen aber nicht über die nötige Rechen- und Speicherinfrastruktur zur Bewältigung der Kombination aus enormen Bilddatenmengen und anspruchsvollen Analyse-Workloads.

Der Grund: Die installierten Infrastrukturen wurden für die Anforderungen des vor mehr als zehn Jahren auf den Markt gekommenen Next Generation Sequencing (NGS) konzipiert. Auch wenn die Infrastrukturen zur Unterstützung von NGS groß und sicherlich teuer waren, benötigten sie nicht unbedingt modernste Rechnertechnologie. Trotz einiger Erfolge bei der Nutzung von GPUs, CPU-Erweiterungen und FPGAs konnte sich diese Technik nicht in der NGS-Analyse durchsetzen. Die Anforderungen herkömmlicher Genomik-Pipelines ließen sich mit handelsüblichen CPUs und Dateisystemen mittlerer Leistung erfüllen.

Bildergalerie

Auch wenn die Herausforderungen im Zusammenhang mit der Sequenzanalyse bekannt und lösbar sind, werden neue Technologien und Weiterentwicklungen bei bestehenden Instrumenten die Art und den Aufbau der IT-Speicherinfrastruktur im Forschungsbereich verändern.

Imaging-Technologien sorgen für wachsende Datenmengen in Life Sciences

Obwohl viele Imaging-Technologien schon seit Jahren oder Jahrzehnten im Einsatz sind, gibt es bei einigen von ihnen ein rasantes Wachstum und eine schnelle Entwicklung; dies führt zu einer Zunahme des Speicherbedarfs. Vor allem Technologien wie die kryogene Elektronenmikroskopie (CryoEM) und die Lattice-Light-Sheet-Mikroskopie wirken sich deutlich auf die Forschung und die menschliche Gesundheit aus. Diese Technologien stellen die Art und Weise der Implementation und die Nutzung von Speichersystemen von Grund auf in Frage.

Kryogenische Elektronenmikroskopie (CryoEM)

Die CryoEM-Methode der Elektronenmikroskopie dient zur Abbildung kryogen eingefrorener Moleküle. Anders als die gängige ältere Technik zur Molekülbestimmung, die Röntgenkristallographie, bietet CryoEM vor allem den Vorteil, dass man nicht-kristallisierte Molekülproben verwenden kann. Viele Moleküle lassen sich nicht kristallisieren, oder ihre Strukturen verändern sich durch den Kristallisationsprozess. Bisher konnte CryoEM zwar für Moleküle in einem ursprünglicheren Zustand verwendet werden, die Bildauflösung war aber zu gering, um wissenschaftliche Erkenntnisse auf dem Niveau einer röntgengestützten Strukturanalyse zu gewinnen. Jüngste Fortschritte bei CryoEM führen jedoch mittlerweile zu vermehrtem Interesse in der Wissenschaft und einer besseren Anwendbarkeit der Technik.

Obwohl CryoEM bereits seit den 1980er-Jahren genutzt wird, bewirkten Verbesserungen bei Detektortechnologie und Software erst in den vergangenen fünf Jahren ein massives Wachstum. Diese Veränderungen brachten eine deutlich verbesserte Auflösung und einen größeren Nutzen der Ergebnisse. Diese Verbesserung führten jedoch auch zu größeren Datenmengen sowie erhöhten Anforderungen an Speicherung und Verarbeitung.

Heutige Mikroskope können pro Tag mehrere Terabyte (TB) an Daten generieren, wobei diese Menge weiter zunimmt. Da viele Unternehmen mehrere Geräte einsetzen, kann man davon ausgehen, dass ein Unternehmen allein mit CryoEM jährlich mehrere Petabytes an Daten generiert.

Institutionen, die CryoEM-Geräte nutzen, stehen vor dem Problem, dass sich die Technologie schnell weiterentwickelt und weitere Geräte hinzukommen. Ein paralleles, mit der Infrastruktur mitwachsendes Dateisystem ist nicht nur hinsichtlich der Kapazität, sondern auch für die Analyse in Bezug auf Speicherung und Rechenleistung unerlässlich. Die Software für die CryoEM-Analyse arbeitet zudem mit mehreren Threads und kann sowohl die steigende Anzahl an Rechenkernen als auch die Vorteile von GPUs nutzen. Eine intelligente Kompilierung der Software für die Skalierung mit Multicore-CPUs und GPUs trägt entscheidend zur Beschleunigung bei, damit sich eine Analyse genauso schnell durchführen lässt, wie Daten generiert werden.

Lattice-Light-Sheet-Mikroskopie (LLS)

Die von Nobelpreisträger Eric Betzig in den vergangenen fünf Jahren entwickelte Lattice-Light-Sheet-Mikroskopie ist eine relativ neue Technik. Mit ihr lassen sich über einen langen Zeitraum dynamische biologische Prozesse in 3D abbilden. Diese Mikroskopietechnik arbeitet weitgehend zerstörungsarm und ermöglicht damit die Abbildung lebender Organismen in Echtzeit. Andere Technologien beschädigen das Probenmaterial, so dass sich keine langen Videos aufnehmen lassen.

LLS nutzt dünne Lichtbögen zur Beleuchtung des Probenmaterials, das aus lebendem Gewebe, Zellen oder Organismen bestehen kann. Die Technik ist für lebende Proben weniger schädlich und ermöglicht eine längere Aufnahmezeit (Stunden anstelle von Sekunden oder Minuten). Gegenüber herkömmlicheren Methoden wie der konfokalen Mikroskopie ermöglicht die Nutzung eines Lichtbogens eine schnellere Datenerfassung. Durch die höhere Erfassungsrate können Forscher bisher nicht sichtbare biologische Prozesse in drei Dimensionen sichtbar machen.

Wie CryoEM erzeugt LLS mehrere TB an Daten pro Gerät und Tag. Die Datenmenge ist derzeit mit der von CryoEM vergleichbar oder übersteigt sie sogar. Verbesserungen der Technik und die wachsende Zahl eingesetzter Geräte dürften zu weiter zunehmenden Datenmengen führen. Für eine zeitnahe Analyse der Datensätze benötigt Lattice Light Sheet GPUs und Hochleistungsspeicher. Wie bei den anderen genannten Techniken trägt die Verbesserung der Auflösung, in diesem Fall an Zeitdauer und Datenerfassungsrate, zu den massiven Datenmengen bei.

Gedanken zur Infrastruktur für eine zukünftige Bildanalyse

Aktuelle, für NGS implementierte Infrastrukturdesigns eignen sich nicht für die Anforderungen der Bildanalyse und für Pipelines mit gemischten Arbeitslasten. Das Speichersystem ist von zentraler Bedeutung für die Bildanalyse-Workflows; es muss genug Kapazität zur Bewältigung des Datenvolumens haben und ausreichend Leistung für sich ändernde Arbeitslasten bieten. Bisher lieferten große Mengen an Speicher mittlerer Leistung und reine, über 1G oder 10G vernetzte CPU-Knoten genug Leistung für Genomik-Pipelines. Der zunehmende Einsatz bildgebender Geräte stellt deutlich höhere Anforderungen an Speicher und Rechenleistung. Neben Multicore-Knoten sind auch GPU-Knoten erforderlich. Bestehende 10G-Netzwerke bieten nicht die nötige Bandbreite zur Übertragung dieser größeren Datensätze an GPUs oder Multicore-Server. Eine für die Bildanalyse optimale Infrastruktur erfordert einen Hochleistungsspeicher mit hoher Kapazität und GPU-Knoten, die mit einer Bandbreite von 25G oder mehr mit dem Speicher verbunden sind.

Mit zunehmendem wissenschaftlichen Output wachsen auch die Anforderungen an die Infrastruktur. IT-Mitarbeiter in der Forschung werden mehr Zeit als je zuvor damit verbringen müssen, Wissenschaftler zu unterstützen und experimentelle Technologien zu implementieren. Der für Bildanalyse-Workflows unerlässliche Speicher muss nicht nur stabil und zuverlässig, sondern auch leistungsstark sein. IT-Mitarbeiter in der Forschung werden zudem immer weniger Zeit zum Problemlösen haben oder sich mit komplizierten Systemkonfigurationen zu befassen, da ihre Fähigkeiten zunehmend zur Unterstützung der Wissenschaftler benötigt werden. Die wachsende Komplexität der Forschungsabläufe wird einen erhöhten Beitrag der IT-Mitarbeiter fordern, und die IT wird sich von ihrer Rolle als Infrastruktur-Support zu einem Partner bei der Beschleunigung der Forschungsarbeit wandeln.

Storage-Management Teil 1 – Immer den Überblick behalten

Um einen umfassenden Überblick bieten zu können, behandelt dieses eBook unter anderem die folgenden Themen:
# Was ist Storage-Management?
# Nahe Verwandte des Speichermanagements
# Der Status quo der Storage-Systeme

eBook „Storage-Management“ downloaden

Künstliche Intelligenz und maschinelles Lernen in der Bildanalyse

Auch der verstärkte Einsatz künstlicher Intelligenz (KI) und maschinellen Lernens (ML) in der Bildanalyse erhöht die Anforderungen an die Infrastruktur. Die Geschwindigkeit, mit der Bilder generiert werden, übersteigt bei weitem die Fähigkeiten von Menschen, diese manuell zu analysieren. KI/ML bietet ein großes Potenzial zur Beschleunigung der Forschungsarbeit über Bildanalyse. Allerdings gibt es zwei große Herausforderungen.

  • 1. Bilddateien, vor allem ältere Daten, sind über verschiedene Speicherplattformen verteilt und unterliegen keiner oder nur einer eingeschränkten Dateiverwaltung. Namenskonventionen und standardisierte Verzeichnisstrukturen existieren nur selten innerhalb von Organisationen und extern fast nie.
  • 2. Einige Forschungsbereiche, wie zum Beispiel CryoEM, generieren erst jetzt genügend qualitativ hochwertige Datensätze, die für das Training von Modellen verwendet werden können. Bisher gab es einfach nicht genügend Daten, um eine Entwicklung von Algorithmen zu ermöglichen. Die Zunahme an Datensätzen ermöglichte bereits erste Erfolge (zum Beispiel bei der Partikelauswahl in der Verarbeitungspipeline), die dazu führten, dass die Software eine der manuellen Analyse ähnliche Leistung erzielte.

Leider werden größere Erfolge in der Datenverwaltung von Life-Sciences-Bilddateien erst dann möglich sein, wenn es gelingt, diese Herausforderungen zu meistern. Wer sofort bei der Erzeugung seiner Daten mit der Verwaltung beginnt, kann die Vorteile von KI/ML viel besser nutzen. Bei der Erzeugung dieser Daten ist es wichtig, dass eine KI/ML-fähige Infrastruktur für die Durchführung der Analyse vorhanden ist. Dies erfordert eine Hochleistungsinfrastruktur mit einem parallelen Dateisystem, das GPUs auslasten kann, um bildbezogene KI/ML-Workflows in Life Sciences effizient und schnell auszuführen.

COVID-19 und CryoEM

Es fällt leicht, sich in den technischen Details neuer Technologien zu verlieren. Die mit dieser Technik einhergehende Forschung erscheint oft als esoterisch und ohne praktische Bedeutung. Allerdings erzielte CryoEM zum Beispiel große Erfolge beim weltweiten Einsatz gegen COVID-19. Im März 2020 konnten Forscher mithilfe von CryoEM die Struktur des trimeren Spike-Glykoproteins von 2019-nCoV visualisieren. In kürzester Zeit konnte man die Struktur in einem biologisch relevanten Zustand mit einer Auflösung von 3,5 Angström bestimmen, ähnlich wie bei Röntgenkristallographietechniken.

Die Proteinstruktur des Virus ist ein wichtiges Ziel für Impfstoffe, Medikamente, Antikörper und Diagnostik und leistet einen Beitrag zu unserem Verständnis der Infektion. Nachdem diese Struktur nun bestimmt wurde, kann sie als Leitfaden für künftige therapeutische Bemühungen dienen, wie in einem Artikel mit dem Titel „Cryo-EM structure of the 2019-nCoV spike in the prefusion conformation“ in der Ausgabe von Science vom März 2020 beschrieben wird.

Zukunft der Bildanalyse

Die in den vergangenen zehn Jahren für die NGS-Anforderungen genutzten IT-Infrastrukturdesigns können die Anforderungen der Bildanalyse in den Life Sciences von heute und morgen nicht mehr erfüllen. Institutionen, die bisher nur Genomanalyse-Workloads hatten, werden bald mit neueren Imaging-Technologien und dem daraus resultierenden Anstieg der Datengrößen und -mengen konfrontiert. Diese gemischten Workloads werden die Speicherinfrastruktur auf ungeahnte Weise belasten. Organisationen, die sich für neue, andere Forschungs-Pipelines rüsten wollen, müssen eine Datenspeicherbasis vorhalten, die auf zuverlässige, skalierbare und anpassbare Weise hohe Leistung liefert. So können IT-Verantwortliche sich von der administrativen Last der Speichersysteme freimachen und zu Partnern der wissenschaftlichen Forschung werden.

*Der Autor: Adam Marko, Direktor für Life Science Lösungen bei Panasas

Bildergalerie

(ID:47266757)