Big Data ermöglicht weltweite Bakterien-Analyse

06.10.2016

Wenn biologische Proben genommen werden von Haut, Darm oder Boden, kommen die daraus sequenzierten Daten in ein Archiv. Dadurch können Forscher weltweit darauf zugreifen. Allerdings sind inzwischen immens große Datenmengen entstanden.

Foto:Mann tippt auf eine gemalte Glühbirne, die in der Luft schwebt, daneben das Wort "Big Data"; Copyright: panthermedia.net / gustavo frazao

Big Data eröffnet neue Möglichkeiten, auch im Bereich Krankenhaushygiene; © panthermedia.net /gustavo frazao

Um diese Daten nutzen und analysieren zu können, werden neue Auswertungsmethoden notwendig. Wissenschaftler an der Technischen Universität München (TUM) haben ein bioinformatisches Tool entwickelt, mit dem sie sämtliche Bakteriensequenzen in diesen Datenbanken in kurzer Zeit nach Ähnlichkeiten oder Vorkommen durchsuchen können.

Mikrobielle Gemeinschaften nehmen in Ökosystemen weltweit eine Schlüsselposition ein. Sie spielen bei essentiellen biologischen Funktionen vom Kohlenstoff- über den Stickstoffkreislauf in der Umwelt bis hin zur Regulation von Immun- und Stoffwechselprozessen in tierischen oder menschlichen Körpern eine wichtige Rolle. Sie eingehender zu erforschen, ist daher das Ziel vieler Wissenschaftler.

Zunächst war etwa 30 Jahre lang fürs Entziffern des DNA-Codes von Mikroben die 1975 entwickelte Sanger-Sequenzierung vorherrschend. Mit dieser Methode konnte die Abfolge der Bausteine auf der DNA aufgeklärt werden – das läutete die Ära der Genomforschung ein. Inzwischen haben die sogenannten Next Generation Sequencing-Technologien (NGS) zu einer weiteren Revolution geführt: Die aktuellen Geräte können mit geringem personellem Aufwand innerhalb von 24 Stunden so viele Daten erzeugen wie zuvor hundert Durchläufe der ersten DNA-Sequenzierungsmethode.

Die Sequenzanalyse bakterieller 16S-rRNA-Gene ist heutzutage die häufigste unter den Identifikationsmethoden von Bakterien. Die 16S-rRNA-Gene gelten als ideale molekulare Marker für die Rekonstruktion von Verwandtschaftsgraden unter Organismen, weil an ihnen die gesamte Entwicklungsgeschichte eines Organismus abgelesen werden kann.

Im Sequenz Read Archive (SRA), eine öffentliche bioinformatische Datenbank fürs Archivieren von Sequenzen, sind inzwischen über 100.000 solcher 16S-rRNA–Sequenzen als Datensätze zusammen gekommen. Denn die neuen technischen Verfahren der DNA-Sequenzierung haben den Umfang und die Komplexität genomischer Forschungsdaten in den vergangenen Jahren explosionsartig anwachsen lassen. Im SRA schlummern Datensätze, die in ihrer Gesamtheit bisher nicht auswertbar sind.

"Über all die Jahre wurden aber nicht nur Sequenzen von humanen Umgebungen wie Darm oder Haut genommen, sondern ebenso vom Boden oder aus dem Ozean", erklärt Dr. Thomas Clavel vom Zentralinstitut für Ernährungs- und Lebensmittelforschung (ZIEL) an der TU München. "Wir haben jetzt ein Tool geschaffen, womit sich diese Datenbanken in relativ kurzer Zeit durchsuchen lassen, um Verwandtschaften unter Bakterien zu erkennen", sagt Clavel – "ein Wissenschaftler kann damit binnen einiger Stunden eine Abfrage durchführen, um zu überprüfen, in welcher Art von Proben wie etwa Boden- oder Darmproben das ihn interessierende Bakterium noch zu finden ist – beispielweise ein pathogener Erreger aus dem Krankenhaus. Diese Querverbindungen auszulesen war bisher nicht möglich." Die neue Plattform heißt Integrated Microbial Next Generation Sequencing (IMNGS) und ist über www.imngs.org allgemein zugänglich.

Wie IMGS funktioniert, wird am Beispiel des Darmbakteriums Acetatifactor muris in der aktuellen Onlineausgabe von Scientific Reports detailliert beschrieben. Registrierte Nutzer können Abfragen tätigen gefiltert nach der Herkunft ihrer Bakteriendaten oder auch ganze Sequenzen herunterladen.

Bald könnten solche bioinformatischen Sequenzierungen aus der täglichen klinischen Routinediagnostik nicht mehr wegzudenken sein. Ein kritischer Punkt ist dabei aber, dass die vielen Unterarten der mikrobiologischen Gemeinschaften beschrieben werden müssen, da sie nicht ganz so leicht identifiziert und nummeriert werden können. "Das wird die große Herausforderung sein", sagt Clavel – "die Qualität der Daten ist noch nicht gut genug, die Beschreibungen der einzelnen Proben in der Datenbank sind unvollständig und somit die Vergleichsmöglichkeiten per IMNGS derzeit noch eingeschränkt."

Clavel kann sich aber vorstellen, dass eine Kooperation mit Kliniken ein Beschleuniger sein könnte, sofern die Datenbank akribischer befüllt werde. "Dann können wir auf Basis sehr gut gepflegter Datenbanken mit innovativen Tools wie IMNGS chronische Erkrankungen schneller diagnostizieren", sagt Clavel.


COMPAMED.de; Quelle: Technische Universität München

Mehr über die TUM unter: http://portal.mytum.de/ccc/presse/index_html