Ein Internet für DNA

Cloud-Anbieter wetteifern darum, die Massen an Daten aus immer mehr Genom-Analysen bei sich zu speichern. Bald sollen Ärzte dieses Material so einfach durchsuchen können wie heute das Web.

In Pocket speichern vorlesen Druckansicht 1 Kommentar lesen
Lesezeit: 7 Min.
Von
  • Antonio Regalado

Cloud-Anbieter wetteifern darum, die Massen an Daten aus immer mehr Genom-Analysen bei sich zu speichern. Bald sollen Ärzte dieses Material so einfach durchsuchen können wie heute das Web.

Das erste Produkt des Suchmaschinenriesen für das DNA-Zeitalter ist Google Genomics, ein im vergangenen März gestarteter Cloud-Dienst. Bislang wurde er kaum beachtet, weil eine Flut von Google-Ankündigungen über Forschungs- und Entwicklungsprojekte davon ablenkte. Vergangenen Monat zum Beispiel berichtete Google über einen weit hergeholten Plan, Krebs mit Nanopartikeln zu bekämpfen. Dabei könnte sich Google Genomics als weitaus bedeutender erweisen als irgendeine der großen Ankündigungen. Tausende von Genomen zu speichern und miteinander zu vergleichen, bald sogar Millionen, könnte ein ganzes Jahrzehnt lang für neue medizinische Entdeckungen sorgen. Um die Frage, wer all diese Daten speichern wird, ist bereits ein Wettbewerb unter Amazon, Google und IBM im Gang.

Google hat vor 18 Monaten mit der Arbeit an Google Genomics begonnen. Es fanden Treffen mit Wissenschaftlern statt, und das Unternehmen schrieb eine Programmierschnittstelle (API), mit der sich DNA-Daten in seine Serverfarmen transferieren lassen. Dies ermöglicht Experimente, die auf derselben Datenbank-Technologie basieren, die Google auch für die Indizierung von Webseiten und das Tracking von Milliarden Internet-Surfern nutzt.

"Wir haben gesehen, dass Biologen damit anfingen, statt immer nur eines Genoms Millionen davon gleichzeitig zu untersuchen", sagt David Glazer; der Google-Softwareentwickler leitet das Projekt und war zuvor Leiter der Plattform-Programmierung für das soziale Netzwerk Google+. "Die Chance liegt darin, Durchbrüche in der Datentechnologie dazu zu nutzen, diesen Wandel zu unterstützen", erklärt er.

Manche Wissenschaftler wenden ein, Genomdaten seien immer noch zu komplex, als dass Google Unterstützung für die Arbeit damit leisten könnte. Andere aber sehen einen großen Wandel kommen. Zum Beispiel Atul Butte, ein Bioinformatik-Experte an der Stanford University: Als er in diesem Jahr von den Google-Plänen hörte, so sagt er, habe er gewusst, "wie sich Reisebüros fühlten, als sie Expedia sahen".

Weil Labore auf neue, noch schnellere Technik für das Entschlüsseln von DNA umsteigen, nimmt das Volumen an derartigen Daten explosiv zu. Das Broad Institute in Cambridge zum Beispiel gibt an, im Oktober alle 32 Minuten das Äquivalent eines menschlichen Genoms dekodiert zu haben. Das entspricht 200 Terabyte an Rohdaten.

Große Internetfirmen müssen sogar mit noch größeren Datenströmen zurechtkommen (YouTube hat an einem Tag so viele Daten wie das Broad Institute in zwei Monaten). Für Biologen aber sind die aktuellen Mengen weitaus mehr, als sie gewohnt sind. Aus diesem Grund beginnen viele damit, Daten an zentralen Speicherorten unterzubringen, häufig auch kommerziellen. Das National Cancer Institute meldete Ende Oktober, es werde 19 Millionen Dollar ausgeben, um Kopien des 2,6 Petabyte umfassenden Cancer Genome Atlas in die Cloud zu bringen. Diese Daten von mehreren tausend Krebspatienten sollen jetzt bei Google Genomics und in den Rechenzentren von Amazon gespeichert werden.

Die Idee dahinter ist, "Krebsgenom-Clouds" zu schaffen. Darin sollen Wissenschaftler Informationen austauschen und virtuelle Experimente so schnell erledigen können wie eine Web-Suche, sagt Sheila Reynolds, eine Forscherin am Institute for Systems Biology in Seattle. "Nicht jeder kann ein Petabyte an Daten herunterladen oder hat genügend Rechenkraft, um damit zu arbeiten", erklärt sie.

Ebenfalls beschleunigt wird der Umzug von DNA-Daten in die Cloud durch einen Preiskrieg zwischen Google und Amazon, der seit etwa einem Jahr tobt. Google nimmt nach eigenen Angaben für die Speicherung eines Genoms 25 Dollar pro Jahr, Berechnungen damit kosten extra. Die wissenschaftlichen Rohdaten zum Genom eines Menschen haben ein Volumen von etwa 100 Gigabyte, eine aufbereitete Version aber ist mit weniger als einem Gigabyte viel kleiner. Sie zu speichern, würde nur 0,25 Cent pro Jahr kosten.

Speicherung in Cloud bringt zudem neue Impulse für Start-ups wie Tute Genomics, DNANexus, Seven Bridges oder NextCode Health. Diese Unternehmen entwickeln "Browser", mit denen Krankenhäuser und Wissenschaftler genetische Daten durchsehen können. "Google oder Amazon bieten nur das Back-end. Sie sagen Kunden, sie könnten ein Genom-Unternehmen in ihrer Cloud aufbauen", sagt Deniz Kural, CEO von Seven Bridges, das für 1600 Wissenschaftler Genom-Daten in der Amazon-Cloud speichert.

Wichtiger aber ist laut Kural, dass der Medizin bald eine Art DNA-Internet zur Verfügung stehen wird, das sich von Ärzten durchsuchen lässt. "Unsere Vogelperspektive ist: Wenn ich irgendwann Lungenkrebs bekomme, werden Ärzte mein Genom und das meines Tumors sequenzieren und es dann mit einer Datenbank von 50 Millionen anderen Genomen abgleichen", sagt er. Auf diese Weise lasse sich dann das Medikament finden, das im speziellen Fall am besten wirkt. Über die Google-Initiative sagt Glazer, er habe damit begonnen, als klar wurde, dass die Biologie von "handwerklicher Datenproduktion zum Industriemaßstab" übergeht. Als erstes brachte er sich selbst Genetik bei – in einem Online-Kurs namens Introduction to Biology, gehalten vom Broad-Institute-Chef Eric Lander. Er ließ auch sein eigenes Genom sequenzieren und speicherte es in der Google-Cloud.

Wie groß Google Genomics mittlerweile ist oder wie viele Kunden es hat, will Glazer nicht sagen; bekannt ist, dass mindestens 3500 Genome aus öffentlichen Projekten schon bei Google liegen. Noch gibt es laut Glazer auch keine Verbindung zwischen der Genom-Cloud und spekulativeren Google-Projekten im Gesundheitsbereich. In diesem Jahr hat Google zum Beispiel Calico gegründet, ein Unternehmen, das herausfinden soll, wie sich menschliches Leben verlängern lässt. "Der einzige Zusammenhang ist, dass dahinter das zunehmende Bewusstsein darüber steht, dass Technologie die Lebenswissenschaften voranbringen kann", sagt Glazer.

Die Physikerin Somalee Datta ist für den größten Computer-Cluster der Stanford University für Genom-Daten verantwortlich. Nach ihren Worten kostet die Speicherung von Genomen bei Google oder Amazon nach den jüngsten Preissenkungen jetzt in etwa so viel wie in ihrem eigenen Rechenzentrum. "Die Preise werden endlich vernünftiger, und wir glauben, dass sie weiter fallen werden", sagt sie. Laut Datta arbeiten einige Stanford-Wissenschaftler seit kurzem mit einem Google-Datenbanksystem namens BigQuery, das Glazers Team für die Verwendung bei Genom-Daten angepasst hat.

Entwickelt wurde es einst, um große Datenbanken mit Spam, Web-Dokumenten oder Kauftransaktionen zu analysieren. Ebenso schnell aber kann es die sehr großen Experimente vornehmen, bei denen Forscher Tausende oder Zehntausende von Genomen miteinander vergleichen. "Manchmal wollen sie verrückte Sachen probieren, und dafür braucht man Kapazität", sagt Datta. "BigQuery kann mit den Größenordnungen, die bei der Genetik auftreten, umgehen, also ist es die richtige Technologie für ein neues Problem."

(bsc)