Planckton

Planckton

Die Wissenschaft ist ein ernstes Geschäft, aber gehört ihr deshalb das letzte Wort?

250.000 iPhones fürs Krebsgenom

   Datenspeicherung total:  Welchen Aufwand das etwa für die Genomforschung bedeutet, lässt sich an einem schönen Beispiel verdeutlichen, das...

 

 Datenspeicherung total:  Welchen Aufwand das etwa für die Genomforschung bedeutet, lässt sich an einem schönen Beispiel verdeutlichen, das Roland Eils   vor ein paar Tagen mit zum Krebskongress nach Berlin gebracht hat. Eils ist Bioinformatiker am Deutschen Krebsforschungszentrum (DKFZ), Gründungsdirektor von „Bioquant” in Heidelberg und stellvertrender Sprecher des deutschen Teilprojektes PedBrain im Internationalen Krebsgenomprojekt:  

„Unser Genom besteht aus 3 Milliarden Buchstaben, jeder Buchstabe wird mit heutiger Technologie 30 fach im Mittel sequenziert. Die moderne Recheneinheit der Genomsequenzierer ist Bytes per Base (also wie viele Bytes speichert man pro Buchstabe und die damit verbundenen statistischen Daten): heutiger Standard ist 30 Bytes per Base . Daraus ergibt sich, dass man ca. 3 Terabyte an Speicherplatz per Genomsequenz braucht. In unserem PedBrain-Projekt zur Entzifferung der zwei wichtigsten kindlichen Hirntumore  sequenzieren wir 1200 Genome, die entspricht ca. 3.5 Petabyte an Daten.  Diese Zahl muss man noch mal zwei multiplizieren, da wir neben den DNA-Sequenzen auch die RNA, micro-RNA und das Methylom sequenzieren. Alles in allem also gut 7 Petabyte an Daten.”

 Um diese Daten speichern zu können, baut Eils derzeit an Bioquant die größte Data Facility in den Lebenswissenschaften auf .

  Bild zu: 250.000 iPhones fürs Krebsgenom

 

Um diese ungeheure Zahl fassbar zu machen:

   1.  Das gesamte Speichervolumen ALLER Daten am DKFZ (akkumuliert von 2000 Mitarbeitern über mehrere Jahre) beträgt 50 Terabyte. Im PedBrain-Projekt werden wir alle 2-3 Wochen 50 Terabyte an Daten generieren, also alle 2-3 Wochen soviel Daten, wie das gesamte DKFZ über Jahre mit mehreren Tausend Mitarbeitern generiert hat!

 

 2.  Wieviele iPhones der letzten Generation (32 Gigabyte Speicher) braucht man, um all diese Daten zu speichern? Man braucht 100 iPhones für ein einziges DNA-Genom und ca. 250.000 iPhones für alle Daten des PedBrain-Projekts.

 

Neben der Datenspeicherung ist der Datentransfer ein weiteres riesiges Problem: Stand der Technik ist 10 Gigabit/s Übertragunsgrate übers Internet. Dabei sollte man wissen, dass sich z.B. der gesamte Campus Heidelberg EINE solche Leitung teilt. Hätte man jedoch diese Leitung exklusiv für sich alleine, dann würde es immer noch etwa eine Stunde dauern, um die Daten eines Genoms zu transferieren. Das klingt überschaubar, jedoch wenn man z.B. nur 100 Genome (ganz zu schweigen von 1200 Genomen) vom Sequenzierer in den Datenspeicher oder vom Datenspeicher in das Computingcluster transferieren wollte, dann müsste man ganze vier Tage warten. Da dies viel zu lange dauert, werden diese Datenmengen nicht über die “Datenautobahn” sondern über die echte Autobahn per Kurier versandt.”