Wertschöpfung aus der Datenflut

Big Data in F&E – Segen oder Fluch? Die Antwort hängt ganz davon ab, ob die in der Datenflut verborgenen, relevanten Informationen «abgeschöpft» und für die eigenen Zwecke genutzt werden können.

roche-stories-2014-01-22-1

Daten in Hülle und Fülle: Pro Sekunde gehen rund 3,7 Millionen E-Mails um die Welt, pro Tag gibt es 4,5 Milliarden «Like»-Klicks bei Facebook. Allein in Westeuropa nimmt die Menge der digitalen Daten jährlich um 30 Prozent zu. Die Rechenleistung und -geschwindigkeit steigt dramatisch; Die Möglichkeiten zum Speichern, Übermitteln und Verarbeiten gewaltiger Datenmengen machen Quantensprünge. Innerhalb weniger Jahre änderten sich die Dimensionen von Megabytes (MB) und Gigabytes (GB, 1000 MB) zu Terabytes (TB, 1000 GB) und Petabytes (PB, 1000 TB).

Bryn Roberts spricht vom «Daten-Tsunami», wenn er die Geschwindigkeit und die schiere Grössenordnung auf den Punkt bringt, mit der Daten heute generiert werden: «Bei der Big-Data-Revolution geht es darum, Unmengen an Informationen zu erfassen, zu verwalten, zu integrieren und zu interpretieren, und letztlich darum, Werte zu schaffen. Diese Herausforderung lässt sich mit den vier G beschreiben: Grös-senordnung der Daten; Geschwindigkeit der durchzuführenden Analysen; Gestaltenreichtum der Datenquellen und die Notwendigkeit, sie zu integrieren; Glaubwürdigkeit beziehungsweise Zuverlässigkeit der Daten.»

Herausforderung von Big Data für F&E

Während die durch menschliche Aktivitäten im Bereich Social Media, Kreditkartentransaktionen oder digitale Telekommunikation anfallende Datenmenge an sich schon überwältigend ist, stossen die Biowissenschaften laut Roberts in eine weitere Dimension vor: «Bei der Big-Data-Herausforderung für F&E steht die komplexe Biologie im Vordergrund. Sie kommt zu den vier G hinzu, die sich ganz konkret im grossen Gestaltenreichtum der Datenquellen von der frühen Forschung bis zum klinischen Einsatz zeigt oder in der häufigen Ungewissheit, was die Glaubwürdigkeit der Daten angeht, vor allem bei der Wissenschaftsliteratur.»

Wir müssen die komplexen Daten auf einen für die Forscher verständlichen Nenner bringen
Bryn Roberts

Nehmen wir etwa die Gensequenzierung. Das menschliche Genom besteht aus drei Milliarden Basenpaaren, die für rund 20’000 Gene kodieren. Bei der Sequenzierung eines solchen Genoms, die vor ein paar Jahren noch Wochen dauerte und jetzt nur noch wenige Stunden, entstehen Unmengen an Daten. Roberts ergänzt: «Bis 2010 belief sich das Volumen an Forschungsdaten bei Roche auf zirka 100 TB. 2011/2012 wurden im Rahmen des CELLO-Projekts die Genome von etwa 300 Krebszelllinien sequenziert. Samt anderen Zelldaten wurden allein bei diesem ‹Experiment› 100 TB Daten generiert – das entspricht 100 Jahren Roche-Forschung bis 2010!»

Eine weitere grosse Herausforderung ist das Extrahieren aussagekräftiger und zuverlässiger Daten aus den über 22 Millionen Life-Science-Publikationen, sagt Roberts: «Diese Literatur umfasst relativ viele Aussagen, die einfach nicht reproduzierbar sind. Im Hinblick auf ‹wasserdichte› Entscheidungen bei F&E-Projekten jedoch müssen die Aussagen der Wissenschaftsliteratur mit externen Daten und mit zahlreichen internen Daten von Roche aus Bereichen wie Hochdurchsatzscreening, Toxikologie, Target-Selektivität, Metabolismus oder Pharmakokinetik, In-vitro- und In-vivo-Wirksamkeit sowie Bildgebung kombiniert werden.»

Es sei sehr schwierig, grosse Datenmengen für wichtige Entscheide zu nutzen und dadurch Erfolgschancen zu maximieren. «Das lässt sich erst richtig einschätzen, wenn die Komplexität auf individueller genetischer Ebene berücksichtigt wird – etwa bei so genannten Polymorphismen.» Diese Genvariotionen beeinflussen, wie Medikamente mit biologischen Target-Molekülen wechselwirken oder wie sie vom Körper abgebaut und ausgeschieden werden.

Machine learning» und der Mensch

Trotz der Datenflut, die heute bei der Arzneimittelforschung und -entwicklung anfällt, erscheint es vielleicht sonderbar, dass Knappheit für die F&E nach wie vor eine grosse Heraus-forderung ist. Das liegt daran, dass die verfügbare Datenmenge quantitativ gesehen zwar hoch ist, die Qualität vieler Daten aber oft nicht ausreicht.

Bryn Roberts: «Das macht die Versuchsplanung so wichtig: Sie generiert Daten von ausreichender Qualität und Zuverlässigkeit und ermöglicht so eine gute Entscheidungsfindung. Vor allem erfordert die Big-Data-Problematik einen multidisziplinären Ansatz und damit eine ausgeprägte Zusammenarbeit zwischen Biologen, Informatikern, Toxikologen, Statistikern, Chemikern und vielen anderen Spezialisten.»

Computer können des Weiteren die Gefahren des «inadäquaten Reduktionismus» umschiffen helfen: durch komplexe Modelle, die alle relevanten Faktoren berücksichtigen. Roberts: «Wir müsse n die komplexen und umfangreichen Daten verdichten, komprimieren und so auf einen relativ einfachen, für die Forscher verständlichen Nenner bringen. Wir hoffen auch, dass es uns in den nächsten Jahren gelingen wird, menschliche Entscheidungsprozesse verstärkt durch Computer zu unterstützen, indem wir ‹machine learning› auf Big Data ansetzen.»

Bandbreiten und Cloud-Computing

Zu den grössten F&E-Herausforderungen für die Informatik meint Roberts: «Für den schnellen, weltweiten Austausch dieser enormen Datenmengen müssen wir die Netzwerkbandbreite optimieren. Ausserdem brauchen wir effektivere Wege, um mit Cloud-Computing zu arbeiten, ohne die Dateien vom ursprünglichen Speicherort verschieben zu müssen. Die IT unterstützt auch die Integration unterschiedlicher Datenformate sowie neue Ansätze, mit denen weiträumige Informationslandschaften erkundet und visualisiert werden können. Analysealgorithmen ermöglichen zudem, hochkomplexe Daten nach Informationen zu filtern. Schliesslich werden neue Schnittstellen zwischen Mensch und Computer die datenbasierte Zusammenarbeit zwischen Teams verbessern.»

Der US-amerikanische Autor John Naisbitt (*1929) schrieb: «Wir ertrinken in der Informationsflut, aber dürsten nach Wissen.» pRED Informatics setzt sich dafür ein, dass Forscher bei Roche weder in Big Data ertrinken noch nach relevanten Informationen dürsten müssen.

  • Weniger als 2% aller Daten sind heute noch analog.
  • Man schätzt, dass 90%  aller digitalen Daten erst in den letzten zwei Jahren geschaffen wurden. 1200 Exabytes sollen es insgesamt sein.
  • Google erfasst jeden Tag 20 MILLIARDEN Websites.
  • Würde man diese Daten auf CDs brennen, ergäben sich FÜNF STAPEL die von der Erde bis zum Mond reichten.

Tags: Wissenschaft