Planckton

Planckton

Die Wissenschaft ist ein ernstes Geschäft, aber gehört ihr deshalb das letzte Wort?

Der Datenmythos

| 16 Lesermeinungen

Wissenschaft produziert Daten, aber sind Daten auch Fakten? Welche Rolle spielen Daten in den Wissenschaften und was können wir aus ihnen lernen? Ein Plädoyer für einen sorgfältigen Blick auf die Bedeutung und den Kontext von Daten.

Man kann es nicht oft genug feststellen: wir leben im Datenzeitalter. Überall werden ständig Daten erzeugt, gespeichert, ausgewertet, wir hinterlassen Datenspuren im Netz, wir sichern Daten in der Cloud und tragen eine Fülle von Daten auf unseren Smartphones mit uns herum. Gleichzeitig sind Daten mehr und mehr zu einem öffentlichen Gut geworden. WikiLeaks macht sich die Veröffentlichung geheimer Daten zum Auftrag, Journalisten durchforsten öffentliche Datenbanken um Daten kritisch zu prüfen und verständlich für ein großes Publikum darzustellen und zu visualisieren.

Die Wissenschaft ist entsprechend nur eine Unternehmung unter vielen, die mit Daten arbeitet und sich auf Daten gründet. Der LHC erzeugt beispielsweise im Betrieb pro Jahr 15 Millionen Gigabytes, das in der Planungsphase befindliche radioastronomische Observatorium „Square Kilometre Array“ wird pro Jahr sogar 350 Milliarden Gigabytes an Rohdaten erzeugen und damit alles in den Schatten stellen, was die Menschheit bisher an Datenerzeugung erlebt hat. Durch die Datenbrille gesehen scheint Wissenschaft damit die Unternehmung systematischer, objektiver Datenerzeugung und -interpretation zu sein. Der Wissenschaftler ringt der Natur Daten ab, die daraufhin wissenschaftlich interpretiert werden können, um der Welt ihre letzten Geheimnisse zu entlocken. Immer stärker wird damit Wissenschaft zur „E-Science“: Daten werden archiviert und digital öffentlich verfügbar gemacht, um eine Weiterverwertung von Daten zu ermöglichen. Dahinter steht neben der Notwendigkeit, der überwältigenden Menge erzeugter Daten Herr zu werden, der Wunsch einer optimalen Nutzung öffentlich finanzierter Daten und die Hoffnung, dass auf der Grundlage Projekt-übergreifender Datenbanken völlig neue wissenschaftliche Fragen gestellt werden können.

© Quelle: SKA Organisation/Swinburne Astronomy ProductionsAbbildung: Jeden Tag mehr Daten als das gesamte Internet – das geplante Square Kilometre Array.

Vor diesem Hintergrund der Omnipräsenz von Daten ist es erstaunlich, wie wenig die Frage gestellt wird, was Daten, insbesondere wissenschaftliche Daten, eigentlich sind. Der lateinische Namensursprung führt auf eine zweifelhafte Fährte: Daten erscheinen als das „Gegebene“, und sofern sie uns als dieses Gegebene fertig vorliegen, können wir unsere Energie allein darauf verwenden, aus den Daten schlau zu werden, sie zu interpretieren, zu visualisieren und innerhalb von Wissenschaft mit den von uns entwickelten Theorien abzugleichen. Dass dieses einfache Bild aber leider zu kurz greift, zeigt sich, sobald man zu analysieren versucht, wie wissenschaftliche Daten innerhalb wissenschaftlicher Praxis erzeugt und genutzt werden.

Die Philosophen James Bogen und James Woodward haben 1988 zu diesem Zweck die Unterscheidung zwischen Daten und Phänomenen eingeführt. Ihre im ersten Moment erstaunlich klingende Beobachtung ist, dass wissenschaftliche Theorien keine Aussagen über Daten machen, und demgemäß auch nicht mit Daten verglichen werden können. Der Grund dafür ist, dass Daten in ihrer Entstehung immer einer großen Anzahl von Störfaktoren ausgesetzt sind, die mit dem von der Theorie vorhergesagten Phänomen nichts zu tun haben. Wenn man zum Beispiel versucht, den Schmelzpunkt von Blei zu bestimmen, wird man nach der Durchführung des Experiments eine Datenmenge verschiedener Temperaturablesungen erlangt haben, von denen vermutlich keine dem tatsächlichen Schmelzpunkt genau entspricht. Stattdessen beobachtet man eine statistische Streuung einzelner Datenpunkte. Das liegt offenbar nicht daran, dass der Schmelzpunkt von Blei variabel ist, sondern daran, dass die Ablesung der Schmelztemperatur nur mit eingeschränkter Genauigkeit möglich ist.

Um aus den Messdaten einen Wert für den Schmelzpunkt abzuleiten, ist man daher darauf angewiesen, Annahmen über die statistische Natur der Streuung zu machen, beispielsweise dass die Daten einer Normalverteilung folgen, man sinnvoll ihren Mittelwert als Abschätzung für den tatsächlichen Schmelzpunkt nehmen kann, und es keine unentdeckten systematischen Fehler wie z.B. eine Fehlfunktion des Thermometers gibt. Diese Situation klingt im genannten Beispiel nicht sonderlich besorgniserregend, da die eingehende Statistik intuitiv und der experimentelle Rahmen sehr einfach ist. In heute betriebenen, wissenschaftlichen Großprojekten kann der Weg von den Rohdaten zu interpretationsfähigen Daten aber fast beliebig komplex werden. Störeinflüsse und Hintergründe werden korrigiert, schlechte oder uninteressante Daten werden entfernt, Daten kalibriert und transformiert. All dies setzt ein detailliertes Wissen in Bezug auf das experimentelle Setup, über die genutzten Methoden, Instrumente und die experimentellen Umstände voraus.

© S. AnderlAstronomische Daten

Diese Tatsache führt auf den von Bogen und Woodward identifizierten zentralen Unterschied zwischen Daten und Phänomenen: Daten haben nur in Zusammenhang mit ihrem experimentellen Kontext Sinn, ohne diesen Kontext können sie nicht verstanden werden. Phänomene dagegen sind das, was sich in verschiedenen Experimenten zeigt, was stabil und reproduzierbar ist. Je näher man sich als Wissenschaftler an den ursprünglichen Rohdaten bewegt, desto mehr Wissen über deren Entstehung ist notwendig, um verlässliche, „gute“ Wissenschaft zu betreiben und zu extrahieren, was an stabilen Aussagen über Phänomene in der Welt wirklich in den Daten steckt. Jocelyn Bell Burnell, die Entdeckerin der Pulsare, führt ihre Entdeckung beispielsweise auch darauf zurück, dass sie ihr Beobachtungsinstrument in all seinen Eigenheiten und Verhaltensweisen so gut kannte, dass sie relativ schnell ausschließen konnte, dass die Auffälligkeiten in ihren Daten auf eine instrumentelle Fehlfunktion zurückführbar sein konnten. Andernfalls, so ihre Vermutung, hätte sie diese Anomalie vielleicht nicht weiter verfolgt und hätte sich stattdessen schnell wieder auf ihre ursprüngliche Forschungsfrage konzentriert. Was es bedeutet, Daten ohne entsprechende experimentelle Erfahrung zu erzeugen, kann man in der universitären Ausbildung beobachten. Beispielsweise werden in physikalischen Anfängerpraktika wohl täglich die klassischen Gesetze der Physik experimentell falsifiziert (natürlich ohne dass man daraus auf die Falschheit der Physik schließen würde). Hier greift der Ausspruch, mit dem der Philosoph und Teilchenphysiker Allan Franklin seinen ehemaligen wissenschaftlichen Betreuer zitiert: „Any fool can take data, it’s taking good data that counts.“

© dpaAbbildung: 15 Millionen Gigabytes pro Jahr – der LHC als Datenfabrik.

Daten sind also nicht einfach „das Gegebene“, sondern benötigen immer einen Entstehungskontext, um verstanden und beurteilt zu werden. Sofern dieser Entstehungskontext in den Daten korrigiert und damit relativiert wird, erlangen die Daten eine Geschichte der Datenselektion und –analyse: Was waren die Kriterien dafür, bestimmte Daten auszusondern? Welche Annahmen über Störeinflüsse sind in die Datenanalyse eingegangen? Welche Kalibrierung wurde gewählt? Welche Modelle sind genutzt worden? Wenn Daten archiviert und veröffentlicht werden sollen, steht man daher vor der Grundsatzentscheidung, welche Daten innerhalb der Hierarchie der prozessierten Daten öffentlich gemacht werden sollen. Wählt man die meist sehr umfangreichen Rohdaten um verschiedene Strategien der Datenreduktion zu ermöglichen und vertraut auf ein hohes Fachwissen der Nutzer in Bezug auf die Behandlung der Daten oder veröffentlicht man reduzierte Daten, bei denen der Nutzer sich andersherum darauf verlassen muss, dass im Zuge der Datenreduktion die bestmögliche Methode fehlerfrei angewendet wurde?

Eine Lösung für dieses Problem scheint in jedem Fall eine möglichst gute und vollständige Dokumentation der Daten zu sein. Doch auch diese Lösung läuft unter Umständen in ein systematisches Problem: wissenschaftliche Praxis beruht nämlich nicht nur auf Wissen, das man explizit aufschreiben und dokumentieren kann. Die Existenz von „tacit knowledge“, implizitem Wissen, wurde 1958 von Michael Polanyi beschrieben. Sein prominentes Beispiel ist die Fähigkeit des Fahrradfahrens: Auch wenn wir in der Lage sind Fahrrad zu fahren, können wir keine Regeln angeben, die diese Fähigkeit vermitteln. Ähnliches Wissen scheint es innerhalb von Wissenschaft zu geben: kollektives, implizites Wissen, das vom wissenschaftlichen Nachwuchs im Lösen von Übungsaufgaben, experimentellen Praktika und Workshops zur Datenbearbeitung erworben wird. Sofern ein Nutzer archivierter Daten über entsprechendes Wissen nicht verfügt, ist eine noch so gute Datendokumentation unter Umständen nur von sehr eingeschränktem Nutzen.

© dpaAbbildung: Kann man rein theoretisch die Fähigkeit vermitteln, Fahrrad zu fahren?

Die Probleme, die sich im Kontext der Etablierung von „E-Science“ stellen, wurden von verschiedenen soziologischen Studien genauer untersucht. Beispielsweise veröffentlichten Samuelle Carlson und Ben Anderson von der Universität Essex 2007 die Ergebnisse von Feldstudien und Interviews in vier verschiedenen wissenschaftlichen Datenarchivierungsprojekten innerhalb der Astronomie, Kunst, Anthropologie und dem UK data archive. Ihr Ergebnis war fachübergreifend, dass es typischerweise nicht möglich ist, Wissen einfach und unkompliziert aus seinem Produktionskontext zu extrahieren. Überall stellte sich das Problem der Dokumentation, des Kontexts und der Herkunft der Daten, um eine sinnvolle Weiterverwertung der Daten gewährleisten zu können: „[In these projects]… data were not self-contained units that could easily be circulated, but always needed complementary external information to be understood or trusted.“ („[In diesen Projekten] waren Daten keine autarken Einheiten, die einfach herumgereicht werden konnten, sondern benötigten immer zusätzliche, externe Information um verstanden und als zuverlässig eingeschätzt werden zu können.“) Das bedeutet offensichtlich nicht, dass eine Archivierung und Veröffentlichung von Daten unmöglich ist, es zeigt aber, dass das naive Bild der selbstständigen Daten, die zum sofortigen, unkomplizierten Gebrauch im Internet verfügbar zu machen sind, irreführend ist und gefährlich werden kann, sofern das Fehlen von Kontextwissen auf Seiten des Nutzers zu Fehlinterpretationen führt.

Die soziologischen Studien zeigen, dass sich die Wissenschaftler der Komplikationen und Gefahren in der Weitergabe wissenschaftlicher Daten sehr wohl bewusst sind. Eine solche Weitergabe kann funktionieren, wenn neben einer vollständigen Dokumentation ein geteilter Rahmen etablierter Standards und Methoden zwischen Datenerzeugern und Datennutzern vorhanden ist. Wie ist es aber in Fällen, in denen Daten nicht nur aus ihrem Entstehungskontext losgelöst werden, sondern die Nutzung wissenschaftlicher Daten außerdem außerhalb eines wissenschaftlichen Kontextes passiert?

Motiviert durch die öffentliche Zugänglichkeit großer Datenbestände im Internet hat sich in den letzten Jahren eine neue Form des Journalismus formiert, der sogenannte Datenjournalismus. Ziel ist es, „Daten verständlich, informativ und unterhaltsam“ darzustellen. Dass ein solches Konzept durchaus Sinn machen kann, zeigen beispielsweise Projekte, die politisch relevante bzw. brisante Daten (im Sinne von Informationen) einer breiten Öffentlichkeit zugänglich machen. Solche Informationen (wie z.B. Steuerabgaben, militärische Haushaltsausgaben, demographische Daten) sind in der Regel unabhängig vom konkreten Kontext ihrer Generierung. Die dargestellten Informationen sind insofern Phänomene im Bogen-Woodward’schen Rahmen und keine Daten, für deren Verständnis man wissen muss, wie die Datenerzeugung konkret stattgefunden hat.

Die Ausweitung des datenjournalistischen Konzeptes auf wissenschaftliche Daten ist demgegenüber offensichtlich schwieriger, da hier wie beschrieben die Unterscheidung zwischen Phänomenen und Daten aufgrund der größeren Komplexität angewandter Methoden zentral wichtig ist. Wenn diese Unterscheidung nicht gemacht wird, kann es schnell zu Verwirrungen kommen. Eine solche Verwirrung kann man beispielsweise im Titel des Datenblogs des Guardians erahnen: „Data Blog – Facts are sacred“. Die heiligen Fakten finden sich in der Wissenschaft aber typischerweise nicht als Daten, sondern erst, sobald aus diesen Daten die stabilen, reproduzierbaren Phänomene abgeleitet werden. Dass dies keine reine linguistische Haarspalterei ist, kann man im genannten Blog beispielsweise in der Darstellung von Meteoriteneinschlägen unter dem Titel: „Every meteorite fall on earth mapped“ sehen. Der Titel bezieht sich auf ein Phänomen: Meteoriteneinschläge auf der Erde. Der Untertitel präzisiert daraufhin: „Or at least those we know about“, spricht damit also über Daten, die eben nicht nur dadurch bestimmt sind, wo Meteoriten eingeschlagen sind, sondern auch dadurch, wie diese Einschläge festgehalten wurden.

Tatsächlich dominiert diese Uneindeutigkeit die abgegebenen Leserkommentare. Immer wieder wird erstaunt festgestellt, dass Meteorite offensichtlich Wasser und dünn-besiedelte Gebiete meiden: „it’s amazing that no meteors have fallen into the sea.“ („es ist erstaunlich, dass keine Meteore ins Meer gefallen sind.“) „I think this map is somewhat puzzling. Presumably where the meteorite fall is completely random, but the map doesn’t show it to be random.“ („Ich finde diese Karte etwas verwirrend. Vermutlich ist es völlig zufällig, wohin Meteoriten fallen, aber die Karte zeigt, dass es nicht zufällig ist.“) Viele Leser erwarten offenbar eine Darstellung des Phänomens (Meteoriteneinschläge), bekommen stattdessen aber etwas anderes, wie schließlich ein Leser treffend diagnostiziert: „this is a map of the density of scientific observation.“ Daten machen eben nur im Kontext ihrer Generierung Sinn.

© Quelle: Mirko Lorenz / CC BY-SA 3.0 Datenjournalismus: nehme Rohdaten, suche nach Mustern, visualisiere und erzähle eine Geschichte.

Das Beispiel der Meteoritenbeobachtungen ist natürlich eines, bei dem sich Missverständnisse bereits auf der Grundlage des gesunden Menschenverstandes klären lassen sollten, da es noch nicht einmal aus einer wirklichen experimentellen Praxis heraus stammt (anders gesagt: das zum Verständnis der Daten notwendig geteilte Hintergrundwissen bewegt sich auf einem niedrigen Niveau). Dass sich trotzdem schon hier Verständnisprobleme ergeben, zeigt, wie wichtig eben doch eine wissenschaftliche Interpretation von Daten ist, die damit einher geht, dass der Öffentlichkeit Phänomene statt Daten präsentiert werden, so dass sich die Leser nicht spekulativ den Kopf über Methoden und Kontexte der Datengenerierung zerbrechen müssen, sofern diese Methoden und Kontexte nicht explizit thematisiert werden. Wissenschaftliche Daten sprechen im Normalfall nicht für sich selbst. Das Ziel von Wissenschaft ist nicht, Daten zu generieren, sondern Daten zu generieren, zu bearbeiten und zu interpretieren. Das Endprodukt dieser kombinierten Aktivität ist das, was man gemeinhin als wissenschaftliche Fakten bezeichnet.

Sofern man die Leser trotzdem mit wissenschaftlichen Daten im engen Sinne konfrontiert, muss ihnen deren Entstehungskontext zugänglich gemacht werden, damit sie aus den Daten etwas lernen können. Auch journalistisch aufbereitete Daten erfordern daher eine ausreichende Dokumentation, die darüber Aufschluss gibt, welche Fragestellungen zur Aufnahme der Daten geführt haben, welche Annahmen und wie viel Datenbearbeitung in die dargestellten Daten bereits eingegangen sind, beispielsweise indem die entsprechende wissenschaftliche Veröffentlichung verlinkt wird. Sobald dies nicht passiert und der Mythos verbreitet wird, die reinen, nackten Daten seien das was wahr und heilig ist, verkehrt sich der erkenntnistheoretische Wert wissenschaftlicher Daten in sein Gegenteil, egal wie hübsch visuell sie dargestellt sein mögen.


16 Lesermeinungen

  1. Daten...
    Daten sind nur meistens Müll!

    Die Gebrüder Wright, etc. haben selbst Daten erzeugt, anhand von lebensgefährlichen Flug-Versuchen, wie bei Otto Lilenthal, wo waren da die theoretischen Physiker denn eigentlich?!
    Ja klar, Fliegen, so profan, unbedeutend für die theoretischen Physiker…
    Das Meiste heute, was wir benutzen; Waschmaschine, Spülautomat, Kaffemaschine, Auto, Flugzeug, Straßenbahn, etc. wurde von Tüftlern, Technikern, Ingenieuren erfunden und ganz bestimmt nicht von theoretischen PhisikerInnen, die nicht mal Kaffee kochen können…

  2. DATENBANKEN
    Die Erdgeschichte wird neu geschrieben. Seit 1976 kennen wir nun das System GSSP.
    Die beste Datenbank dieser Welt treten wir mit den Füssen. Wir stehen auf ihr, ohne es zu wissen. Es ist Ihnen möglich via Google, Google Bilder, Google Earth, You Tube, iTunes U uam. auf Entdeckungsreisen zu gehen. Falls Sie über das Rüstzeug der Aussagenlogik verfügen und im Englisch sich auskennen, liegt Ihnen ein grosser Teil dieser Erde auf dem Bildschirm zum Studieren und Untersuchen bereit. Die Datenbanken im Internet sind verlinkt und das Lernen ist sehr effizient. Wenn Sie aber wirklich Forschen wollen, dann müssen Sie sich via Uni den Zugang dazu beschaffen, damit Sie Feldarbeit leisten können. Schauen Sie bei David Attenborough vorbei, und entdecken Sie mit ihm die Schönheit unserer Erde.
    Ich kann mir nicht vorstellen, dass Jugendliche unentschlossen sein können. Ich weiss nur dass viele, sehr viele schlicht faul sind. Was mich beflügelt ist: Ich kann Begeisterung weitergeben. Crigs

Kommentare sind deaktiviert.