Deus ex Machina

Deus ex Machina

Über Gott und die WWWelt

Von Big Data zu Big Brother?

Bei Twitter, Facebook und anderen Internet-Diensten fallen gigantische Datenmengen an. Die systematische Beschäftigung mit diesem Nebenprodukt könnte einige Forschungsbereiche revolutionieren.

Ob die Zahl wirklich stimmt, wird sich kaum überprüfen lassen, aber auf alle Fälle klingt es ziemlich gigantastisch, wieviel Datenvolumen die Menschheit Tag für Tag erzeugt: Schätzungen von IBM zufolge fallen täglich 2,5 Trillionen (also 2.500.000.000.000.000.000) Bytes an. Darin sind die Messdaten einer abgelegenen Wetterstation ebenso enthalten wie die vielen Katzenbilder, die irgendwo im Netz hochgeladen werden oder die Zilliarden an abgesetzten Twitter-Meldungen rund um den Globus. Und natürlich liefert diese Überfülle an Daten einen wertvollen Rohstoff für weitergehende Analysen und Auswertungen. Der Sozialforscher und Social-Media-Experte Benedikt Köhler sieht Big Data – also den Umgang mit sehr großen Datenmengen – in den kommenden Jahren ganz oben auf der Agenda der Markt- und Sozialforschung.

Die Euphorie ist verständlich. Denn obwohl das Datenvolumen enorm gewachsen ist, hat sich die Erhebung und Verarbeitung dieser Datenmengen im Vergleich zu früher enorm vereinfacht: „Heute kann ein Student mit Hilfe von Amazon-Cloudcomputing die APIs von Social Networks wie Facebook, Twitter, Foursquare etc. anzapfen, und binnen weniger Tage liegen in seiner Datenbank mehr Sozial- und Verhaltensdaten als die gesamte Markt- und Sozialforschung während der 50er und 60er Jahren erhoben hat”, schreibt Köhler in seinem Blog „Viralmythen”. Das eigentlich Neue bei Big Data ist aber nicht allein das Volumen oder die schiere Größe – hinzu kommt die enorme Geschwindigkeit, denn diese riesigen Datenmengen fallen auch noch recht schnell an, häufig sogar in Echtzeit. Und der dritte markante Punkt ist die Unordnung beziehungsweise Unstrukturiertheit, in der diese Datenmengen oft anfallen. Der klassische sozioempirische Dreiklang aus Datenerhebung, Datenbereinigung und Auswertung lässt sich daher nicht mehr spielen wie gewohnt, Big Data erfordert andere Ansätze, Fertigkeiten und Werkzeuge als bisher.

Bild zu: Von Big Data zu Big Brother?

Die großen Datenmengen versprechen aber nicht nur neue Erkenntnisse, sondern auch ganz realen Mehrwert. Entsprechend ruft Big Data auch neue Geschäftsmodelle und Dienstleistungen auf den Plan. Ein wenig erinnern die Schlagworte und Versprechungen an die späten neunziger Jahre, als die IT-Branche noch Lösungen für sogenanntes Data Warehousing und Analyseprogramme für Data Mining anpries. Im Einzelhandel versprach der Einsatz von Scannerkassen und entsprechenden Analysetools in den Warenwirtschaftssystemen völlig neue Einsichten in das Kaufverhalten der Kunden. Per Warenkorb- und Bondatenanalyse kam die US-Handelskette Walmart angeblich dahinter, dass Freitag abends oft Windeln zusammen mit Bier-Sechserpacks gekauft wurden, und mit entsprechender Neugruppierung dieser Warengruppen in den Filialen soll der Handelsriese den kombinierten Absatz von Bier und Windeln nochmals signifikant gesteigert haben. Zwar ist dieses bekannte Beispiel längst als urbaner Mythos entlarvt, aber der Überzeugung, dass in den ohnehin anfallenden Daten ungehobene Schätze an businessrelevanten Informationen schlummern, tut dies bis heute keinen Abbruch.

Damals wie heute liegt die Haupt-Triebfeder der Erkenntnis nicht unbedingt darin, zu erfahren, wie das Publikum tickt – sondern eher darin, datengestützt die Treffgenauigkeit und Wirksamkeit von konsumstimulierenden Impulsen zu steigern und gleichzeitig werbliche Fehlstreuungen zu vermeiden. Der Online-Händler Amazon hat Anfang Dezember ein Patent eingereicht, wie Nutzer anhand ihres Mobiltelefons getrackt werden können und aus den individuellen Bewegungsdaten Prognosen abgeleitet werden, welche Kaufhäuser und Läden der Nutzer in naher Zukunft besuchen wird. Entsprechend können diese Läden den Nutzer dann mit speziellen Werbebotschaften ansprechen oder ihn mit Gutscheinen locken.

Bild zu: Von Big Data zu Big Brother?

Und das ist noch eine der harmloseren Implikationen der Big-Data-Thematik. Mit stetig sinkenden Speicherkosten für personenbezogene Daten jedweder Art wachsen auch die Begehrlichkeiten und Möglichkeiten der Überwachung. Von Big Data zu Big Brother ist es womöglich nur ein kurzer Weg, warnt Professor John Villaseno von der University of California Los Angeles (UCLA): „Mit den umfangreichen Datensammlungen kann man heutzutage eine Überwachungs-Zeitmaschine bauen.” Wenn Behörden eines autoritären Regimes einen Demonstranten oder Regimegegner festnähmen, könnten sie weit rückwirkend Telefongespräche und Verbindungsdaten sowie Bewegungsprofile und Sozialkontakte dieser Person rekonstruieren. „Das alles verändert nachhaltig die Dynamik von Protesten, Aufständen und Revolutionen”, schreibt Professor Villaseno in seinem Report „Reporting Everything: Digital Storage as an Enabler of Authoritaritan Government”. Damit ist aber auch klar: Die Analysewerkzeuge sind nicht per se bösartig. Die Technologie dahinter kann man ebenso zur besseren Kundensegmentierung im mobilen E-Commerce nutzen wie zur Erkennung und Überwachung von potenziellen Regimekritikern. Es ist die konkrete Anwendung, die den Unterschied macht.

Die Privatwirtschaft betrachtet Big Data überwiegend als Chance: etwa zur Absatzsteigerung und Vermeidung von Streuverlusten in der Werbung, aber auch zur Angebotsoptimierung in der Versicherungsbranche und zeitnäherer Beobachtung von Marktschwankungen in der Finanzwirtschaft. Aber die schiere Größe des Datenvolumens ist auch kein Wert an sich, sagt Danah Boyd, Marktforscherin in Diensten von Microsoft in Redmond. Zumindest keiner, der die gelernten Methoden der Sozioempirie völlig obsolet macht. So reizvoll und aufschlussreich es zum Beispiel ist, Twitter-Nachrichten zu analysieren, muss sich der Forscher vor Augen halten, dass Twitter-Nutzer nicht repräsentativ sind für die Gesamtbevölkerung und dass über die Gesamtheit der Twitterati auch nur vage Aussagen möglich sind. Hinter manchem Account stehen mehrere Personen, und bisweilen pflegen Einzelpersonen auch mehrere Accounts. Noch mehr Vorsicht ist geboten beim Zusammenführen von Daten aus mehren Quellen: Jede Quelle hat ihre spezifischen Fehlerquellen, und in der Kombination können sich die Fehlerquoten multiplizieren. Das Hauptaugenmerkt sollte also nicht auf der Größe der Stichprobe liegen, sondern auf ihrer Qualität, mahnt die Microsoft-Marktforscherin: „Die Big-Data-Ära hat gerade erst begonnen, aber es ist unerlässlich, dass wir die Grundannahmen, Werte und blinden Flecken dieses Forschungsansatzes kritisch hinterfragen.”