Digital Twin

Digital Twin

Das Netzweltblog

Rechnen sie noch, oder denken sie schon?

| 4 Lesermeinungen

Facebook erkennt Gesichter heute so gut wie Menschen es tun. Der Computer dafür arbeitet wie ein menschliches Gehirn. "Big Data" geht in die nächste Etappe.

© Alcon EntertainmentSeite an Seite: Dr. Will Caster (Johnny Depp) lebt nach seinem gewaltsamen biologischen Tod im Computer weiter. Die Maschine wird in „Transcendence“ zum Mitmenschen.

Natürlich lief alles im Verborgenen, aber es war ein Meilenstein des Big-Data-Zeitalters und zugleich eine historische Zäsur. Facebook erstellte Anfang des Jahres für 720 Millionen seiner Nutzer einen einminütigen Film, bestehend aus zuvor geposteten Bildern und Nachrichten. Man hätte es durchaus selbst und zuhause machen können. Wahrscheinlich hätte man mit der Suche nach Bildern eine Stunde zugebracht, anschließend hätte der Computer drei Minuten zum rendern des Films benötigt.

Facebook – ein Unternehmen, das trotz aller Berichte mit handelsüblicher Technologie arbeitet – stand 500 000 Mal so viel Rechenkraft zur Verfügung wie uns Privatleuten. Die Filme wurden in drei Tagen erstellt, anschließend in einem 11 Petabyte großen Datensilo gespeichert und mit 450 Gigabit pro Sekunde ins Internet gesendet. Diese Zahlen entschwinden spätestens dann ins Unvorstellbare, wenn man hinzufügt, dass Facebook all das nebenbei erledigt hat.

Grob gerundet sind die technischen Kapazitäten zur Datenverarbeitung und –speicherung heute grenzenlos. Und doch gibt es noch nicht überwundene Grenzen – sie haben mit Mathematik zu tun. Das, was Facebook mit den Bildern und Nachrichten tat, erschöpfte sich nämlich in schlichten Additionen. Facebook wählte zuerst die Bilder und Texte, die anhand von Likes und Shares die höchste Aufmerksamkeit versprachen, und verwandelte sie in ein neues Dateiformat, den Film.

Die Möglichkeiten einfacher Mathematik sind damit ausgereizt, aber Facebook ist noch nicht am Ende. Laut einer aktuelleren Meldung, tatsächlich eher einer Ankündigung, wird Facebook von nun an mehr darüber reden, wie es gelungen sei, Gesichter automatisiert mit einer Trefferquote auf menschlichem Niveau zu erkennen. Vorab wissen wir, die Gesichtswiedererkennung mit einer Quote von 97,25 Prozent gelang an einem Standard-Bildersatz, den etliche Forscher verwenden, damit die Ergebnisse vergleichbar sind.

© FacebookIn den ersten drei Etappen lässt sich noch erkennen, dass es um Gesichter geht. Der Computer allerdings rechnet mit dem Ergebnis von der achten Etappe – einer bunten Pixelwolke.

Trainiert wurde die Software allerdings anders. Facebook nutzte (neben Youtube-Videos) vor allem Bilder von Facebook-Mitgliedern, von denen es besonders viele – 800 bis 1200 pro Person – hatte, nämlich rund 4 Millionen Bilder von 4000 Menschen („Identities“). Das Entscheidende an der Entwicklung der Algorithmen war allerdings, Methoden der Erkennung zu entwickeln, die von diesem konkreten Datensatz unabhängig funktionieren. Die Software lernte die 4000 Menschen kennen, um die Unterschiede zwischen ihnen zu verstehen, unter der Annahme, dass diese Unterschiede vergleichbar mit den Unterschieden zwischen allen übrigen Menschen sind.

In diesem Zusammenhang begegnet dem Leser solcher Versuche immer wieder das Wort „deep“. Google kaufte ein Unternehmen namens „Deepmind“, Facebook nennt sein Gesichtserkennungsprogramm „Deepface“ und alles ruht auf den Prinzipien von „deep learning“. Eine instruktive Grenzziehung lässt dieses vor allem experimentelle Forschungsfeld nicht zu. Eine der guten Erklärungen ist allerdings recht einfach: Wie das menschliche Gehirn unterscheiden die Computer nicht mehr zwischen gespeicherten Gedächtnisinhalten und operativen Gedanken, sondern arbeitet ständig mit allem.

Kein Datum steht für sich, keines wird von vornherein einem anderen gegenüber bevorzugt. Alles muss gleich wichtig sein und immer präsent. Dasselbe, was Facebook mit seinem Bilderschatz (liebevoll „Social Face Classification (SFC) Dataset“ genannt) macht, betreibt Google mit Youtube-Videos. Die Computer sollen sich einfach so viele Bilder und Videos wie möglich anschauen und selbst versuchen zu verstehen und zu werten, was sie sehen. Vorbildhaft dafür sind die Gehirne von Babys, die Schritt für Schritt die Welt kennenlernen, nicht über Verhaltens-Befehle von außen, sondern über ihre Erfahrung von Resonanz, in der sie sich mit ihrer Umwelt befinden.

© FacebookIn 0,33 Sekunden hat der Computer aus jedem Bild ein perspektivenunabhängiges 3D-Modell errechnet. 67 Datenpunkte machen es individuell.

„Deep-Learning“ ist am ehesten zu übersetzen mit „Erfahrung sammeln“. Der Einzug dieser Prämisse in die Computerwissenschaft ist interessant, weil er der initialen Idee von „Big-Data“-Analysen radikal widerspricht: Es geht nicht mehr um Akteure, sondern um Rationalitäten, die in Systemen selbst stecken und entstehen. Diese Eigenlogiken lassen sich vielleicht noch aus dem Zusammenhang tatsächlichen Verhaltens Einzelner erklären, auf sie reduzierbar sind sie allerdings nicht. Das Individuum spielt eine gar nicht so große Rolle und ist darüber hinaus sehr wohl teilbar.

Facebook muss die Milliarden von Datenpunkten nicht zu einzelnen Gesichtern zusammensetzen, um Korrelationen zu erkennen. Die Software erkennt Muster, die dem Nutzer als Gesicht präsentiert werden. Ebenso wenig interessiert sich Amazon für die Kunden als Personen, die Ähnliches wie wir kauften. Amazon sieht nur einen Datenstrom, der Muster aus Ähnlichkeiten ausweist. Bei dem, was man über Google schon vor Jahren las, braucht das Unternehmen Menschen offenbar nur noch, um die Ergebnisse eigenständiger maschineller Gehirnleistungen noch einmal abzugleichen.

Es ist wenig verwunderlich, dass die NSA, die als größter Arbeitgeber für Mathematiker gilt, inzwischen stets ihre Linguisten zuerst nennt, wenn sie ihre Mitarbeiter rühmt. Die Rational-Choice-Prämissen, die einer auf Mathematik gestützten Sozialforschung so nahe schienen, haben sich einmal mehr als unzureichend erwiesen. Mit ihnen lassen sich keine sozialen Wirklichkeiten beschreiben (sondern allenfalls normativ erzwingen). Nicht einmal moderne Computer sind noch eindeutig programmierbare, in diesem Sinne rational handelnde, Trivialmaschinen. Man muss ihnen längst keine Syntax mehr vorgeben, sie suchen sich ihre Semantik selbst – die unserer Wort- und Bildersprache erstaunlich nahe kommt.


4 Lesermeinungen

  1. SGruner2 sagt:

    "Man muss ihnen längst keine Syntax mehr vorgeben, sie suchen sich ihre Semantik selbst"
    Betr.: „Man muss ihnen längst keine Syntax mehr vorgeben, sie suchen sich ihre Semantik selbst“.

    Ich muss gestehen dass ich den oben zitierten Satz nicht verstanden habe. (Allerdings bin ich lediglich Informatiker, kein Journalist.)

    • Stefan Schulz sagt:

      Syntax / Semantik
      Programmcode (Syntax) besteht aus einer Abfolge von Regeln, die weder Unschärfen noch dritte Werte zulassen, im Gegensatz zu beispielsweise menschlicher Sprache (Semantik), die auch dann Anschluss, beziehungsweise Fortführung zulässt, wenn Vorgaben nicht eindeutig sind. Konflikte sind erlaubt. Statt lediglich Selektion besteht dadurch die Möglichkeit der Variation. Dieses Prinzip selbstorganisierter Evolution versucht man den Maschinen beizubringen.

  2. dummer-junge sagt:

    Nicht nur Fakebook macht diese Gesichtserkennung
    Macht mal von Filmen oder von TV Sendungen Bilder und stellt diese Schauspieler online. Ein paar Monate später bekommt Ihr Freundschaftsvorschlaege zu diesen Personen.
    Fakebook Nein Danke es geht auch ohne diesen Mist (in meinen Augen)

  3. turnops sagt:

    Sehr schön!
    Eindlich einmal jemand bei der FAZ, der sich auf die tatsächlichen Gegebenheiten der Digtalisierung einlässt. Viele andere Artikel in diesem Zusammenhang versuchen, die obsoleten Modelle der Geisteswissenschaften (insbesonders das ach so heilige, unberechenbare Individuum) gegenüber der aktuellen Entwicklung in Stellung zu bringen – mit geringem Erkenntnisgewinn…

    Demgegenüber ist dieser Artikel eine echte Erleuchtung.

Kommentare sind deaktiviert.