Algorithmen sollen Urteile gerechter machen. Sie schaffen aber neue Probleme. Von Jürgen Kaube
Eine berühmte Definition sagt, Gerichtsurteile seien dann richtig, wenn ein anderer Richter sie genauso gefällt hätte. Tatsächlich zeigt die Entscheidungspraxis der Gerichte, dass ständig anders geurteilt wird. Nicht nur werden ähnliche Fälle von verschiedenen Richtern unterschiedlich eingeschätzt. Die strengsten und die am wenigsten strengen Strafrichter in New York unterscheiden sich bei Entscheidungen über die Inhaftierung von Tatverdächtigen um 25 Prozent. Ähnliches gilt für Prognosen, ob ein Gefangener auf Bewährung entlassen werden könne, weil ein Rückfall unwahrscheinlich sei. Sogar dieselben Richter fällen im Zeitablauf unterschiedliche Schuldsprüche bei gleichen Fällen. Um nur den kuriosesten Befund zu zitieren: Eine Studie von Ökonomen aus Louisiana hat gezeigt, dass eine unerwartete Niederlage des dortigen Football-Teams das Strafmaß in jugendstrafrechtlichen Verfahren der folgenden Woche um etwa 6 Prozent erhöht.
Verhaltensökonomen nennen diese starke Streuung von Entscheidungen “noise”, auf deutsch Lärm. Sie lässt sich nicht nur bei Richtern, sondern auch bei Ärzten, Lehrern und Managern feststellen. Für dieselben Klausuren gibt es mitunter sehr unterschiedliche Zensuren. In Bewerbungsgesprächen erhalten dieselben Kandidaten ganz unterschiedliche Einschätzungen. Ob ein Patentantrag angenommen wird, hängt nachweislich stark von den jeweiligen Beamten des Patentamts ab.
Die andere große Fehlerquelle von Urteilen, der “bias”, also der systematische Irrtum etwa aufgrund von Vorurteilen, hat in der Forschung bereits viel Beachtung gefunden. “Noise” wurde hingegen bisher vernachlässigt. So schreiben es jedenfalls Daniel Kahneman und Kollegen in ihrem gerade auf Deutsch erschienenen Buch zum Thema. Am Beispiel der Gerichtsurteile lässt sich die Problematik veranschaulichen. Dass Justitia blind dargestellt wird, soll nicht bedeuten, dass sie nie ins Ziel trifft. Dass Richter Fälle individuell einschätzen sollen, kann nicht heißen, dass eine Straftat bestimmten Typs mal zu drei, mal zu zehn Jahren Haft führt. In einer berühmten Fallsammlung hat der amerikanische Richter Marvin E. Frankel schon in den Siebzigerjahren unter dem Titel “Recht ohne Ordnung” Beispiele dafür gegeben, dass man für Scheckfälschung in einer Schadenshöhe um 40 Dollar in den Vereinigten Staaten mit fünfzehn Jahren oder mit dreißig Tagen Gefängnis bestraft werden konnte.
Kahnemann und seine Kollegen verwenden ein Kapitel ihres Buches auf die Frage, wie die Qualität professionellen Entscheidens verbessert werden kann. Zwei Chicagoer Ökonomen haben gerade eine solche Möglichkeit geprüft: den Einsatz von Algorithmen, künstlicher Intelligenz also. In Datenbanken werden Entscheidungen und ihre Folgen gesammelt, etwa Bewährungsprognosen und ihre Ergebnisse, aus deren großer Zahl dann eine Vorhersage für den vorliegenden Fall abgeleitet wird. “Wenn X gegeben ist, wird (mit einer angebbaren Wahrscheinlichkeit) Y folgen.” X ist dann eine von den Experten festgelegte Datenmenge, die demographische Faktoren wie Alter und Geschlecht beinhalten kann, den Straftatbestand, die eigene kriminelle Biographie oder die der Eltern, die Eingebundenheit in eine Gemeinde, den Besitz eines Arbeitsplatzes und so weiter.
Die Ergebnisse des Einsatzes solcher Techniken sind allerdings bescheiden. Sie prognostizierten beispielsweise für Schwarze fälschlich eine höhere Rückfallrate als für Weiße. Das fiel besonders auf, wenn es sich um dasselbe Delikt handelte und das nachfolgende Verhalten genau umgekehrt war – die schwarzen Jugendlichen also kein illegales Verhalten mehr zeigten, der weiße Mann hingegen schon. Statistische Studien zeigten, dass der Algorithmus bei sonst gleichen Eigenschaften Schwarzen um 77 Prozent häufiger ein Rückfallrisiko attestierte als Weißen.
Dass auch die künstliche Intelligenz weder neutral noch zutreffend urteilt, liege daran, dass sie nicht intelligent genug sei, glauben die Chicagoer Ökonomen. In das Strafmaß gehen Aspekte wie die eingeschätzte Reue, persönliche Tatumstände, die Art, wie die Tat begangen wurde und die Strafempfindlichkeit der Täter ein. In die richterlichen Entscheidungen, die in den Datenbanken gesammelt werden, um daraus Regeln abzuleiten, sind insofern Informationen eingegangen, die in der Datenbank nicht repräsentiert werden. Außerdem kann der Algorithmus keine Aussagen darüber treffen, was bei anderen Urteilen in der Vergangenheit geschehen wäre. Werden Tatverdächtige in Untersuchungshaft gesteckt, können sie dort nur sehr eingeschränkt weitere Verbrechen begehen. Insofern wissen weder wir noch der Algorithmus, was geschehen wäre, hätte man sie einstweilen auf freien Fuß gesetzt.
Neben solchen Informationsproblemen und fehlenden Gegenproben gibt es noch eine weitere Schwierigkeit bei der Anwendung künstlicher Intelligenz in Gerichtsentscheidungen. Der Algorithmus selbst entscheidet nicht, das müssen nach wie vor Richter tun. Folgen sie nicht immer den Vorschlägen der Maschine, heißt es, verschlechtert sich deren Erfolgsbilanz. Doch die Ökonomen warnen davor, dem Algorithmus blind zu folgen. Denn wenn die Richter zusätzliche Informationen haben, die dem Computer fehlen, kann das zu besseren Urteilen führen. Manchmal verschlechtert sich aber auch die Entscheidungsfindung, weil etwa die falschen Schlüsse aus den wertvollen Informationen gezogen werden. Über die Interpretation abweichender Schlüsse zwischen Computer und Mensch muss also wieder entscheiden werden, und dafür kommen am Ende nur die Richter in Betracht. Kürzer gesagt: Urteile sind nicht vollständig technologisierbar, so lange der Algorithmus nicht alle denkbaren Informationen besitzt.
Aus diesem Befund ziehen die Autoren den Schluss, dass komplexere Algorithmen, etwa solche, die zusammen mit Richtern konstruiert würden, erforderlich wären, um das Entscheidungsverhalten zu verbessern. Daniel Kahneman und seine Mitautoren setzen hingegen weniger auf Verbesserungen der Maschine als auf reflektierteres Entscheiden. Die Richter in Louisiana, denen der Zusammenhang ihrer Urteile mit den Ergebnissen des Football-Teams vor Augen stünde, hätten eine Chance, sich emotional stärker zu distanzieren und dadurch auch mehr Respekt zu gewinnen. Sowohl “noise” als auch “bias” offen zu thematisieren wäre also ein erster Schritt beim Versuch, beides zu bekämpfen.
Literatur:
Literatur:
Ozkan Eren, Naci Mokan: “Emotional Judges and Unlucky Juveniles”, American Economic Journal: Applied Economics 10, 2018.
Daniel Kahneman et.al.: Noise. Was unsere Entscheidungen verzerrt – und wie wir sie verbessern können, Berlin 2021.
Jens Ludwig, Sendhil Mullainathan: “Fragile Algorithms and Fallible Decision-Makers: Lessons from the Justice System”, Journal of Economic Perspectives 35, 2021.