Wenn KI
das Sagen hat

INTERVIEW Tami Kelling

Die Informatikprofessorin Katharina Zweig spürt Dutzenden Fällen maschineller Fehlentscheidungen nach. Im Interview erklärt sie, in welchen Bereichen KI ihrer Meinung nach (noch) nichts zu suchen hat.

Frau Zweig, was hat Sie als Informatikerin dazu bewegt, sich mit ethischen Fragestellungen zu beschäftigen?

Katharina Zweig  Ich habe viele Jahre Algorithmen für die Analyse von großen Netzwerkdaten ent­wickelt. Dabei hat mich eine Sache nie losge­lassen: Für manche Probleme, zum ­Beispiel die Bestimmung der „zentralsten“ Knoten in einem Netzwerk, gibt es Dutzende von Algorithmen. Doch welcher ist der richtige, insbesondere wenn mit der Berechnung eine Entscheidungsgrundlage für wichtige, gesellschaftliche Fragen gelegt werden soll? Noch relevanter wurden solche Überlegungen mit dem Erstarken des maschinellen Lernens: Darf eine KI zum Beispiel darüber entscheiden, welche Jobbewerber*innen eingeladen werden? Dabei geht es nicht nur um Ethik, sondern oft auch um rechtliche Aspekte. Ich spreche daher von „Data Science Literacy“. Das meint die Evaluation, ob eine Art von Code geeignet ist, um aus Daten Fakten abzuleiten, die als Grundlage für Entscheidungen dienen können.

In Ihrem neuen Buch „Die KI war’s“ entschlüsseln Sie anhand von Beispielen die Blackbox maschineller Entscheidungen. Wieso?

Ich will Menschen dabei helfen, besser zu erkennen, was heutige KI gut kann. Und ehrlich gesagt ist das, wie die Beispiele zeigen, nicht gerade die Beurteilung von Menschen.

Entity Recognition Problem

Dieser Begriff drück aus, dass eine automatische Identifikation fehlerhaft ist. Das ist zum Beispiel der Fall, wenn die Daten mehrerer Personen als die einer Person klassifiziert werden oder andersherum, Informationen einer Person in verschiedenen Datenbanken nicht zusammengeführt werden.

Dennoch wird KI bereits eingesetzt, um Scores oder Risikobewertungen über uns zu erstellen.

Allerdings. Wenn ein Mensch von einer Bilderkennungssoftware nicht erkannt wird oder wenn eine Mieterin eine Wohnung nicht bekommt, weil das sogenannte Entity Recognition Problem nicht gut gelöst wurde und sie mit fünf verschiedenen kriminellen Personen verwechselt wird, dann erzeugt das eine große Ohnmacht. Es wächst die Angst, von Maschinen beurteilt oder verurteilt zu werden, ohne sich wehren zu können. Am stärksten beschäftigt hat mich deshalb nicht ein einziger Fall, sondern die Frage, wie wir das Durcheinander von unterschiedlichsten KI-Systemen und deren Fehlurteilen am besten strukturieren können, um Lösungen zu finden.

Sie zeigen, dass nicht „die KI“ Fehler macht, sondern Menschen, die in der „langen Kette der Verantwortlichkeiten“ operieren. Was wäre eine gute Praxis, um Fehlentscheidungen zu minimieren?

Bei der Entwicklung von KI-Systemen gibt es eine Reihe von Prozessen, die Fehler beinhalten können: die Datenauswahl, die Methodenauswahl, die Festsetzung von Qualitäts- oder sogenannten Fairnessmaßen. Auch beim Einsatz gibt es vieles zu beachten: Wurden die Anwender*innen gut geschult und wissen sie, wie die Ergebnisse zu interpretieren sind? Haben sie die Möglichkeit, sich für eine alternative Entscheidung einzusetzen?

Apropos Lösungen und Verantwortung: Gibt es Bereiche, in denen wir lieber auf KI verzichten sollten?

Ich sehe aus technischen, aber auch aus gesellschaftlichen Gründen momentan keine Möglichkeit, KI-Systeme für Werturteile einzusetzen. Insgesamt diskutieren wir in den Medien viel zu viel die Fälle, in denen Maschinen Entscheidungen fällen sollen. Ich würde mir wünschen, dass wir stattdessen darüber reden, wie KI-Systeme ­Menschen unterstützen könnten.

KI-Fails mit Folgen

Fälle maschineller Fehlentscheidungen gibt es wie Sand am Meer. Das Problem: Die ­Nachweisbarkeit ist ­hochkomplex und die Verantwortlichkeit kaum feststellbar.

Wer darf über mehr Kredit verfügen?

Zwei Ehepartner mit gleicher Kreditwürdigkeit beantragen eine Apple Pay Card. Doch für die Ehefrau gibt die Software einen niedrigeren Verfügungsrahmen aus. Das Problem: Der Mann wird automatisch zum „Hauptnutzer“ klassifiziert, was seine Kreditwürdigkeit verbessert.

Nach welchem Maßstab wird benotet?

KI ist ziemlich treffsicher in der Vorhersage von Noten für Fremdsprachen-Essays. Wer gut abschneidet, ist aber nicht zwangsläufig gut in Englisch oder argumentativ überzeugend. Berechnet wird lediglich die Benutzung bestimmter Satzkonstruktionen oder die Vielfalt der Vokabeln.

Wer ist der Schuldige?

Nach einem Überfall in Detroit wird mittels Software für Gesichtserkennung nicht etwa der Täter, sondern die dem Bild „ähnlichste“ Person identifiziert. Ein Unschuldiger wird verhaftet –
weil wir Schwierigkeiten haben, Software-Entscheidungen verhältnismäßig einzuordnen.