KI-Systeme bestehen aus einer Vielzahl an Daten. Inwieweit kann man diese überhaupt messen, um verlässliche Qualitätsstandards zu entwickeln? Welche Daten müssen Sie sammeln?
Schwabe: Wir werden uns für verschiedene Klassen von Daten konkrete Referenzbeispiele ansehen. Zunächst werden wir untersuchen, welche Aspekte von Daten zum Beispiel mit einfachen statistischen Methoden untersuchbar sind. Dies reicht vom einfachen Vorhandensein oder Nichtvorhandensein von Datenpunkten, über das Untersuchen von Verteilungsfunktionen, hin zu beispielsweise der Analyse der Klassenbalance.
Wir wollen prüfen, wie zum Beispiel Krankheitsklassen verteilt sind im Datensatz. Wie geht eine KI damit um, wenn es Seltene Erkrankungen oder "Fälle" gibt? Wie verlässlich arbeitet eine KI auf einem Datensatz, in dem möglicherweise Krankheitsklassen unterrepräsentiert werden? Müssen wir dort eventuell gewisse Mindestanforderungen einführen? Also eine Untergrenze für eine Anzahl an Datenpunkten, die vorhanden sein muss, damit eine Krankheit auch wirklich robust von einer KI erkannt werden kann?
Wie würde eine KI aussehen, die den Zulassungsprozessen nicht genügt?
Schwabe: Es gibt viele Möglichkeiten, etwas falsch zu machen. Auch bei allgemeinen Aspekten. Wir sprechen hier zum Beispiel über Sicherheitsbedenken oder den Datenschutz. Von Aspekten, die nicht adäquat bei der Entwicklung mitgedacht wurden. Die richtige Wahl von Daten und Werkzeugen für den beabsichtigten Einsatzbereich. Es muss zum Beispiel gezeigt werden, dass die Datenwahl adäquat ist.
Die KI muss dahingehend überprüft werden, warum sie ihre Entscheidungen so trifft, wie sie sie trifft. Es gibt in der Forschung berühmte Beispiele, bei denen sich zum Beispiel bei Röntgenaufnahmen herausgestellt hat, dass eine KI an der Art und Weise, wie das Bild eingestellt wurde, schon erkannt hat, ob der Verdacht eines Tumors naheliegt oder nicht. Die KI hat sich somit eine sehr hohe Trefferquote erarbeitet.