Wissen

Testing und Auditing von KI-Anwendungen: Potenziale ausschöpfen, Risiken reduzieren

Künstliche Intelligenz hält Einzug in immer mehr Anwendungsbereiche der Arbeitswelt. Sie unterstützt Beschäftigte zum Beispiel bei aufwendigen oder gefährlichen Tätigkeiten und entlastet sie durch die Automatisierung monotoner und ermüdender Arbeitsprozesse. Damit birgt KI das Potenzial, die Arbeit vieler Menschen maßgeblich zu verbessern. Doch mit dem Einsatz von KI-Systemen bieten sich nicht nur Möglichkeiten einer Steigerung der Arbeitsqualität, mit ihrer Verbreitung sind gleichzeitig auch Risiken, wie Gefährdungs- und Diskriminierungspotenziale verbunden – und diese Risiken stellen eine zentrale Hürde für die volle Ausschöpfung der positiven Effekte von KI dar.

Wie andere technische Systeme auch, müssen KI-Anwendungen im Hinblick auf ihre Funktionalität und ihre Sicherheit getestet und bewertet und etwaige Risiken mit geeigneten Maßnahmen adressiert werden. Dies gilt insbesondere dann, wenn sie in kritischen Kontexten zum Einsatz kommen sollen. Allerdings weisen KI-Anwendungen einige besondere Merkmale wie eine hohe Komplexität oder eine Intransparenz ihrer Wirkungszusammenhänge und Entscheidungsprozesse auf, aus denen sich die Frage ergibt, wie wirkungsvolle Test-, Audit- und Zertifizierungsverfahren speziell für KI-Systeme in technischer, organisatorischer und rechtlicher Hinsicht ausgestaltet sein müssen. An diesem Punkt setzte das interdisziplinäre Forschungsprojekt „ExamAI – KI Testing und Auditing“ an.

Potenziale und Risiken in der Produktionsautomatisierung und im Personal- und Talentmanagement

Um die Frage möglichst anwendungsbezogen und für verschiedene Risikoarten zu beantworten, wertete das Team aus (Sozio-)Informatiker*innen, Softwareingenieur*innen sowie Rechts- und Politikwissenschaftler*innen zunächst elf naheliegende Use Cases in den Bereichen Produktionsautomatisierung sowie Personal- und Talentmanagement im Hinblick auf die Möglichkeiten und Grenzen des KI-Einsatzes aus: Im Bereich der Produktionsautomatisierung bietet KI besonders großes Potenzial in ihrer Anwendung in fahrerlosen Transportsystemen sowie autonomen und kollaborativen mobilen Robotern. Im Personal- und Talentmanagement kann KI beispielsweise genutzt werden, um automatisierte Vorschläge und Matchings auf Personalplattformen und in Jobbörsen zu erstellen, Persönlichkeitsbewertungen und Backgroundchecks vorzunehmen oder sogar die Kündigungsbereitschaft von Beschäftigten vorherzusagen.

Beide Bereiche unterscheiden sich in Bezug auf die mit dem KI-Einsatz verbunden Kritikalität grundsätzlich: Während in der Produktionsautomatisierung die Sicherheit („Safety“) der Anwender*innen und die Vermeidung von Sachschäden die zentralen Bedingungen für die Nutzung von KI darstellen, steht beim Talent- und Personalmanagement die „Fairness“ der durch KI vorbereiteten oder sogar getroffenen Entscheidungen im Vordergrund, die beispielsweise Aspekte wie Diskriminierungsfreiheit, Datenschutz und Nachvollziehbarkeit für die Betroffenen umfasst.

Unklar ist, woraufhin KI getestet werden soll

Derzeit stehen für beide Bereiche jedoch keine sinnvollen Möglichkeiten zur Kontrolle und Zertifizierung zur Verfügung. Das liegt allerdings nicht etwa daran, dass Instrumente fehlen würden, mit denen diese Systeme getestet werden können, denn für die Analyse von Black Boxes gibt es mittlerweile durchaus ausreichend effektive Verfahren. Auch entsprechende Auditing-Verfahren sind bereits oder werden zukünftig durch die KI-Verordnung gesetzlich geregelt. Das von den Wissenschaftler*innen identifizierte maßgebliche Problem liegt vielmehr darin, dass bislang entsprechende Vorgaben fehlen, die angeben würden, welche Kriterien erfüllt sein müssen bzw. welche Maßnahmen ausreichend sind, damit KI-Systeme als sicher und fair gelten. Im Bereich der Produktionsautomatisierung existieren zwar Normen, die das Thema Sicherheit von technischen Systemen regeln. Diese Normen lassen sich aber in ihrer aktuellen Form nicht auf KI-Systeme anwenden. Für das Thema Fairness fehlen nicht nur entsprechende Normen, sondern schon eine ausreichend verbindliche Definition. Dadurch kann noch nicht einmal angegeben werden, welche Aspekte konkret adressiert werden müssten.

Daraus ergibt sich mit den im Projekt beschriebenen Szenarien ein erhebliches Haftungsrisiko bei der Anwendung von KI-Systemen, denn Anwendende laufen beim Einsatz der Systeme Gefahr, für mögliche Schadens- oder Diskriminierungsfälle haftbar gemacht zu werden. Dies stellt eine große Hürde bei der Ausschöpfung des Potenzials von Künstlicher Intelligenz dar.

Wie sicher ist sicher genug? Wie fair ist fair genug?

Vor diesem Hintergrund liegt die Herausforderung also darin zu bestimmen, welche Maßnahmen getroffen werden müssen, damit KI-Anwendungen in sicherheitskritischen Umgebungen und im Bereich des Personal- und Talentmanagements genutzt werden können. Oder anders formuliert: Wie sicher ist sicher genug? Wie fair ist fair genug?

Einen vielversprechenden Lösungsansatz stellen hier sogenannte "Assurance Cases" dar. Dabei handelt es sich um Verfahren, die im Bereich herkömmlicher sicherheitskritischer (Safety) Anwendungen bereits etabliert sind und mit deren Hilfe in Bezug auf eine Zielstellung und basierend auf Fakten nachvollziehbar argumentiert wird, dass sich bestimmte Maßnahmen dazu eignen, eine ausreichende Sicherheit von KI-Systemen zu gewährleisten. Über die Kontrolle einzelner Systeme hinaus hätten Assurance Cases zudem den Vorteil, dass im Laufe der Zeit Argumente, die sich in verschiedenen Fällen als sinnvoll erwiesen haben, generalisiert und in eine Norm überführt werden könnten.

Im Personal- und Talentmanagement müssen Lösungen allerdings bereits bei der näheren Bestimmung und Operationalisierung des Begriffs Fairness ansetzen. Denn erst wenn ein Konsens darüber besteht, wie Fairness bestimmt und gemessen werden soll, kann über Maßnahmen und Tests entschieden werden, die im Hinblick auf die Kritikalität konkreter Anwendungen notwendig und sinnvoll sind. Hier bietet die Kombination von Assurance Cases mit akzeptanztestgetriebener Entwicklung (Acceptance Test Driven Development – ATDD) eine vielversprechende Option. Bei der akzeptanztestgetriebenen Entwicklung werden die bestehenden Erwartungen auf der Seite der Kund*innen bzw. Anwender*innen bezüglich der Funktionalität von Anwendungen durch geeignete Kommunikations- und Abstimmungsmaßnahmen möglichst früh ermittelt und sehr klar definiert. Für KI-Anwendungen in fairnesskritischen Bereichen kann so unter Berücksichtigung der verschiedenen Perspektiven von Anwender*innen, KI-Expert*innen, Ethiker*innen, Rechtswissenschaftler*innen und anderen Stakeholdern die Bedeutung des Begriffs Fairness anwendungsfallspezifisch geschärft werden. Zudem lässt sich auf diese Weise auch ein Konsens darüber erzielen, welche Maßnahmen genügen, damit KI-Anwendungen als fair genug bewertet werden können, und welche Testverfahren dementsprechend jeweils relevant sind.

Aktivitäten unterstützen, Forschung fördern und Zusammenarbeit stärken

In Workshops mit Herstellern, Zulieferern, Gewerkschaftsvertreter*innen und Versicherern (DGUV) aus den Bereichen Industrieproduktion und Personalmanagement wurden auf Basis der gewonnenen Erkenntnisse konkrete Handlungsempfehlungen formuliert. Nach Auffassung der Expert*innen sollten Assurance Cases angesichts ihrer Zweckmäßigkeit als zentrales Element für das Auditing und die Zertifizierung von KI etabliert werden, bis genügend Erfahrungen für die Entwicklung der notwendigen Normen vorliegen. Damit die entsprechenden Erfahrungen in einem geschützten Rahmen und dennoch praxisnah gesammelt werden können, sollten Experimentierräume (Regulatory Sandboxes) zur Erprobung von KI eingerichtet werden, in denen Anwendungen in Fallstudien im Hinblick auf Sicherheits- oder Fairnessaspekte untersucht werden können.

Solche Experimentierräume sollten darüber hinaus Safety-Expert*innen, Entwickler*innen von Safety-Maßnahmen und Expert*innen der Konformitätsbewertung direkt zusammenbringen sowie die interdisziplinäre Zusammenarbeit und den Austausch zwischen Wissenschaft und Praxis stärken.

Von politischer Seite sollten Aktivitäten, die auf die Einführung von Standards und Normen ausgerichtet sind, genauso gefördert und incentiviert werden, wie die Entwicklung von Methoden und Werkzeugen zur Qualitätssicherung von KI. Dabei ist die Flankierung durch wissenschaftliche Studien und die Mitwirkung von Forschungseinrichtungen und KI-Expert*innen in Standardisierungs- und Normungsgremien sehr wichtig, um bestmögliche Ergebnisse zu erzielen. Um umgekehrt die Forschung zu stärken und voranzutreiben, sollten neben der Förderung von Projekten im Bereich Grundlagenforschung auch Unternehmen zu einer transparenteren Zusammenarbeit, etwa in der Form der Bereitstellung von Forschungsdaten oder der Gewährung von Einblicken in sicherheitskritische Vorgänge, angeregt werden. Schließlich muss die Umsetzbarkeit der anvisierten KI-Verordnung aus technischer und rechtswissenschaftlicher Perspektive untersucht werden, um zu klären, wie die regulatorischen Anforderungen erfüllt und durch technische Normen adressiert werden sollten, um die Wechselwirkung mit bestehenden Gesetzen zu verstehen und mögliche Handlungsbedarfe frühzeitig zu erkennen.

Erforderlich für all das ist auch ein besseres Verständnis der Zusammenhänge, Herausforderungen und Lösungsmöglichkeiten innerhalb der beteiligten politischen Institutionen. Hierfür werden ausreichende Ressourcen, eine umfassende Expertise und nicht zuletzt auch eine entsprechende technische Ausstattung benötigt.

Am Konsortialprojekt „ExamAI – KI Testing und Auditing“ waren die Gesellschaft für Informatik als Projektleitung, das Fraunhofer IESE, die Stiftung Neue Verantwortung, das Algorithm Accountability Lab der TU Kaiserslautern und das Institut für Rechtsinformatik der Universität des Saarlandes beteiligt. Gefördert wurde das Projekt mit einer Laufzeit von März 2020 bis November 2021 im Rahmen des KI-Observatoriums der Denkfabrik Digitale Arbeitsgesellschaft im Bundesministerium für Arbeit und Soziales (BMAS).

Veröffentlicht am 18. Mär 2022 zum Thema: Wissen