Daten sind nicht objektiv
ed* Nr. 02/2024 – Kapitel 5
Die wohl größte Herausforderung für die Gewährleistung sicherer KI-Systeme liegt in der Bereitstellung von großen, repräsentativen und für die jeweilige Fragestellung relevanten Datenbasen, mithilfe derer die ihnen zugrunde liegenden KI-Modelle trainiert werden. Die Qualität und Quantität von Daten sind entscheidend für die Leistungsfähigkeit und Genauigkeit der KI-Modelle. Zwar ist allgemein Konsens, dass weder KI-Anwendungen noch die zu ihrem Training eingesetzten Daten diskriminierende Elemente oder Verzerrungen enthalten sollten. Doch in der Realität ist dies oft schwer vermeidbar. Es besteht die Möglichkeit, dass sich eine in der realen Welt vorkommende Ungleichbehandlung in den Datensätzen widerspiegelt, ohne dass die Betreiber von KI-Systemen überhaupt davon wissen. Auch sind beispielsweise bestimmte gesellschaftliche Gruppen oder seltene Krankheitsbilder nur unzureichend in bestehenden Datensätzen abgebildet. Solche ungenauen oder vorbelasteten Abbildungen der Realität bergen das Risiko, dass KI-Systeme bestehende vorurteilsbehaftete Entscheidungen der analogen Welt nicht nur reproduzieren, sondern verstärken. Dies ist besonders problematisch, wenn KI-Systeme Entscheidungen treffen, die sich direkt auf das Leben von Menschen auswirken, wie dies im Bereich der Sozialversicherung der Fall ist.
Vor diesem Hintergrund ist es wichtig, einen verantwortungsbewussten Umgang mit Daten sicherzustellen, wie dies die Datenschutz-Grundverordnung6 auch für die Nutzung von personenbezogenen Daten für das Training von KI vorschreibt. Zusätzlich muss Transparenz über deren Nutzung und die Arbeitsweise der KI-Systeme gegeben sein, weshalb Transparenz auch im KI-Gesetz eine entscheidende Rolle spielt. Es wird sich jedoch zeigen, ob die darin formulierten Bestimmungen ausreichend sind. Denn Transparenzbestimmungen laufen ins Leere, solange unklar ist, wie KI-basierte Anwendungen zu bestimmten Schlüssen kommen. Moderne KI-Modelle mit tiefen neuronalen Netzen sind oft so komplex, dass teils selbst Entwicklerinnen und Entwickler Schwierigkeiten haben, die genauen Entscheidungswege zu erklären. Zusätzlich stellt sich die Frage, inwieweit Unternehmen bereit sind, ihre KI-Modelle offenzulegen, da dies als Verlust eines Wettbewerbsvorteils betrachtet werden könnte.
Daten als Basis von Transparenz und Vertrauen
Doch nur auf Basis von Transparenz können Menschen Vertrauen in KI-Systeme entwickeln, was die Akzeptanz von KI-Anwendungen steigert und so letztlich zu ihrem erfolgreichen und breiteren Einsatz beiträgt. Um dieses Vertrauen aufrechtzuerhalten, ist es wichtig, die Weiterentwicklung von KI kontinuierlich kritisch zu hinterfragen und gegebenenfalls zu korrigieren. So kann im besten Fall ein Gleichgewicht zwischen menschlicher Urteilskraft und KI-Systemen entstehen, bei dem einerseits ethische Entscheidungsfindung und Rechenschaftspflicht gewährleistet und andererseits mehr Effizienz, besseres Ressourcenmanagement und passgenauere Bereitstellung von Dienstleistungen erreicht werden.
Da für immer leistungsfähigere und genauere KI-Modelle und -Anwendungen immer mehr qualitativ hochwertige Daten nötig sind, steigt der Wert persönlicher Daten stetig. Auf EU-Ebene stehen seit dem Start des Gesetzgebungsprozesses zum Aufbau eines Europäischen Gesundheitsdatenraums (EHDS) – einer von zukünftig neun sektorenübergreifenden Datenräumen – vor allem Gesundheitsdaten im Zentrum des allgemeinen Interesses. Der EHDS soll ermöglichen, dass Gesundheitsdaten für die wissenschaftliche Forschung im Gesundheits- und Pflegesektor besser nutzbar gemacht werden – auch explizit für die Schulung, Erprobung und Bewertung von Algorithmen. Insbesondere bei sensiblen Gesundheitsdaten ist es entscheidend, dass Versicherte die Möglichkeit haben, der Weitergabe ihrer personenbezogenen elektronischen Gesundheitsdaten für die Sekundärdatennutzung zu widersprechen. Aus diesem Grund wurde eine Widerspruchsregelung, das sogenannte Opt-out, eingeführt. Ziel ist es, ein Gleichgewicht zu schaffen zwischen dem Bedarf der Datennutzerinnen und -nutzer an umfassenden und repräsentativen Datensätzen – etwa für KI-basierte Forschung – und der Wahrung der Autonomie von Personen in Bezug auf ihre eigenen Gesundheitsdaten.