Was macht eigentlich Ethik in der KI aus? Nachdem wir uns in unserem vorigen Blogpost den Vorrang menschlichen Handelns und die Bedeutung menschlicher Aufsicht angeschaut haben, behandeln wir hier im zweiten Teil weitere wichtige Aspekte.
Technische Robustheit und Sicherheit
Viele finden diesen Punkt langweilig, ganz nach dem Motto “Ja, ja, muss eh gemacht werden”. Besonders am Anfang der AI-Entwicklung kommt gerne das Argument: “Machen wir das lieber später, jetzt kümmern wir uns erst darum, dass die AI überhaupt mal läuft”. Auch wenn dieser Ansatz manchmal tatsächlich funktioniert, ergeben sich doch oft klaffende Sicherheitslücken, deren nachträgliche Behebung genauso aufwändig wie eine komplette Neuentwicklung ist. Der Schutz vor Hacking-Angriffen muss in allen Architektur-Entscheidungen bedacht werden, aber darüber hinaus muss Sicherheit ein Teil der Unternehmenskultur sein. Exzellente Verschlüsselung der Daten, aller Zugänge und aller Mitarbeiter-Geräte ist da schon eine ganz gute Strategie für Ethik in der KI.
Aber kann man noch mehr tun? Ja, kann man, z.B. indem man dafür plant, dass ein erfolgreicher Angreifer mit vollem Zugang auf die AI trotzdem nichts damit anfangen kann, weil eine andere, getrennt operierende AI alle Daten unleserlich macht. Ein weiteres Problemfeld entsteht durch das starke Fokussieren auf schnelle gute Ergebnisse: Das perfekte Tuning der AI auf die Testdaten führt zu einem gewaltigen Overfitting. Die AI liefert mit den Testdaten tolle Ergebnisse, kann aber mit neuen Daten aus der echten Welt nichts mehr anfangen, weil diese nicht genauso aussehen, wie es die AI erwartet. Dieser weitere, klassische Fehler passiert speziell Ungeübten oft, kann aber mit einfachen Entscheidungen bei Projektbeginn vermieden werden.
Insgesamt fühlen wir uns bei Fact AI sehr gut aufgestellt, denn Sicherheit ist ganz tief in unserer Unternehmenskultur verankert. Gleichzeitig wissen wir auch, dass es Lücken immer gibt, und dass man ständig wachsam und aktuell bleiben muss.
KI Ethik: Schutz der Privatsphäre und Datenqualitätsmanagement
Auch diese essenziellen Maßnahmen werden von vielen als langweilige “eh klar – später mal”-Punkte erachtet, dabei sollte man sie – genauso wie die Robustheit und Sicherheit – von Anfang an mitbedenken. Stell dir vor, du würdest der AI persönliche Daten wie Name, Adresse, Alter, Geschlecht, Religion etc. zum Trainieren geben. Die AI läuft, und irgendwann später kommst du darauf, dass du das eigentlich gar nicht dürftest. Dann müsstest du den Input drastisch ändern, sprich die AI komplett neu entwickeln.
Die DSGVO hat die Anonymisierung von Daten stark in den Vordergrund gerückt. Das ist auf der einen Seite großartig, aber auf der anderen Seite auch sehr irreführend. Wir glauben, eine echte Anonymisierung von Daten und eine garantiert sichere Verschlüsselung gibt es nicht. Angenommen, du hättest Kaufdaten mit Name, E-Mail, Telefonnummer, Adresse, Kaufhistorie usw. Jetzt willst du diese Daten anonymisieren und löschst daher Name, E-Mail, Telefonnummer, und Straßennamen. Aber es gibt da viele weiteren Daten: IP-Adresse, Stadt, gekaufte Produkte, Zugriffszeiten u.v.m. Diese kann man nutzen, um das Geschlecht von Personen zu bestimmen, ihr Alter abzuschätzen und sie identifizierbar zu machen. Wenn es Muster in den Daten gibt, die Menschen mit ähnlichen Bedürfnissen vereint, ist es der Job der AI, diese Muster zu finden.
Wir sind der Meinung, fast alle Daten können de-anonymisiert werden, es ist “nur” eine Frage des Aufwands. Manchmal ist er so hoch, dass man andere Systeme hacken müsste, das ist dann schon sehr sicher. Wir sehen es als unsere Aufgabe, bei jedem Projekt möglichst viele Daten heranzuziehen, aber den Aufwand für das De-Anonymisieren so hoch wie möglich zu halten. Am liebsten haben wir es, wenn wir Namen, E-Mail, Telefonnummer, IP-Adresse nie erhalten, oder wenn Daten bereits von einer anderen AI auf der Kundenseite unkenntlich gemacht wurden.
Das ist auch unser Wunsch an eine praxisorientierte Erweiterung der DSGVO. Wir fänden es großartig, wenn es eine regelmäßig aktualisierte Skala gäbe, mit der man den Grad der Pseudonymisierung feststellen könnte.
Eine Idee für die Skala wäre:
– “Klasse C”: Öffentlich zugängliche Quellen reichen aus, um die Daten an echte Menschen zu binden.
– “Klasse B”: Es gibt eine firmeninterne Aufsicht, sodass kein einzelner Mitarbeiter die Daten an echte Menschen binden kann.
– “Klasse A”: Man muss ein anderes System hacken, um die Daten mit echten Menschen in Verbindung zu bringen.
Weiterführender Link: Ethik-Leitlinien für eine vertrauenswürdige KI (digital-strategy.ec.europa.eu)