Kann man KI trauen?
Mit KI erstellt von Microsoft Designer
Diese Frage stellt sich mit neuem Nachdruck, wenn man die Studie, die deutsche und belgische Wissenschaftler jüngst veröffentlicht haben, liest. Man hat gängigen KI-Systemen zu verschiedenen Medikamenten die zehn häufigsten Fragen gestellt und die Antworten bewertet.
Die Antworten waren von der Vollständigkeit her nur zu 77%, bei der am schlechtesten abschneidenden KI zu 23%. Was die Genauigkeit betrifft, entsprachen 24% der Antworten nicht dem etablierten medizinischen Wissen; 3% waren völlig falsch. Nur 54% der Antworten bestätigten medizinische Expertenmeinungen. In Bezug auf potenziell gefährliche Falschinformationen lagen 42% im Bereich von „leichtes bis mittleres Risiko“, während 22% als potenziell schwer gefährdend bis tödlich eingestuft wurden. Nur 36% wurden als harmlos bewertet.
Diese Ergebnisse zeigen, was jedem Anwender mit gesundem Menschenverstand ohnehin klar sein sollte: Man kann einer KI grundsätzlich nicht trauen. Eine KI ist ein Werkzeug, ein Hilfsmittel. Wie z.B. ein Hammer. Die KI ist zwar ein sehr smarter Hammer, aber wenn ich an die falsche Stelle klopfe, erhalten ich mit steigender Wahrscheinlichkeit ein unerwünschtes Ergebnis, je weiter die Stelle vom eigentlichen Einsatzort entfernt ist.
Genau das trifft für KI auch zu. Ich erinnere mich genau: Mein erster Kontakt zu KI war Stable Diffusion. Ich habe mich langsam herangetastet und mit einfachen Prompts wie "Bergsee mit Boot, blauer Himmel" wunderbare Ergebnisse erzielt. Nur das Boot war eine Motorjacht - der Prompt "Bergsee mit Ruderboot, blauer Himmel" lieferte plötzlich kategorisch falsche Ergebnisse - da war alles, nur kein Ruderboot. Warum?
Die KI "wusste" schlicht nicht, was ein "Ruderboot" ist bzw. - korrekterweise - wie es aussieht. Also hat sie halluziniert; sie hat einfach etwas erfunden. Dieser Effekt ist auch heute noch in den KI-Systemen weithin zu beobachten und auch wissenschaftlich bewiesen: Je weiter die KI sich von ihren Lerndaten entfernen muss, desto falscher sind die Ergebnisse.
Im üblichen Höher, Weiter, Größer-Wahnsinn der heutigen Gesellschaft ist eine Rückmeldung wie "tut mir leid, ich weiß nicht, was ein Ruderboot ist" schlicht keine valide Antwort. Genauso, wie Suchmaschinen nur dann "gut" sind, wenn sie zu jeder Frage mindestens 1,5 Milliarden Antworten liefern (auch wenn nur 5 brauchbare dabei sind).
Niederländische Kroketten und Sicherheitslösungen
Zugegeben - das war alles oberflächlich betrachtet. Aber: Wer macht sich denn im Alltag die Mühe, genauer nachzuforschen? Wer hinterfragt die Aussagen der KI? „Einfach glauben“ ist dummerweise so superpraktisch: im letzten Urlaub habe ich den Copiloten für Übersetzungen bzw. korrekter - für Erklärungen zu landesüblichen Lebensmitteln entdeckt - statt nach einer Google-Suche zwischen Ergebnissen mit massenweise oder alternativ unglaublich viel Werbung wählen und zwischen völlig themenfremden Bildern und Texten den Teil herauszusuchen, der meine Frage beantwortet, gebe ich z.B. im Copiloten einfach „Was versteht man in den Niederlanden unter Filet Americaine“ ein und bekomme eine detaillierte, vollständige Antwort. Cool! Einfach nur praktisch. Auch die Frage, was man in den Niederlanden unter einer Krokette versteht - in Konkurrenz zu der in Baden verbreiteten Variante, beantwortet der Copilot erschöpfend und m.E. perfekt.
Komme ich aber auf die verwegene Idee, den Copiloten zu fragen, ob man mit einer bekannten Security-Lösung ein Catch-All-Postfach für M365 einrichten könne, wird es wild:
Die Antwort kannte ich bereits ("Nein, da es komplett der Gesamtlogik des Systems widerspricht") - der Copilot behauptet aber, dass das geht und wirft mir gleich noch die üblichen Quellen an den Kopf. Eine kurze Recherche zeigt, dass die eine Quelle die Homepage des Herstellers, die andere die Knowledgebase desselben ist. Beides keine Überraschung - spannend nur, dass in beiden Quellen kein Wort zu CatchAll-Postfächern steht.
Auf die Frage, wie er zu seinem Ergebnis gekommen sei, erklärt der Copilot, dass er die genannten Quellen überprüft hätte und zu diesem Schluss gekommen sei.
Darauf hingewiesen, dass keine der Quellen auch nur ein einziges Wort zu CatchAll-Postfächern enthält, vermeldet die KI, dass sie sich das wohl geirrt hätte und ändert ihre Aussage in das exakte Gegenteil.
Was bedeutet das für uns?
Da ich solche Fälle ständig habe, war für mich die eingangs gestellte Frage leicht zu beantworten: Kann man KI trauen? Natürlich nicht!
Im Falle des Copiloten liefert die spaßeshalber gestellte Frage, ob die gleichzeitige Einnahme von Aspirin und Ibuprofen zu Wirkungssteigerung empfehlenswert ist, eine detaillierte und m.E. korrekte Antwort (sinngemäß: "auf keinen Fall") - woher weiß ich aber, dass die nächste Frage auch wieder korrekt beantwortet wird? Ich vermute, die problemlos machbare Ausgabe des „Confidence-Levels“ bei Antworten in KI-Systemen wäre zu enttäuschend, als dass man sie den Usern zumuten möchte.
KI kann ein unglaublich hilfreiches Werkzeug sein.
Wenn ich Ideen zu einem Thema brauche, frage ich die KI und verfolge dann die Antworten weiter. Wenn ich etwas erklärt bekommen will, frage ich die KI und mache aufmerksam eine Plausibilitätsprüfung.
„Verantwortungsvoller Umgang“ mit KI bedeutet für mich nicht nur, dass KI nicht zu irgendwelchen Schandtaten eingesetzt wird - es bedeutet auch, dass KI-Ergebnisse sorgfältig evaluiert werden, bevor sie als gegeben hingenommen werden. KI-Systeme werden in weiten Zügen mit Daten aus dem Internet trainiert - und dort steht mittlerweile deutlich mehr völliger Schwachsinn als sinnvolle Informationen - die Folge liegt auf der Hand.
Solange Alexa auf den Befehl „Alexa, Licht aus im Wohnzimmer“ korrekt reagiert, aber bei „Alexa, lauter im Wohnzimmer“ die Musik kurz unterbricht, um mir mitzuteilen, dass „Wohnzimmer diese Funktion nicht unterstützt“ und eine Sekunde später auf „Alexa, lauter“ genau so reagiert wie erwartet, traue ich irgendwelchen Assistenz- und KI-Systemen genauso weit, wie ich sie werfen kann (und setze mich definitiv auf gar keinen Fall in angeblich selbstfahrende Fahrzeuge).
Getreu dem Untertitel „Meinung|ungefiltert“ verzichte ich auf Befindlichkeiten aufgrund Herstellerbindungen, dem üblichen Geschäftsgebaren und sonstiger Konventionen.
Damit einher geht, dass dieser Blog meine persönliche Meinung widerspiegelt und nur diese - Euer Marc Winter.