„KI-Suchmaschinen“ verbergen Fallstricke. Deshalb können sie gefährlich sein

OpenAI ist dabei, seine Websuchmaschine anzukündigen, die auf ähnlichen Funktionen wie ChatGPT basiert und dank derer sie höchstwahrscheinlich aus der Eingabeaufforderung des Benutzers ein diskursiv präsentiertes Ergebnis liefern wird, das durch Durchsuchen der am besten geeigneten Links für die Antwort erhalten wird. Aber wie genau werden die angebotenen Ergebnisse basierend auf dem, was wir heute über Chatbots wissen, sein?

Diese Art der Suche im Web wird bereits von Copilot in Microsofts Bing und vom Startup Perplexity angewendet. Alle diese Systeme und mit ziemlicher Sicherheit auch „ChatGPT Search“ (der offizielle Name ist noch nicht bekannt) basieren auf der Aktivität großer Sprachmodelle (LLMs), im Fachjargon als „textgenerative KI“ bekannt.

Welche Antworten geben LLMs?

Alle LLMs produzieren Texte auf der Grundlage statistischer und probabilistischer Berechnungen, die während des Trainings an riesigen Textdatenmengen gelernt wurden: den berühmten Datensätzen oder Datensätzen.

Zusammenfassend lässt sich sagen, dass das Modell während des Trainings lernt, Wortfolgen mit Wahrscheinlichkeiten zu verknüpfen, basierend darauf, wie häufig sie in den Trainingsdaten vorkommen. Wenn dann neuer Text generiert wird, Berechnet iterativ die Wahrscheinlichkeit der nächsten hinzuzufügenden Wörter und wählt angesichts des vorherigen Kontexts die wahrscheinlichsten aus.

Es gibt also kein tiefes Verständnis oder handcodierte Grammatikregelnaber es handelt sich um einen statistischen Prozess, der wiederkehrende Muster in den Daten erfasst, um eine Ausgabe zu erzeugen, die der ähnelt, auf der das LLM trainiert wurde.

Die Benutzeraufforderung (d. h. die Texteingabe, die gleiche, die beispielsweise derzeit in einer herkömmlichen Suchmaschine geschrieben wird) hat erheblichen Einfluss auf die Qualität und Genauigkeit der von einem LLM bereitgestellten Antworten.

Eine gut formulierte, spezifische Eingabeaufforderung, die den gewünschten Kontext richtig umrahmt, hilft dabei, das Modell auf relevantere, kohärentere und sachlichere Antworten auszurichten. Dies verringert das Risiko von „Halluzinationen“, also der Erzeugung von Inhalten, die fantasievoll oder sachlich falsch sind.

Andererseits, Vage, mehrdeutige oder möglicherweise irreführende Eingabeaufforderungen können das Modell zum Scheitern bringenDies führt dazu, dass er ungenaue, inkongruente oder sogar unwahrscheinliche Antworten liefert, da diese nicht gut im realen Kontext verankert sind.

Dies ist einer der Gründe, warum wir oft von „Prompt Engineering“ sprechen, also von Prompt Engineering, verstanden als der Bereich, der untersucht und entwickelt Techniken zur Optimierung der Formulierung von Texteingaben. Unter den Prompt-Engineering-Lösungen gibt es beispielsweise eine Lösung, die den LLM dazu anregt, Schritt für Schritt über die vorgegebene Eingabeaufforderung zu „reflektieren“, bevor er eine Antwort gibt.

Jedenfalls hat bis heute jeder bekannte Chatbot und aufgrund der Funktionsweise von LLMs Es ist ein Tool, das falsche Informationen liefern kann, gerade weil seine Ergebnisse das Ergebnis von Statistiken sind und nicht die Präsentation von Informationen und Dokumenten genau so, wie sie geschrieben wurden.

Jeder wird in den Antworten eines Chatbots schon einmal Unsinn gelesen haben für Themen, die sehr bekannt sind. Als Konsequenz entsteht ein spontaner Gedanke: „Was ist mit all den Antworten, die ich zu Themen erhalten habe, die ich nicht kannte?“

Gerade aufgrund der statistischen Natur der Antworten weiß ein LLM nicht, dass er es nicht weiß, Daher wird er oft dazu ermutigt, trotzdem eine Antwort zu geben, auch wenn diese falsch ist (was aber vom Chatbot als korrekt angesehen wird).

Wie ist der aktuelle Stand bei Suchmaschinen mit KI?

Sie müssen nicht auf die Einführung von ChatGPT Search warten, um zu verstehen, dass sich diese LLM-Verhaltensweisen manifestieren werden, da sie bereits in Copilot und Perplexity auftreten.

Dies ist die Antwort von Copilot auf die Frage: „Welche Pixel-Telefonmodelle wurden in Italien verkauft?“

Original öffnen

Dies ist die Antwort von Perplexity im Pro-Modus, der laut Angaben des Unternehmens „hervorragend bei der Bewältigung mehrdeutiger Abfragen ist“. Bei Bedarf stellt es klärende Fragen und liefert gründlich recherchierte Antworten mit deutlich verbesserter Genauigkeit.“

Original öffnen

Die beiden Antworten sind offensichtlich unvollständig, da sie bei den neuesten Modellen endenund Perplexity erwähnt das Pixel 8a nicht einmal: ein hochaktuelles Thema.

Versuchen wir nun, dieselbe Frage strukturierter zu stellen, um zu sehen, was passiert. Wir fragen: „Welche Pixel-Smartphone-Modelle wurden seit der Einführung des ersten Modells durch Google in Italien verkauft?“

Copilot reagiert auf uns auf diese Weise und macht weiterhin Fehler.

Perplexity erstellt eine Liste aller Pixel-Telefone von Google, aber Darin ist beispielsweise auch das Pixel 5 enthalten, das in Italien noch nicht zu sehen war.

Diese Art der Informationsvermittlung ist einfach falsch, denn das ist der Fall die Macht, beträchtliche und exponentielle Fehlinformationen zu erzeugen.

Selbst die Suche nach Informationen mit einer herkömmlichen Suchmaschine gibt nicht die Gewissheit, dass diese automatisch korrekt sind, sondern Ihre durchsetzungsfähige und diskursive Darstellung wie in KI-Engines verleiht den Informationen den Charakter von „Unfehlbarkeit“.was vor allem beim Durchschnittsnutzer ankommen wird.

Dazu müssen wir das hinzufügen KI-Engines geben Antworten auf der Grundlage der ethischen und moralischen Vorurteile der jeweiligen GesellschaftDaher kann es sein, dass einige Antworten zensiert werden oder gar nicht erst bereitgestellt werden.

Mit Version 3 der Claude-Modelle ist Anthropic ein Unternehmen (in das Google und Amazon investiert haben), das versucht, diese Art der Zensur zu vermeiden, was jedoch nur die Existenz dieses Problems bestätigt. Anthropic hat derzeit keine Suchmaschine in der Entwicklung.

Sie müssen den Antworten besondere Aufmerksamkeit schenken

Forschung in die Hände von „KI-Maschinen“ zu geben, ist eine große Verantwortung, denn dadurch wächst zwangsläufig der Teil der Öffentlichkeit, der sie auch für die tägliche Forschung zu sensiblen Themen nutzt.

Falsche Antworten zu geben und gleichzeitig zu glauben, dass sie richtig sind, wird dazu führen, dass Fehlinformationen neue Felder finden, in denen sie Fuß fassen können, könnte zu potenziell schädlichen Entscheidungen führen, die von falschen Informationsprämissen ausgehen, oder das Lernen untergraben und sogar falsche Konzepte oder Vorstellungen bei den Schülern festigen. Schließlich sind soziale Gruppen mit geringeren Fähigkeiten zur kritischen Bewertung von Online-Informationen möglicherweise anfälliger dafür, falsche Antworten unkritisch zu akzeptieren.

Welche Antworten geben LLMs?

Wie ist der aktuelle Stand bei Suchmaschinen mit KI?

Sie müssen den Antworten besondere Aufmerksamkeit schenken

Related posts