Allein das Stellen dieser Frage wird die KI kaputt machen

Künstliche Intelligenz (KI)

16. Juni 2024

13.28 Uhr

Die Modelle gaben nicht nur falsche Antworten, sondern versuchten auch, die Forscher davon zu überzeugen, dass die vorgeschlagene Lösung die richtige sei. „Die Situation ist dramatisch, die KI hat Erklärungen für die falschen Antworten geliefert, um die Gültigkeit ihrer offensichtlich falschen Lösungen zu rechtfertigen und zu untermauern“, heißt es in dem Dokument.

Das Problem “Alice im Wunderland„ ist ein ziemlich einfaches logisches Rätsel. Dennoch brachte es große Sprachmodelle (LLMs) zum Absturz. Künstliche Intelligenz (KI) fror ein und generierte sogar falsche Antworten Die ausgefeiltesten Systeme sind über eine triviale Frage gestolpert:

„Alice hat drei Brüder und sie hat auch zwei Schwestern. Wie viele Schwestern hat Alices Bruder?„, fragten die Lajen-Forscher die KI. Die Antwort ist drei, die beiden im Rätsel erwähnten Schwestern plus Alice. Die KI gab unterschiedliche Zahlen aus, ohne einem logischen Prozess zur Lösung des Rätsels zu folgen.

Die neue Studie (die noch nicht einem Peer-Review unterzogen wurde) wurde von Laion und den Forschern durchgeführt Marianna Nezhurina, Lucia Cipolina-Kun, Mehdi Cherti und Jenia Jitse deckt die eigenen Schwächen auf überbewertete Technologie. „Die Modelle werden mit sehr hohen Werten bewertet, aber im Test haben wir gravierende Probleme festgestellt, das zeigt, dass noch ein langer Weg vor uns liegt.“

„Ich musste mit ihm reden“: Immer mehr Menschen bitten die KI, ihre Lieben wiederzubeleben

Die Ergebnisse der Studie

Die Forscher testeten die GPT-3-, GPT-4- und GPT-4o-Modelle von OpenAI, Claude 3 Opus von Anthropic, die Gemini- und Meta-Llama-Modelle von Google, Mextral von Mistral AI, Dbrx und Cohere von Mosaic. NEINNiemand hat es geschafft, das Rätsel zu lösen. „Wir haben die Antwortstatistiken analysiert und beobachtet ein starker Zusammenbruch der Argumentation, Sie sind trotz ausgeprägter Denkfähigkeiten nicht in der Lage, die gestellte einfache Frage zu beantworten“, erklärten die Forscher.

„Es reichte aus, der KI ein Problem des gesunden Menschenverstandes vorzulegen, das einfach, kurz und in prägnanter natürlicher Sprache formuliert war. vom Menschen leicht zu lösen“. Nur das neue Modell von OpenAI, GPT-4o, bekam eine ausreichende Erfolgsquote (65 % richtige Antworten, was einer Sechs entspricht).

Die lügende künstliche Intelligenz

Die Modelle gaben nicht nur falsche Antworten, sie versuchten auch, die Forscher davon zu überzeugen Die vorgeschlagene Lösung war die richtige. „Die Situation ist dramatisch, die KI hat Erklärungen für die falschen Antworten geliefert, um die Gültigkeit ihrer offensichtlich falschen Lösungen zu rechtfertigen und zu untermauern“, heißt es in dem Dokument.

Das Problem wurde bereits durch den wissenschaftlichen Artikel mit dem Titel „AI Deceptions: A Study of Examples, Risks and Potential Solutions“ angesprochen und in der Zeitschrift Patterns veröffentlicht. Der Studie zufolge können Maschinen tatsächlich lügen. Wir reden nicht darüber Halluzinationen künstlicher Intelligenz (daher Fehler, Wiederholungen oder durch Software erfundene Sätze), sondern von Handhabung.

„Diese Modelle greifen auf unlogische oder verwirrende Erklärungen zurück, um ihre Antwort zu verteidigen. Das ist ein alarmierendes Phänomenweil sie versuchen, uns davon zu überzeugen, dass die unsinnigen Antworten die richtigen sind.

Maschinen sind weniger intelligent, als wir uns vorstellen

Es gibt mehrere Bewertungssysteme für KI-Modelle, darunter das MMLU-Benchmarksoder „Multi-Task Language Understanding“, entwickelt, um die Fähigkeit einer künstlichen Intelligenz zu bewerten Probleme lösen. Die Forscher stellten fest, dass alle getesteten Systeme eine hohe Punktzahl erzielten, sie jedoch auf ein triviales Logikrätsel stießen.

Wir glauben, dass ich Benchmarks spiegeln nicht die zugrunde liegenden Defizite der Modelle wider„Den Forschern zufolge könnte die Studie ein Ausgangspunkt für eine Neubewertung der Prozesse sein, mit denen die Problemlösungs- und Argumentationsfähigkeiten von Sprachmodellen getestet werden.

PREV Ferrari-Ekstase, Zugabe in Folge bei den 24 Stunden von Le Mans! Toyota und Porsche besiegt
NEXT Innerhalb weniger Tage wurden im Val di Sole zwei Bären gesichtet. Die Gemeinde Malè will „dringende Interventionen“