„Wir haben es mit 500 Milliarden Wörtern gefüttert“

Künstliche Intelligenz (KI)

27. April 2024

10.41 Uhr

Die drei vom Forschungszentrum Sapienza Natural Language Processing entwickelten Modelle für künstliche Intelligenz werden bald als Open Source verfügbar sein. Roberto Navigli, ordentlicher Professor an der La Sapienza, erklärte Fanpage.it den gesamten Prozess: „Das Training künstlicher Intelligenz bewahrt die Kultur der Ausgangssprache. Dadurch, dass es auf Italienisch gemacht wird, wird das Modell „einheimisch“ in die italienische Kultur.“

Interview mit Roberto Navigli

Ordentlicher Professor und Koordinator der Sapienza Natural Language Processing Group

Made in Italy bedeutet nicht nur Luxusautos und Haute Couture, sondern auch Technologie und künstliche Intelligenz. Zumindest möchte er es sein. Wie im Fall von Minervadie Familie von Algorithmen, die von entwickelt wurde Sapienza-Verarbeitung natürlicher Sprachedie Forschungsgruppe an der römischen Universität, die sich mit dem Verständnis natürlicher Sprachen beschäftigt.

Drei Modelle (350 Millionen, 1 Milliarde und 3 Milliarden Parameter). auf 500 Milliarden Wörter trainiert, „das Äquivalent von 5 Millionen Romanen“, wie es in der offiziellen Pressemitteilung heißt. Minerva ist vorerst nur für den Forschungsbereich freigegeben und wird bald der Öffentlichkeit als Open Source präsentiert und ist daher für die Nutzung durch jedermann bereit.

In einer Zeit, in der die Ankündigung neuer Modelle immer bevorsteht (z. B. Llama 3, angekündigt von Meta, oder VASA-1 von Microsoft), könnte die Ankunft von Minerva unbemerkt bleiben. Doch hinter dem mythologischen Namen steckt noch mehr. Erstens, weil es so ist direkt in Italienisch ausgebildet und stammt nicht aus Übersetzungen aus dem Englischen oder anderen Sprachen. Dann vor allem, weil die für die Ausbildung genutzten Quellen offen sind.

Sie nutzen ChatGPT als Hochzeitsplaner und sparen 5.000 $: Maria und Ryans Geschichte

„Die von anderen Modellen verwendeten Quellen sind nicht bekannt. Sie sprechen oft von „Open-Source“-Projekten, aber es gibt keine Website, die die Quellen für jedes dieser Modelle auflistet“, erzählt er Fanpage.it Roberto Navigliordentlicher Professor für Computertechnik und Leiter des Sapienza NPL-Forschungszentrums.

Professor Navigli, was ist Minerva?

Es ist das erste italienische Sprachmodell, das mithilfe von Open-Access-Texten von Grund auf trainiert wurde. Es handelt sich also um eine auf Deep Learning basierende neuronale Netzwerkarchitektur, die auf das Erlernen natürlicher Sprache abzielt. Das funktioniert so: Es nimmt einen Text als Eingabe und erzeugt das Wort, das am wahrscheinlichsten aus dem als Eingabe bereitgestellten Text folgen würde. Um die Funktionsweise besser zu verstehen, ist es notwendig, zwischen zu unterscheiden sogenannte Grundlagenmodellewie Minerva ist, und solche Konversationwie Chat-GPT.

Was ist der Unterschied zwischen diesen Modellen?

Konversationsmodelle sind sprachliche Modelle, die darauf abzielenInteraktion in einem GesprächDaher müssen sie in der Lage sein, angemessen auf Fragen, Anweisungen und Befehle zu reagieren. Sie sind eine Art Weiterentwicklung grundlegender Sprachmodelle. Tatsächlich ist es notwendig, diese zunächst zu erstellen und sie dann durch einen Prozess der Anpassung an die Anweisungen („instruction tuning“, auf Englisch) handlungsfähig zu machen verschiedene Aufgaben ausführen die das Verständnis natürlicher Sprache demonstrieren, wie maschinelle Übersetzung, automatische Zusammenfassungen oder die Beantwortung sachlicher Fragen.

Wie funktioniert ein Grundlagenmodell wie Minerva?

Das Grundmodell beschränkt sich auf Produktion einer fließenden Sprache, ohne unbedingt auf die Anfragen eines Benutzers reagieren zu müssen. Ich schreibe zum Beispiel „Roberto ist…“ und bitte das Modell, diese Textzeichenfolge zu vervollständigen. Das Model könnte den Text mit „…einem Freund von mir“ oder „…einem Professor“ oder sogar „einer Person“ vervollständigen. Er würde kaum antworten, indem er unwahrscheinliche Sequenzen wie „ein Auto“ oder „eine Straße“ hervorbringt, ganz zu schweigen von ungrammatischen und „primitiven“ Antworten wie „eine Person von der Universität“, um „ein Professor“ auszudrücken.

Funktioniert es also wie die Suchleiste bei Google?

Ja, aber tatsächlich mit verschiedene Kriterien. Beispielsweise basiert die Suchleiste von Google auf Benutzersuchen. Das vielleicht passendste Beispiel ist dasAutovervollständigung in Handytastaturen, die jedoch auf der Häufigkeit des Vorkommens innerhalb von Texten basiert. Tatsächlich funktionierten Sprachmodelle in der Vergangenheit genau so, basierend auf Vorkommensstatistiken in Trainingstexten. Ich suche zum Beispiel nach „Kaffee ist ein…“ in den Texten, die ich für das Training verwende.

Und was war das Problem?

Das Problem besteht darin, dass ich nicht erwarten kann, alle möglichen Wortfolgen zu finden, und genau dies ist eines der Probleme, die von gelöst werden Deep-Learning-Modelle, also Deep Learning. Irgendwie können wir sagen, dass sie sich dem Verständnis einer Wortfolge annähern, ohne zuvor dieselbe Wortfolge gesehen zu haben, genau wie Menschen.

In den letzten Monaten wurden mehrere Modelle der künstlichen Intelligenz veröffentlicht, darunter auch leistungsstarke. Warum ein neues erstellen und sich nicht auf die Anwendung eines vorhandenen konzentrieren?

Zunächst einmal: Warum Know-how schaffen In Italien ist es für das Land von entscheidender Bedeutung zu wissen, wie man Modelle dieser Größe und Komplexität trainiert. Zweitens, weil, sobald das Know-how geschaffen ist, Forschung über die aktuellen Grenzen des Wissens hinaus betrieben werden kann. Um es mit der Automobilindustrie zu vergleichen: Wenn ich kein Fahrzeug bauen kann, das dem der Konkurrenz ähnelt, kann ich auch kein Auto der nächsten Generation bauen.

Was sind also die Vorteile?

Dank der Forschung werden wir in der Lage sein, an einigen bekannten Problemen aktueller Modelle zu arbeiten, zum Beispiel an den sogenannten Halluzinationen und der Zuverlässigkeit von Modellen, ihre Entscheidungen in der Realität zu rechtfertigen Textgenerierung. Schließlich müssen wir auch aufgrund des KI-Gesetzes und des KI-Gesetzes der Regierung wissen, welche Quellen wir zum Trainieren von Modellen verwenden, Informationen, die derzeit für viele sogenannte „Open-Source“-Modelle fehlen.

Weil es wichtig ist?

Denn sonst riskieren wir, diese zu verwenden Blackboxen gegen Gesetze, Vorschriften oder möglicherweise Bürgerrechte verstoßen. Wir reden über so viele Daten darüber hinaus 500 Milliarden Wörter im Fall von Minerva, dass kein Mensch daran denken kann, diese Inhalte einzeln zu lesen. Die Kenntnis der Quellen und die Fähigkeit, sie zu nutzen, ermöglicht es uns, den Prozess zu steuern und wichtige Analysen, einschließlich aggregierter Analysen, durchzuführen sowie das Modell in zukünftigen Schulungen anzupassen und zu verbessern.

Welche Quellen haben Sie den Modellen zugeführt?

Die Daten, die wir für diese ersten drei Modelle verwendet haben, sind eins erheblicher Teil der im Internet verfügbaren Seiten auf Italienisch. Diese Daten sind frei zugänglich und ähneln denen, die in anderen Modellen für andere Sprachen verwendet werden. Die Nutzung des Internets ist unerlässlich. Einige haben darüber gesprochen, ein Modell nur mit urheberrechtsfreien Daten zu veröffentlichen. Aber das ist grundsätzlich unmöglich.

Warum?

Das Hauptproblem ist das Sprachmodelle sind datenhungrig: Wenn ich also zu diesen Dimensionen gelangen möchte, muss ich unbedingt auf das Internet zurückgreifen. Und das Web bietet Inhalte aller Art. Es ist grundsätzlich unmöglich, nur völlig offene Inhalte herauszufiltern, auch weil das Urheberrecht in vielen Fällen nicht explizit angegeben ist. Derzeit nutzen ausnahmslos alle Modelle das Internet als primäre Quelle für das Training.

Warum ist es so wichtig, eine künstliche Intelligenz auf Italienisch zu trainieren?

Es ist der Unterschied zwischen der Vorschulung, die wir in Minerva nutzen, und der Feinabstimmung, wie sie bisher in Italien durchgeführt wird. Der Feinabstimmung, also die Adaption eines ausländischen Modells an das Italienische, tendiert dazu, die Kultur der Ausgangssprache zu bewahren oder zu absorbieren. Wenn ich also von einem auf Englisch geschulten Modell ausgehe und es dann ins Italienische überführe, wird die von der englischen Sprache aufgenommene Kultur auch den italienischen Teil durchdringen. Wenn ich ihm stattdessen von Grund auf Italienisch beibringe, wird er in der italienischen Kultur „einheimisch“ sein.

Und wie drückt sich in diesem Fall die italienische Kultur aus?

Es drückt sich gerade durch die Sprache aus. Wenn ich zwei Texte zum gleichen Thema nehme, einen auf Italienisch und einen auf Englisch, der von einem Fachmann ins Italienische übersetzt wurde, haben diese beiden Texte nicht den gleichen kulturellen Ursprung. Erstens, weil sie das Thema anders entwickeln werden. Der eine wird sich beispielsweise auf die Vision italienischer Politiker konzentrieren, der andere auf die der amerikanischen Politiker. Oder über kulturell unterschiedliche Visionen zu sensiblen Themen.

Zum Beispiel?

Lass es uns nehmen‘Abtreibung. Jedes Land hat seine eigene Sensibilität, die das Ergebnis eines sozialen, historischen und anthropologischen Prozesses ist. Diese Sensibilität geht aus den im Internet geschichteten Texten hervor. Wenn ich mir die im Internet auf Italienisch verfassten Texte anschaue, spiegeln diese die vorherrschende Wahrnehmung, aber auch die Diskussionen und Kontroversen wider, die in unserer Kultur zu diesem Thema geführt werden. Das Gleiche gilt für weniger heikle, aber dennoch tief empfundene Themen wie Essen, über das in Italien viel gesprochen wird, und zwar oft mit voller Sachkenntnis im Vergleich zu anderen Ländern, in denen sich die Redner möglicherweise nicht besonders für Unterscheidungen wie die zwischen Parmigiano Reggiano interessieren und Grana Padano.

Oder wie man Carbonara kocht …

Oder wie man Carbonara genau zubereitet. Die Texte sind tief in der Kultur eines Volkes verankert, eines Landes, aber auch einer Region. Diese Kultur geht implizit aus der Sprache hervor und kann sich im Laufe der Zeit oft sogar verändern. Das heutige italienische Web tendiert dazu, das gemeinsame Gefühl unserer Kultur auszudrücken. Aber wir dürfen eine wichtige Sache nicht vergessen.

Und das ist?

Trotz allem, Man kann nicht sagen, dass das Internet der Ausdruck der gesamten italienischen Bevölkerung ist denn nicht jeder hat Zugang zum Internet oder hat die Zeit und Gelegenheit, Texte im Internet zu schreiben. Es gibt also immer noch eine Voreingenommenheit, oder besser gesagt, es gibt zwei. Das eine hängt mit der Kultur zusammen, die sich durch Sprache ausdrückt, das andere hängt davon ab, wer diese Texte tatsächlich schreiben kann. Das sagen uns zum Beispiel Studien Wikipedia Es wurde hauptsächlich von Männern geschrieben, ob weiß, jung oder im Ruhestand, die in westlichen Ländern lebten.

Sie haben angegeben, dass Sie Benchmarks, also Bewertungsdatensätze für Ihr Modell, definieren möchten. Aber wie legt man objektive Parameter für etwas fest, das nicht objektiv ist, wie die italienische Kultur?

Wir müssen erneut das grundlegende Sprachmodell von der Konversationskapazität des Modells unterscheiden. Es ist viel einfacher, die Qualität des Gesprächs zu bewerten, d. h. ob das Modell gut auf die gestellten Fragen oder Anweisungen reagiert: Ich kann Benchmarks erstellen, die Fragen wie „Was ist die Hauptstadt Italiens“ oder „Wer ist der Premierminister“ und enthalten die Antwort, ausgewählt aus a Reihe von Optioneni, ist im Wesentlichen eindeutig. Eine größere Herausforderung besteht jedoch darin, direkt festzustellen, ob der Text, der ein Modell generiert hat, die von mir gewünschte Qualität hat.

Wie lege ich ein „Qualitätsniveau“ fest? Bisher basiert es auf der Einhaltung des Modells an den Trainingstexten, aber es bleibt sicherlich ein offenes Forschungsthema, ein weiterer Grund, an Sprachmodellen der nächsten Generation zu arbeiten, wie wir es mit meiner Gruppe bei Sapienza tun. Und hier möchte ich allen jungen Forschern danken, die an dem Projekt beteiligt waren, Edoardo Barba, Simone Conia, Pere-Lluis Huguet Cabot, Luca Moroni und Riccardo Orlando.

NEXT Das neue Enovis-Werk in San Daniele wurde eingeweiht