Die Diagramme zeigen die Datenverteilung im Modell, wobei deutschsprachige Daten in Rot und englischsprachige Daten in Blau dargestellt sind. Auf der linken Seite zeigt sich, dass die Sprache die Embedding-Verteilung stark beeinflusst. Keine Überlappung der Farben bedeutet, dass es einen Language-Bias gibt. Das rechte Diagramm zeigt, blau und rot gut durchmischt, was bedeutet, dass englische und deutsche Embeddings auf denselben semantischen Raum abgebildet werden.
Wie misst man einen Language-Bias?
Um den Language-Bias verschiedener Modelle zu quantifizieren und zu vergleichen, gibt es zwei Ansätze:
1. Evaluieren Sie Ihr Modell auf dem LAReQA-Datensatz, wie im Paper „LAReQA: Language-agnostic answer retrieval from a multilingual pool“ von Roy et al. beschrieben. Neben einer Methode zur Quantifizierung des Bias schlägt das Paper eine nützliche Heatmap-Visualisierung vor, in der Sie den Grad des „Alignments“ zwischen allen Sprachpaaren sehen können. Der Nachteil ist, dass der LAReQA-Datensatz aus wenigen Sprachen besteht.
2. Der zweite Ansatz ist aus dem Paper „Making Monolingual Sentence Embeddings Multilingual using Knowledge Distillation“ von Nils Reimers und Iryna Gurevych. [2] Sie schlagen vor, das Modell in einer semantischen Textähnlichkeitsaufgabe (STS) mit einem mehrsprachigen STS-Datensatz zu evaluieren und zu sehen, wie viel schlechter das Modell abschneidet, wenn man nicht jede Sprache einzeln testet, sondern einen Kandidatensatz mit allen Sprachen gleichzeitig.
Zusätzlich zu quantifizierbaren Maßnahmen ist es auch ratsam, den Language-Bias manuell zu testen. Denken Sie sich einige Suchabfragen aus, übersetzen Sie diese in verschiedene Sprachen und führen Sie für jede Übersetzung eine Suche durch. Sie sollten ungefähr die gleichen Ergebnisse für jede Übersetzung dieser Abfrage finden. Wenn Sie stattdessen Ergebnisse erhalten, die der Sprache Ihrer Abfrage folgen, haben Sie ein voreingenommenes Modell ohne „Strong Alignment“ vor sich.
Minderung des Language-Bias
Für das G39-Projekt haben wir große Datensätze aus Nachrichtenartikeln verschiedener Länder aufgebaut, um dem Modell zu ermöglichen, unterschiedliche Nachrichtenkontexte zu lernen. Aufgrund unserer Erfahrung mit der Ausbildung monolingualer Embedding-Modelle waren wir zuversichtlich, dass wir ein Modell erstellen können, das den aktuellen Nachrichtenkontext mehrerer Länder kennt. Eine zentrale Frage war, ob dieses trainierte Modell für die mehrsprachige semantische Suche nutzbar ist. Wir haben viele Ideen diskutiert, aber die Lösung war letztendlich einfach: Der Basistrainingsansatz lieferte bereits zufriedenstellende Ergebnisse. Das heißt, wir haben unsere neun monolingualen Feintuning-Datensätze zu einem großen Datensatz zusammengeführt, der aus Abfragen und Nachrichtenartikelausschnitten in neun verschiedenen Sprachen besteht. Das Training auf diesem Datensatz eliminierte den größten Teil des Language-Bias, den wir im Basismodell gemessen haben.
Warum funktioniert das? Wir sind noch dabei, das im Detail herauszufinden, aber wir können bereits ein paar Einblicke teilen:
- Es ist eine große Menge an hochqualitativen mehrsprachigen Feintuning-Daten verfügbar
- Viele Inhalte der Daten – wenn auch in unterschiedlichen Sprachen – überschneiden sich, da einige Nachrichten internationale Themen behandeln.
Wir haben unseren Ansatz „Brute-Force-Mitigation“ genannt, da eine große Menge an qualitativ hochwertigen Trainingsdaten ausreichend war, um einen Effekt zu erzeugen. Sollten Sie nicht über große Mengen an mehrsprachigen Feintuning-Daten verfügen, sondern vielleicht nur Daten in einer Sprache haben, könnte sich der Ansatz von Reimers und Gurevych [2] lohnen. Das Paper erklärt, wie man die Fähigkeiten eines bestehenden Embedding-Modells auf neue Sprachen mit einem Trainingsziel erweitert, das gleichwertige Embeddings in allen Sprachen anstrebt (d. h. „Strong Alignment“).
Referenzen:
[1] „LAReQA: Language-agnostic answer retrieval from a multilingual pool“ https://arxiv.org/abs/2004.05484
[2] „Making Monolingual Sentence Embeddings Multilingual using Knowledge Distillation“ https://arxiv.org/pdf/2004.09813