Irgendwo in einem gemeinsamen Ordner liegt ein Dokument, das eine Produktbeschreibung für ein UK-Publikum sein sollte. Der Text wurde ursprünglich auf Deutsch geschrieben, mit einem der großen Online-Übersetzungstools ins Englische übersetzt und dem Marketing-Team geliefert. Auf den ersten Blick sah es gut aus. Die Grammatik war korrekt, die Sätze flossen angemessen und die Bedeutung blieb erhalten. Dann meldete sich jemand aus London. Das Dokument verwendete "color" statt "colour", "organize" statt "organise", "center" statt "centre" und "analyze" statt "analyse". Jede einzelne Schreibweise folgte amerikanischen Konventionen. Für ein Dokument, das auf britische Kunden ausgerichtet ist und auf einer .co.uk-Domain veröffentlicht wird, war dies nicht akzeptabel.
Das Frustrierende war nicht, dass die Übersetzung falsch war. Das Frustrierende war, dass es keine Möglichkeit gab, dem Tool zu sagen, welche Version des Englischen produziert werden sollte. Google Translate hat eine einzige Option: Englisch. DeepL hat eine einzige Option: Englisch. Keines fragt, ob das Ziel ein Leser in Manchester oder ein Leser in Manhattan ist. Die Ausgabe wird generiert, die Variante wird nach dem Muster gewählt, das in den Trainingsdaten am häufigsten vorkommt, und der Benutzer muss manuell jede Instanz der amerikanischen Schreibweise in einem Dokument suchen und ersetzen, das von Anfang an britisch sein sollte.
Das mag wie eine kleinliche Beschwerde klingen. Schreibweise-Unterschiede zwischen britischem und amerikanischem Englisch sind gut dokumentiert und relativ vorhersehbar. Aber die Unterschiede gehen weit über das Austausch von "ou" gegen "o" und "ise" gegen "ize" hinaus. Der Wortschatz divergiert erheblich. Ein "boot" ist ein Kofferraum. Eine "bonnet" ist eine Motorhaube. "Trousers" sind Hosen, aber "pants" sind Unterwäsche. "Biscuits" sind Kekse. "Chips" sind Pommes frites, aber "crisps" sind Chips. Eine "flat" ist eine Wohnung. Der "first floor" ist tatsächlich der zweite Flur. Diese Wortschatz-Unterschiede können Leser wirklich verwirren, wenn die falsche Variante in einem ansonsten gut geschriebenen Text erscheint.
Für jeden, der mehrsprachige Inhalte verwaltet, besonders Websites, Apps oder Marketingmaterialien, die in britischem und amerikanischem Englisch existieren müssen, schafft die mangelnde Varianten-Kontrolle in Übersetzungstools echte Arbeit. Jedes übersetzte Dokument benötigt einen manuellen Überprüfungsdurchgang, um speziell Varianten-Unstimmigkeiten zu fangen und zu korrigieren. Dieser Überprüfungsdurchgang kostet Zeit, kostet Geld und ist völlig vermeidbar, wenn das Übersetzungstool einfach weiß, welche Variante produziert werden soll.
Gleiche Sprache, unterschiedliche Konventionen, keine Kontrolle
Britisches und amerikanisches Englisch sind nicht das einzige Paar mit diesem Problem, obwohl sie das am häufigsten angetroffene sind. Portugiesisch spaltet sich in brasilianisches Portugiesisch und europäisches Portugiesisch, mit Unterschieden in Schreibweise, Grammatik, Wortschatz und sogar Pronomengebrauch, die signifikant genug sind, um Text fremd für Leser der anderen Variante klingen zu lassen. Spanisch variiert zwischen lateinamerikanischen und pyrenäischen Konventionen, mit Verbformen, Slang und Wortschatz, die erheblich unterschiedlich sind. Französisch hat unterschiedliche Konventionen in Frankreich, Kanada, Belgien und verschiedenen afrikanischen Nationen. Chinesisch spaltet sich in vereinfachte und traditionelle Zeichen, was nicht nur ein Schreibweise-Unterschied ist, sondern ein ganz anderer Zeichensatz.
In jedem dieser Fälle ist die Produktion der falschen Variante nicht nur ein kosmetisches Problem. Ein brasilianischer Leser, der europäische portugiesische Schreibweise in einer Produktbeschreibung findet, wird dies sofort bemerken. Es schafft ein Gefühl der Distanz, als hätte sich das Unternehmen nicht genug Mühe gegeben, um richtig zu lokalisieren. Für Unternehmen, die versuchen, Vertrauen in spezifischen Regionalmärkten aufzubauen, untergräbt diese Art von Unstimmigkeit den gesamten Aufwand. Der Inhalt hätte genauso gut unübersetzt bleiben können, wenn die Übersetzung signalisiert "wir kennen deinen Markt nicht wirklich".
Der Leitfaden zum Konvertieren zwischen amerikanischem und britischem Englisch auf YEB behandelt die beteiligten spezifischen Einstellungen. In YEB Translate ist die Sprachvariante eine von 22 Spracheinstellungen, die im Kontextsystem verfügbar sind. Wenn Englisch als Zielsprache ausgewählt wird, kann der Benutzer amerikanische, britische, australische oder andere regionale Varianten angeben. Das KI-Modell erhält diese Präferenz als Teil der Kontextzeichenkette und produziert Ausgaben, die konsistent die richtigen Schreibweise-Konventionen, Wortschatz-Wahlmöglichkeiten und idiomatischen Ausdrücke für diese Variante verwenden. Kein Nachbearbeitungsdurchgang erforderlich.
Der gleiche Mechanismus funktioniert für jedes Sprachenpaar, das regionale Varianten aufweist. Brasilianisches vs. europäisches Portugiesisch. Lateinamerikanisches vs. pyrenäisches Spanisch. Vereinfachtes vs. traditionelles Chinesisch. Kanadisches vs. metropolitanes Französisch. Die Einstellung wird einmal vorgenommen, bleibt über die Sitzung bestehen und gilt für jeden während dieser Sitzung verarbeiteten Text. Für Content-Teams, die Lokalisierung in großem Maßstab handhaben, beseitigt dies eine gesamte Kategorie von Qualitätssicherungsarbeiten.
Warum Training-Daten-Voreingenommenheit dies schlimmer macht als es erscheint
Der Grund, warum die meisten Übersetzungstools auf amerikanisches Englisch zurückgreifen, ist einfach: Das Internet enthält mehr amerikanischen Englisch-Text als britischen Englisch-Text. Trainingsdaten für KI-Modelle werden überwiegend aus Web-Inhalten bezogen, und Web-Inhalte werden von amerikanischen Publikationen, amerikanischen Unternehmen und amerikanischem nutzer-generierten Text dominiert. Wenn ein KI-Modell lernt, wie "korrektes" Englisch aussieht, lernt es aus einem Korpus, der standardmäßig nach Amerika schief ist.
Diese Verzerrung ist nicht beabsichtigt, aber sie ist beständig. Selbst wenn Übersetzungstools mit neueren Modellen aktualisiert werden, hat sich die zugrunde liegende Datenverteilung nicht geändert. Amerikanisches Englisch bleibt die Mehrheitsvariante in Trainingskorpora, was bedeutet, dass die Standard-Ausgabe unabhängig davon, ob der Benutzer britisches, australisches, südafrikanisches oder eine andere Variante benötigt, weiterhin amerikanisch zuneigt. Das Modell wählt nicht amerikanisches Englisch, weil es besser ist. Es wählt es, weil es mehr davon gesehen hat.
Für Benutzer, die von anderen Sprachen ins Englische übersetzen, schafft dies ein unsichtbares Problem. Die Ausgabe sieht korrekt aus, weil sie grammatikalisch korrekt ist. Die Sätze ergeben Sinn. Der Wortschatz ist angemessen. Aber die Variante ist für die beabsichtigte Zielgruppe falsch, und wenn der Benutzer nicht vertraut genug mit beiden Varianten ist, um jeden Unterschied zu erkennen, rutscht die Unstimmigkeit durch. Ein deutscher Marketing-Manager, der Produktkopie für den UK-Markt übersetzt, bemerkt möglicherweise nicht, dass "aluminum" "aluminium" sein sollte oder dass "skeptical" "sceptical" sein sollte. Dies sind keine Fehler, die Grammar-Checker kennzeichnen, da beide Schreibweisen gültig sind. Sie sind nur in verschiedenen Ländern gültig.
Das Kontextsystem in YEBs KI-Übersetzer behandelt die Sprachvariante als eine erstklassige Einstellung statt als Nachgedanke. Dies ist wichtig, weil das KI-Modell nicht nur die Schreibweise, sondern auch die Wortschatz-, Redewendungs- und sogar Satzstruktur-Auswahl basierend auf der Variante anpasst. Britisches Englisch neigt in der Geschäftsschrift zu etwas formelleren Konstruktionen. Amerikanisches Englisch verwendet direktere Formulierungen. Australisches Englisch hat sein eigenes informelles Register, das sich von beiden unterscheidet. Dies sind subtile Unterschiede, die ein menschlicher Muttersprachler unbewusst produziert und die ein KI-Modell nur reproduzieren kann, wenn ihm gesagt wird, welche Variante zu verwenden ist.
Die echten Kosten, die Variante falsch zu bekommen
Für eine persönliche E-Mail kümmert sich niemand, ob "colour" oder "color" auftritt. Für veröffentlichte Inhalte sind die Einsätze unterschiedlich. Eine .co.uk-Website, die durchgehend amerikanische Schreibweisen verwendet, sieht ungepflegt aus. Eine .com-Website, die auf australische Leser mit britischer Schreibweise abzielt, sieht etwas falsch aus. Dies sind keine dramatischen Ausfälle. Sie sind Papierschnitte, die sich akkumulieren und einen allgemeinen Eindruck von Unachtsamkeit erzeugen.
In regulierten Industrien kann Varianten-Konsistenz ein Compliance-Problem sein. Rechtliche Dokumente im Vereinigten Königreich folgen britischen Konventionen. Medizinische Literatur für den NHS verwendet britische Terminologie. Regierungsveröffentlichungen folgen strikten Stilführern, die die Variantenverwendung bis zu einzelnen Worten angeben. Ein übersetzte Dokument einreichen, das die falsche Variante in diesen Kontexten verwendet, ist nicht nur schlampig. Es kann Ablehnungs- oder Überarbeitungsanfragen auslösen, die gesamte Projekte verzögern.
Der Vergleich mit DeepL hebt dies als einen der spezifischen Bereiche hervor, in denen allgemeine Übersetzungstools zu kurz kommen. DeepL produziert ausgezeichnete Übersetzungen in Bezug auf Geläufigkeit und Genauigkeit, aber bot bis vor kurzem keine Möglichkeit, welche englische Variante produziert werden soll. Benutzer, die britisches Englisch benötigten, mussten entweder akzeptieren, was das Modell ihnen gab, oder danach einen separaten Konversionschritt ausführen. Die gleiche Einschränkung existiert in den meisten der großen KI-Übersetzungstools auf dem Markt.
Was den Kontextsatz unterscheidet, ist, dass die Variantenauswahl vor der Übersetzung passiert, nicht danach. Das KI-Modell produziert nicht amerikanischen Englisch-Text und konvertiert ihn dann ins Britische. Es produziert britischen Englisch-Text von Anfang an und wählt die richtigen Wörter, die richtigen Schreibweisen und die richtigen Konstruktionen vom allerersten Satz an. Dies ist ein grundlegend anderer Ansatz als der Suche-und-Ersetzen-Nachbearbeitung und erzeugt Ergebnisse, die sich natürlich in der Zielvariante lesen, statt sich anzufühlen wie amerikanischer Text mit einer dünnen britischen Lackschicht.