どこかの共有フォルダに保存されているドキュメントがあります。それはイギリスの視聴者向けの製品説明として作成されるはずでした。テキストは元々ドイツ語で書かれ、主要なオンライン翻訳ツールの1つを使用して英語に翻訳され、マーケティングチームに配信されました。最初は良さそうに見えました。文法は正しく、文はかなりうまく流れ、意味は保持されていました。その後、ロンドンの誰かがそれにフラグを立てました。ドキュメントは「color」の代わりに「colour」を使用し、「organize」の代わりに「organise」を、「center」の代わりに「centre」を、「analyze」の代わりに「analyse」を使用していました。すべてのスペル選択はアメリカの慣習に従っていました。イギリスの顧客を対象とした、.co.ukドメインで公開されるドキュメントの場合、これは許容されません。

イライラした部分は、翻訳が間違っていることではありませんでした。イライラした部分は、どのバージョンの英語を生成するかをツールに指示する方法がなかったことです。Google翻訳には単一のオプションがあります:英語。DeepLには単一のオプションがあります:英語。どちらも、ターゲットがマンチェスターの読者であるか、マンハッタンの読者であるかを尋ねません。出力が生成され、バリアントがトレーニングデータに現れたパターンによって選択され、ユーザーは最初からイギリスであることが期待されていたドキュメント内のアメリカのスペルのすべてのインスタンスを手動で検索して置換する必要があります。

これは小さな不満のように聞こえるかもしれません。イギリス英語とアメリカ英語のスペルの違いはよく文書化されており、比較的予測可能です。しかし、違いは「ou」を「o」に置き換え、「ise」を「ize」に置き換える以上に進みます。語彙は大きく異なります。「boot」はトランク(trunk)です。「bonnet」はフード(hood)です。「Trousers」はパンツですが、「pants」は下着です。「Biscuits」はクッキーです。「Chips」はフライですが、「crisps」はチップスです。「flat」はアパートです。「first floor」は実際には2階です。これらの語彙の違いは、間違ったバリアントが別のよく書かれたテキストに現れる場合、読者を本当に混乱させることができます。

多言語コンテンツを管理している人、特にイギリス英語とアメリカ英語の両方に存在する必要があるウェブサイト、アプリ、またはマーケティング資料を管理している人にとって、翻訳ツールのバリアント制御の欠如は実際の作業を生み出します。翻訳されたすべてのドキュメントは、バリアント不一致を検出して修正するために特別にレビューパスが必要です。そのレビューパスには時間がかかり、お金がかかり、翻訳ツールが単にどのバリアントを生成するかを知っていれば完全に回避可能です。

同じ言語、異なる慣習、ゼロコントロール

イギリス英語とアメリカ英語はこの問題を持つ唯一のペアではありませんが、最も一般的に遭遇するペアです。ポルトガル語はブラジルポルトガル語とヨーロッパポルトガル語に分かれており、スペル、文法、語彙、さらには代名詞の使用に違いがあり、テキストを他のバリアントの読者に外国に感じさせるのに十分です。スペイン語はラテンアメリカとイベリア半島の慣習の間で異なり、動詞形、スラング、語彙が大きく異なります。フランス語はフランス、カナダ、ベルギー、およびさまざまなアフリカ諸国で明確な慣習があります。中国語は簡体字と繁体字に分かれており、スペルの違いではなく、完全に異なる文字セットです。

これらの各ケースで、間違ったバリアントを生成することは、軽微な化粧の問題ではありません。ブラジルの読者が製品説明でヨーロッパポルトガル語のスペルに遭遇すると、すぐに気付きます。会社が特定のローカライズに十分注意を払わなかったかのような距離感を生み出します。特定の地域市場で信頼を構築しようとしているビジネスの場合、このような不一致は企業全体の努力を損なわせます。翻訳が「私たちは実際にあなたの市場を知らない」という信号を送る場合、コンテンツは翻訳されないままにされたのと同じです。

YEBでのアメリカ英語とイギリス英語の間の変換に関するガイドは、関連する特定の設定をカバーしています。YEB翻訳では、言語バリアントはコンテキストシステムで利用可能な22の言語設定の1つです。英語がターゲット言語として選択された場合、ユーザーはアメリカ、イギリス、オーストラリア、または他の地域バリアントを指定できます。AIモデルはこの設定をコンテキスト文字列の一部として受け取り、そのバリアントの正しいスペル規則、語彙選択、イディオム表現を一貫して使用する出力を生成します。編集後処理は不要です。

同じメカニズムは、地域バリアントを持つすべての言語ペアに機能します。ブラジルvsヨーロッパポルトガル語。ラテンアメリカvs半島スペイン語。簡体字vs繁体字中国語。カナダvsメトロポリタンフランス語。設定は一度行われ、セッション全体で保持され、そのセッション中に処理されるテキストの全部分に適用されます。ローカライズ規模で対応するコンテンツチームの場合、これはQAワークの全カテゴリを削除します。

トレーニングデータのバイアスがこれを見たとおりより悪い理由

ほとんどの翻訳ツールがアメリカ英語にデフォルト設定する理由は簡単です:インターネットにはイギリス英語よりもアメリカ英語テキストが多く含まれています。AIモデルのトレーニングデータは、主にウェブコンテンツから供給され、ウェブコンテンツはアメリカの出版物、アメリカの企業、アメリカのユーザー生成テキストで支配されています。AIモデルが「正しい」英語がどのように見えるかを学ぶと、デフォルトではアメリカにスキューされるコーパスから学びます。

このバイアスは意図的ではありませんが、永続的です。翻訳ツールが新しいモデルで更新された場合でも、基本的なデータ配分は変更されていません。アメリカ英語はトレーニングコーパスの多数派バリアントのままです。つまり、デフォルト出力は、ユーザーがイギリス、オーストラリア、南アフリカ、または他のバリアントを必要とするかどうかに関わらず、アメリカを傾く続けます。モデルがアメリカ英語を選んでいるのは、それが良いからではありません。それはそれをもっと見たからです。

他の言語から英語に翻訳するユーザーにとって、これは目に見えない問題を生み出します。出力は文法的に正しいため正しく見えます。文は意味があります。語彙は適切です。しかし、バリアントは意図された視聴者にとって間違っており、ユーザーが両方のバリアントに精通していない限り、すべての違いをキャッチするために、不一致は滑り落ちます。ドイツのマーケティングマネージャーは、UK市場向けの製品コピーを翻訳する場合、「aluminum」が「aluminium」であることや、「skeptical」が「sceptical」であることに気付かないかもしれません。これらは文法チェッカーがフラグを立てないエラーではありません。彼らはただ異なる国で有効です。

YEBのAI翻訳者のコンテキストシステムは、言語バリアントを事後的なものではなく、一流の設定として扱っています。これは重要です。なぜなら、AIモデルはスペルだけでなく、バリアントに基づいて語彙、成句の選択、さらには文構造を調整するからです。イギリス英語はビジネスライティングでやや正式な構成に向かう傾向があります。アメリカ英語はより直接的なフレーズを使用しています。オーストラリア英語には、どちらからも異なる独自の非公式なレジスターがあります。これらは、人間の母国語話者が無意識に生成し、AIモデルがどのバリアントをターゲットにするかを指示されたときにのみ再現できるかもしれない微妙な違いです。

バリアントを間違える実際のコスト

個人的なメールの場合、「colour」または「color」が表示されるかどうかは気になりません。公開されたコンテンツの場合、ステークスは異なります。.co.ukウェブサイトは全体を通してアメリカのスペルを使用しており、洗練されていないように見えます。.comウェブサイトはイギリスのスペルでオーストラリアの読者をターゲットにしている場合、やや外れます。これらは劇的な失敗ではありません。それらは、不注意の一般的な印象を蓄積して作成する紙の切り傷です。

規制産業では、バリアント一貫性はコンプライアンスの問題になる可能性があります。英国の法的文書はイギリスの慣習に従います。NHS医学文献はイギリスの用語を使用しています。政府の出版物は、個々の単語にバリアント使用を指定する厳密なスタイルガイドに従います。翻訳されたドキュメントをこれらのコンテキストで間違ったバリアントで送信することは、単なる不誠実ではありません。プロジェクト全体を遅延させるその他の拒否または修正リクエストを引き起こす可能性があります。

DeepLとの比較は、これを一般的な翻訳ツールが不足する特定の領域の1つとして強調しています。DeepLは流暢さと精度の面で優れた翻訳を生成しますが、最近までどの英語バリアントを生成するかを指定する方法を提供していません。イギリス英語が必要なユーザーは、モデルが与えたものを受け入れるか、その後に個別の変換ステップを実行する必要がありました。同じ制限は、市場の主要なAI翻訳ツールの大部分に存在します。

コンテキストアプローチが異なるのは、バリアント選択が翻訳後ではなく翻訳前に発生することです。AIモデルはアメリカ英語テキストを生成して英語に変換しません。それは最初から英語テキストを生成し、最初の文から正しい言葉、正しいスペル、正しい構成を選択します。これはfind-and-replace後処理とは根本的に異なるアプローチであり、アメリカのテキストが薄いイギリスのペンキのコートに感じるのではなく、ターゲットバリアントで自然に読むような結果を生成します。

よくある質問

Google翻訳は特にイギリス英語を生成できますか

Google翻訳は、イギリス、アメリカ、オーストラリア、または他のバリアントを区別せずに、ターゲット言語として「英語」を提供します。モデルのトレーニングデータに含まれるアメリカ英語が多いため、出力は通常アメリカの慣習に従います。イギリス英語を具体的にリクエストする設定がないため、ユーザーが必要とする場合は、出力を手動で確認して修正する必要があります。

イギリス英語とアメリカ英語の語彙の主な違いは何ですか

「colour」vs「color」と「organise」vs「organize」のようなスペルの違いを超えて、語彙の違いは日常の言葉を含みます。イギリスの「boot」はアメリカの「trunk」です。イギリスの「lift」はアメリカの「elevator」です。イギリスの「pavement」はアメリカの「sidewalk」です。イギリスの「flat」はアメリカの「apartment」です。これらの違いは、AIモデルが1つのバージョンを選択する必要があるため、翻訳されたテキストに影響を与え、文脈なしでは、トレーニングデータで最も多く現れたものを選びます。

イギリス英語でテキストをオンラインで翻訳する無料ツールはありますか

YEB翻訳は、テキストが処理されるときにのみクレジットが消費される、使用量当たりの支払いクレジットモデルで動作します。イギリス英語を含む言語バリアント設定は、プレミアム層または追加費用なしに、すべての翻訳リクエストで利用可能です。

文脈認識翻訳は地域言語バリアントをどのように処理しますか

文脈認識翻訳には、その設定の1つとして言語バリアントが含まれます。AIモデルがソーステキストを処理する前に、出力で使用する地域バリアントに関する情報を受け取ります。これはスペル、語彙、イディオム、さらには文構造に影響を与えます。モデルは、デフォルトバリアントに翻訳して後で変換するのではなく、要求されたバリアントでネイティブにテキストを生成します。

正確な翻訳に最適なGoogle翻訳の代替手段は何ですか

精度は特定のニーズによって異なります。高い流暢さが必要なヨーロッパ言語の場合、DeepLは強力なオプションです。性別、正式さ、業界用語、および地域バリアントを考慮する必要がある文脈認識翻訳については、YEBのAI翻訳者は、他のツールが欠けている制御を提供します。AI翻訳ツールの完全な比較は、主要なオプション全体の強度と制限を分類します。

SEOのためにイギリス英語対アメリカ英語は重要ですか

はい。検索動作は地域によって異なります。英国ユーザーは「colour palette」を検索していますが、米国ユーザーは「color palette」を検索しています。間違ったバリアントを使用することは、コンテンツが意図した視聴者の検索用語と一致しないことを意味します。特定の英語を話す市場をターゲットにしているウェブサイトの場合、正しいバリアントの一貫した使用は、ユーザーの信頼と検索の関連性の両方を向上させます。