会話は順調に進んでいました。ソフトウェアプロジェクトについてのカジュアルなチャットで、異なる言語を話す開発者同士の間で毎日何十回も行われるような気軽なやり取りでした。相手はロシア人で、メッセージは英語で入力され、Google翻訳がすべてをリアルタイムでロシア語に変換する重労働を担っていました。約10通のメッセージの間、すべてがスムーズに感じられました。そして突然、ロシア人が大まかに訳すと「ちょっと待って、あなたは男性ですか、女性ですか?」という内容を書きました。その質問は奇妙に思えました。会話の中で性別に関するものは何もありませんでした。プロフィール写真の曖昧さも、名前の混乱もありません。話題はデータベース構造でした。それにもかかわらず、相手の視点からすると、その質問は完全に理にかなっていたのです。

ロシア語は文法的性を持つ言語です。過去形の動詞、形容詞、さらには一部の名詞は、話者の文法的性に応じて形が変わります。ロシア語で「私はした」と書くとき、動詞の語尾が読者に話者が男性か女性かを伝えます。Google翻訳は、誰が入力しているかについてのコンテキストがゼロの状態で作業し、すべてのメッセージに女性形の動詞形を選択していました。ロシア語の読者にとっては、まさに女性が書いているように見えました。実際の話者は男性でした。翻訳ツールにはそれを知る方法がありませんでした。誰もそれを伝えなかったし、聞くこともなかったからです。

これは些細な文体の癖ではありませんでした。会話全体のトーンが変わりました。ロシア語における文法的性は任意の装飾ではありません。過去形で話者に言及するほぼすべての文の構造に組み込まれています。「私は店に行った」と言うのは、男性が行ったか女性が行ったかによって異なる単語を使います。「私は疲れていた」も変わります。「私はプロジェクトを完了した」も変わります。一人称過去形のすべての発言が会話全体を通じて間違った身元を発信しており、ロシア人の参加者は翻訳の出力が正しいと単純に仮定していたのです。

その瞬間がきっかけでした。一つの誤訳への苛立ちではなく、地球上で最も広く使われている翻訳ツールが話者の性別のような基本的なことを知るためのメカニズムを全く持っていないという認識でした。聞きません。推測しません。デフォルトを選んで先に進み、完全に間違っている可能性のある結論を読者に委ねるのです。解決策はより良いアルゴリズムではありませんでした。解決策はコンテキストでした。