Colour atau Color dan Mengapa Terjemahan AI Tanpa Konteks Tidak Berguna

Ada dokumen yang duduk di folder bersama di suatu tempat yang seharusnya menjadi deskripsi produk untuk audiens Inggris. Teks asli ditulis dalam bahasa Jerman, diterjemahkan ke dalam bahasa Inggris menggunakan salah satu alat terjemahan online utama, dan dikirimkan ke tim pemasaran. Awalnya terlihat baik. Tata bahasa benar, kalimat mengalir dengan wajar, dan artinya terjaga. Kemudian seseorang di London membenderanya. Dokumen menggunakan "color" bukan "colour," "organize" bukan "organise," "center" bukan "centre," dan "analyze" bukan "analyse." Setiap pilihan ejaan mengikuti konvensi Amerika. Untuk dokumen yang ditujukan kepada pelanggan Inggris, diterbitkan di domain .co.uk, ini tidak dapat diterima.

Bagian yang membuat frustrasi bukanlah bahwa terjemahannya salah. Bagian yang membuat frustrasi adalah tidak ada cara untuk memberitahu alat versi bahasa Inggris mana yang akan dihasilkan. Google Translate memiliki satu opsi: Inggris. DeepL memiliki satu opsi: Inggris. Keduanya tidak menanyakan apakah target adalah pembaca di Manchester atau pembaca di Manhattan. Output dihasilkan, varian dipilih oleh pola apa pun yang paling banyak muncul dalam data pelatihan, dan pengguna harus menemukan dan mengganti setiap instance ejaan Amerika dalam dokumen yang seharusnya Inggris sejak awal.

Ini mungkin terdengar seperti keluhan kecil. Perbedaan ejaan antara Inggris Britania dan Inggris Amerika didokumentasikan dengan baik dan relatif dapat diprediksi. Namun perbedaannya jauh melampaui pertukaran "ou" untuk "o" dan "ise" untuk "ize." Kosa kata berbeda secara signifikan. "Boot" adalah bagasi. "Bonnet" adalah kap mesin. "Trousers" adalah celana, tetapi "pants" adalah pakaian dalam. "Biscuits" adalah kue. "Chips" adalah kentang goreng, tetapi "crisps" adalah keripik. "Flat" adalah apartemen. "First floor" sebenarnya adalah lantai kedua. Perbedaan kosa kata ini dapat benar-benar membingungkan pembaca ketika varian yang salah muncul dalam teks yang ditulis dengan baik.

Bagi siapa pun yang mengelola konten multibahasa, terutama situs web, aplikasi, atau materi pemasaran yang perlu ada dalam bahasa Inggris Britania dan Amerika, kurangnya kontrol varian dalam alat terjemahan menciptakan pekerjaan nyata. Setiap dokumen yang diterjemahkan memerlukan lintasan tinjauan manual khusus untuk menangkap dan mengoreksi ketidaksesuaian varian. Lintasan tinjauan itu membutuhkan waktu, menghabiskan uang, dan sepenuhnya dapat dihindari jika alat terjemahan cukup tahu varian mana yang harus dihasilkan.

Bahasa yang Sama, Konvensi Berbeda, Kontrol Nol

Bahasa Inggris Britania dan Amerika bukan satu-satunya pasangan dengan masalah ini, meskipun mereka adalah yang paling sering ditemui. Portugis terbagi menjadi Portugis Brasil dan Portugis Eropa, dengan perbedaan ejaan, tata bahasa, kosa kata, dan bahkan penggunaan kata ganti yang cukup signifikan untuk membuat teks terasa asing bagi pembaca varian lainnya. Spanyol bervariasi antara konvensi Amerika Latin dan Semenanjung, dengan bentuk verba, slang, dan kosa kata yang berbeda secara substansial. Prancis memiliki konvensi yang berbeda di Prancis, Kanada, Belgia, dan berbagai negara Afrika. Cina terbagi antara karakter yang disederhanakan dan tradisional, yang bukan hanya perbedaan ejaan tetapi sekumpulan karakter yang sama sekali berbeda.

Dalam masing-masing kasus ini, menghasilkan varian yang salah bukanlah masalah kosmetik kecil. Pembaca Brasil yang menemui ejaan Portugis Eropa dalam deskripsi produk akan segera memperhatikannya. Ini menciptakan rasa jarak, seolah-olah perusahaan tidak peduli untuk melokalisasi dengan benar. Bagi bisnis yang mencoba membangun kepercayaan di pasar regional tertentu, ketidaksesuaian semacam ini merusak seluruh upaya. Konten mungkin sama baiknya jika dibiarkan tidak diterjemahkan jika terjemahan memberi sinyal "kami sebenarnya tidak mengenal pasar Anda."

Panduan tentang konversi antara Inggris Amerika dan Britania di YEB mencakup pengaturan spesifik yang terlibat. Di YEB Translate, varian bahasa adalah salah satu dari 22 pengaturan bahasa yang tersedia dalam sistem konteks. Ketika Inggris dipilih sebagai bahasa target, pengguna dapat menentukan varian Amerika, Britania, Australia, atau regional lainnya. Model AI menerima preferensi ini sebagai bagian dari string konteks dan menghasilkan output yang secara konsisten menggunakan konvensi ejaan yang benar, pilihan kosa kata, dan ekspresi idiomatis untuk varian itu. Tidak diperlukan lintasan pengeditan ulang.

Mekanisme yang sama bekerja untuk setiap pasangan bahasa yang memiliki varian regional. Portugis Brasil vs. Eropa. Spanyol Amerika Latin vs. Semenanjung. Cina Disederhanakan vs. Tradisional. Prancis Kanada vs. Metropolitan. Pengaturan dibuat sekali, bertahan di seluruh sesi, dan berlaku untuk setiap bagian teks yang diproses selama sesi itu. Bagi tim konten yang menangani lokalisasi dalam skala besar, ini menghilangkan seluruh kategori pekerjaan jaminan kualitas.

Mengapa Bias Data Pelatihan Membuat Ini Lebih Buruk Daripada Kelihatannya

Alasan sebagian besar alat terjemahan default ke Inggris Amerika sangat jelas: internet berisi lebih banyak teks Inggris Amerika daripada teks Inggris Britania. Data pelatihan untuk model AI sebagian besar bersumber dari konten web, dan konten web didominasi oleh publikasi Amerika, perusahaan Amerika, dan teks yang dibuat pengguna Amerika. Ketika model AI belajar apa yang terlihat seperti "benar" dalam bahasa Inggris, model itu belajar dari corpus yang condong ke Amerika secara default.

Bias ini tidak disengaja, tetapi bersifat persisten. Bahkan ketika alat terjemahan diperbarui dengan model yang lebih baru, distribusi data yang mendasarinya tidak berubah. Inggris Amerika tetap menjadi varian mayoritas dalam corpora pelatihan, yang berarti output default terus condong ke Amerika terlepas dari apakah pengguna memerlukan varian Britania, Australia, Afrika Selatan, atau varian lainnya. Model tidak memilih Inggris Amerika karena lebih baik. Model itu memilihnya karena model itu telah melihat lebih banyak dari itu.

Bagi pengguna yang menerjemahkan ke bahasa Inggris dari bahasa lain, ini menciptakan masalah yang tidak terlihat. Output terlihat benar karena secara tata bahasa benar. Kalimat masuk akal. Kosa kata sesuai. Tetapi varian salah untuk audiens yang dituju, dan kecuali pengguna cukup akrab dengan kedua varian untuk menangkap setiap perbedaan, ketidaksesuaian terlewat. Manajer pemasaran Jerman yang menerjemahkan salinan produk untuk pasar Inggris mungkin tidak memperhatikan bahwa "aluminum" harus "aluminium" atau bahwa "skeptical" harus "sceptical." Ini bukan kesalahan yang ditandai oleh pemeriksa tata bahasa karena kedua ejaan valid. Mereka hanya valid di negara yang berbeda.

Sistem konteks di penerjemah AI YEB memperlakukan varian bahasa sebagai pengaturan kelas satu daripada pemikiran setelahnya. Ini penting karena model AI menyesuaikan bukan hanya ejaan tetapi pilihan kosa kata, pemilihan idiom, dan bahkan struktur kalimat berdasarkan varian. Inggris Britania cenderung ke arah konstruksi yang sedikit lebih formal dalam penulisan bisnis. Inggris Amerika menggunakan frasa yang lebih langsung. Inggris Australia memiliki register informal sendiri yang berbeda dari keduanya. Ini adalah perbedaan halus yang pembicara asli manusia menghasilkan secara tidak sadar, dan bahwa model AI hanya dapat mereproduksi ketika diberitahu varian mana yang akan ditargetkan.

Biaya Nyata Mendapatkan Varian yang Salah

Untuk email pribadi, tidak ada yang peduli apakah "colour" atau "color" muncul. Untuk konten yang dipublikasikan, taruhannya berbeda. Situs web .co.uk yang menggunakan ejaan Amerika di seluruh terlihat tidak sempurna. Situs web .com yang menargetkan pembaca Australia dengan ejaan Britania terlihat sedikit aneh. Ini bukan kegagalan dramatis. Mereka adalah potongan kertas yang menumpuk dan menciptakan kesan umum kecerobohan.

Di industri yang diatur, konsistensi varian dapat menjadi masalah kepatuhan. Dokumen hukum di Inggris mengikuti konvensi Britania. Literatur medis untuk NHS menggunakan terminologi Britania. Publikasi pemerintah mengikuti panduan gaya ketat yang menentukan penggunaan varian hingga kata-kata individual. Menyerahkan dokumen yang diterjemahkan yang menggunakan varian yang salah dalam konteks ini bukan hanya ceroboh. Ini dapat memicu penolakan atau permintaan revisi yang menunda seluruh proyek.

Perbandingan dengan DeepL menyoroti ini sebagai salah satu area spesifik di mana alat terjemahan tujuan umum gagal. DeepL menghasilkan terjemahan yang sangat baik dalam hal kefasihan dan akurasi, tetapi sampai baru-baru ini tidak menawarkan cara untuk menentukan varian Inggris mana yang akan dihasilkan. Pengguna yang membutuhkan Inggris Britania harus menerima apa yang diberikan model kepada mereka atau menjalankan langkah konversi terpisah setelahnya. Batasan yang sama ada di semua alat terjemahan AI utama di pasar.

Yang membuat pendekatan konteks berbeda adalah bahwa pemilihan varian terjadi sebelum terjemahan, bukan sesudahnya. Model AI tidak menghasilkan teks Inggris Amerika dan kemudian mengubahnya ke Britania. Model itu menghasilkan teks Inggris Britania dari awal, memilih kata-kata yang tepat, ejaan yang tepat, dan konstruksi yang tepat dari kalimat pertama pun. Ini adalah pendekatan yang sangat berbeda dari pemrosesan pencarian-dan-ganti setelahnya, dan itu menghasilkan hasil yang terasa alami dalam varian target daripada terasa seperti teks Amerika dengan lapisan Britania yang tipis.

Pertanyaan yang Sering Diajukan

Dapatkah Google Translate menghasilkan Inggris Britania secara khusus

Google Translate menawarkan "English" sebagai bahasa target tunggal tanpa membedakan antara varian Britania, Amerika, Australia, atau lainnya. Output biasanya mengikuti konvensi Amerika karena data pelatihan model berisi lebih banyak Inggris Amerika. Tidak ada pengaturan untuk meminta Inggris Britania secara khusus, jadi pengguna yang membutuhkannya harus meninjau dan mengoreksi output secara manual.

Apa saja perbedaan utama antara kosa kata Inggris Britania dan Amerika

Melampaui perbedaan ejaan seperti "colour" vs "color" dan "organise" vs "organize," perbedaan kosa kata termasuk kata-kata sehari-hari. "Boot" Britania adalah "trunk" Amerika. "Lift" Britania adalah "elevator" Amerika. "Pavement" Britania adalah "sidewalk" Amerika. "Flat" Britania adalah "apartment" Amerika. Perbedaan-perbedaan ini mempengaruhi teks yang diterjemahkan karena model AI harus memilih satu versi, dan tanpa konteks, model itu memilih mana pun yang muncul lebih sering dalam data pelatihan.

Apakah ada alat gratis untuk menerjemahkan teks online dalam bahasa Inggris Britania

YEB Translate beroperasi pada model kredit bayar per penggunaan di mana kredit hanya dikonsumsi ketika teks diproses. Pengaturan varian bahasa, termasuk Inggris Britania, tersedia pada setiap permintaan terjemahan tanpa tingkat premium atau biaya tambahan apa pun.

Bagaimana terjemahan yang menyadari konteks menangani varian bahasa regional

Terjemahan yang menyadari konteks mencakup varian bahasa sebagai salah satu pengaturannya. Sebelum model AI memproses teks sumber, model itu menerima informasi tentang varian regional mana yang akan digunakan dalam output. Ini mempengaruhi ejaan, kosa kata, idiom, dan bahkan struktur kalimat. Model menghasilkan teks secara native dalam varian yang diminta daripada menerjemahkan ke varian default dan mengonversi setelahnya.

Apa alternatif Google Translate terbaik untuk terjemahan yang akurat

Akurasi bergantung pada kebutuhan spesifik. Untuk bahasa Eropa dengan persyaratan kelancaran tinggi, DeepL adalah opsi yang kuat. Untuk terjemahan yang menyadari konteks yang perlu memperhitungkan gender, formalitas, terminologi industri, dan varian regional, penerjemah AI YEB menyediakan kontrol yang tidak dimiliki alat lain. Perbandingan lengkap alat terjemahan AI memecah kekuatan dan batasan di seluruh opsi utama.

Apakah Inggris Britania vs Amerika penting untuk SEO

Ya. Perilaku pencarian berbeda antar wilayah. Pengguna Inggris mencari "colour palette" sementara pengguna AS mencari "color palette." Menggunakan varian yang salah berarti konten mungkin tidak cocok dengan istilah pencarian audiens yang dituju. Untuk situs web yang menargetkan pasar berbahasa Inggris tertentu, penggunaan konsisten dari varian yang benar meningkatkan kepercayaan pengguna dan relevansi pencarian.