Sepuluh Kategori Konteks Yang Mengubah Terjemahan Di Luar Pengakuan
Ambil ayat Inggeris yang mudah: "We need to close this quickly." Sekarang terjemahkan ke dalam Bahasa Jerman. Tanpa konteks apa pun, alat terjemahan akan menghasilkan sesuatu yang generik dan betul dari segi teknikal. Pilihan kata kerja akan bersifat neutral, formaliti akan berada di suatu tempat di tengah-tengah, dan nada akan datar. Sekarang tambahkan konteks: ini adalah pasukan undang-undang yang membincangkan rundingan kontrak. Output Jerman berubah. "Close" menjadi istilah undang-undang khusus untuk menutup perjanjian. Formaliti beralih ke daftar formal. Kesegeraan yang tersirat oleh "quickly" dinyatakan melalui kosa kata yang sebenarnya akan digunakan oleh seorang peguam Jerman. Teks sumber yang sama, output yang sama sekali berbeza.
Sekarang ubah konteks sekali lagi. Ayat yang sama, tetapi kali ini datang dari pasukan pembangunan perisian yang membincangkan menutup tiket pepijat. Terjemahan Jerman berubah sekali lagi. "Close" kini memetakan ke istilah teknikal yang digunakan dalam alat pengurusan projek. Daftar turun ke semi-formal. Kosa kata sejajar dengan cara pangunangi Jerman sebenarnya bercakap dalam standup dan saluran Slack. Ayat itu masih bermakna sama dalam Bahasa Inggeris. Versi Jerman itu tidak kelihatan serupa sama sekali, dan tidak sepatutnya, kerana mereka menggambarkan situasi yang sama sekali berbeza.
Ini adalah masalah teras dengan terjemahan bebas konteks. Teks sumber adalah berambiguiti, dan penterjemah menyelesaikan ambiguiti itu dengan meneka. Kadang-kadang tekaan itu betul. Selalunya ia menghasilkan output yang betul dari segi tatabahasa tetapi berseberangan secara semantik, teks yang secara teknikal mengatakan perkara yang betul tetapi mengatakannya dengan cara yang tidak akan pernah digunakan oleh penutur asli dalam situasi tertentu itu. Sepuluh kategori konteks dalam YEB Translate wujud khusus untuk menghapuskan tekaan ini. Setiap satu memberikan model AI dengan maklumat yang diperlukan untuk membuat pilihan yang lebih baik, dan bersama-sama mereka mengubah output mesin yang generik menjadi teks yang dibaca seolah-olah ditulis oleh seseorang yang benar-benar memahami situasi itu.
Industri, Penonton, dan Tujuan
Tiga kategori pertama membentuk asas bagi mana-mana konteks terjemahan. Industri memberitahu model bidang apa yang dimiliki teks, yang secara langsung mengawal pemilihan kosa kata teknikal. Perkataan seperti "protocol" dalam konteks perubatan memicu kosa kata yang sama sekali berbeza daripada "protocol" dalam konteks rangkaian atau konteks diplomatik. Tanpa tetapan industri, model memilih makna mana pun yang paling kerap dilihat dalam data latihan, yang untuk "protocol" biasanya lalai kepada teknologi. Tetapkan industri ke penjagaan kesihatan, dan output secara automatik menggunakan terminologi perubatan yang betul.
Penonton menentukan siapa yang akan membaca teks yang diterjemahkan. Dokumen teknikal yang ditujukan kepada jurutera menggunakan kosa kata yang berbeza dan menganggap pengetahuan latar belakang yang berbeza daripada maklumat yang sama ditulis untuk penonton umum. Perihalan produk untuk pengguna menggunakan bahasa yang lebih mudah dan kerangka persuasif yang lebih banyak daripada dokumen spesifikasi dalaman untuk pasukan pembangunan. Kategori penonton tidak mengubah apa yang dikatakan. Ia mengubah cara ia dikatakan, melaraskan kerumitan, ketumpatan jargon, dan pengetahuan yang diandaikan untuk memadankan tahap yang dijangkakan pembaca.
Tujuan menangkap niat di sebalik teks. Adakah ini kandungan bermaklumat yang bertujuan untuk mendidik? Kandungan persuasif yang bertujuan untuk menjual? Kandungan arahan yang bertujuan untuk membimbing? Kandungan undang-undang yang bertujuan untuk mengikat? Setiap tujuan mengaktifkan corak linguistik yang berbeza dalam output. Teks persuasif dalam Bahasa Jerman menggunakan struktur ayat yang berbeza daripada teks bermaklumat. Perancis undang-undang mengikuti konvensyen yang sama sekali tidak hadir dalam Perancis percakapan. Kategori tujuan memberitahu model bukan hanya apa yang dikatakan oleh teks, tetapi apa yang cuba dicapainya, dan output mencerminkan niat itu dalam bahasa sasaran.
Tiga kategori ini sahaja menghasilkan output yang sangat berbeza apabila berbeza-beza. Ayat tentang "improving performance" yang diterjemahkan untuk penonton penjagaan kesihatan dengan tujuan bermaklumat menghasilkan bahasa klinikal yang terukur. Ayat yang sama diterjemahkan untuk penonton pemasaran dengan tujuan persuasif menghasilkan bahasa yang dinamik dan berfokus manfaat. Halaman ciri penterjemah AI menunjukkan contoh perbandingan sisi demi sisi perbezaan ini untuk sesiapa yang ingin melihat kontras terlebih dahulu.
Formaliti, Daftar, dan Nada
Formaliti mungkin kategori yang paling berdampak serta-merta, terutamanya untuk bahasa dengan sistem alamat formal dan tidak formal. Menetapkan formaliti ke tahap satu menghasilkan output santai dan disingkatkan yang dibaca seperti mesej teks antara rakan. Menetapkan ke tahap lima menghasilkan output tepat dan berstruktur yang dibaca seperti kontrak undang-undang atau surat rasmi kerajaan. Panduan tentang penggubahan semula untuk profesionalisme menerokai bagaimana formaliti berinteraksi dengan penggubahan semula, tetapi dalam terjemahan, kesannya lebih ketara kerana banyak bahasa mempunyai kosa kata dan struktur tatabahasa yang terpisah sama sekali untuk tahap formaliti yang berbeza.
Bahasa Jepun adalah contoh yang paling dramatik. Perbezaan antara Bahasa Jepun santai dan Bahasa Jepun formal sangat signifikan sehingga ayat pada tahap formaliti satu mungkin hanya berkongsi akar kata kerja dengan setara tahap limanya. Setiap berakhiran kata kerja berubah. Kata ganti ganti berubah. Zarah berubah. Awalan kehormatan muncul atau hilang. Alat terjemahan yang tidak mengambil kira formaliti dalam Bahasa Jepun pada asasnya menghasilkan output rawak pada spektrum formaliti, yang bermakna lebih kurang separuh masa hasilnya akan tidak sesuai santai untuk konteks perniagaan atau sangat kaku untuk perbualan yang mesra.
Daftar beroperasi bersama formaliti tetapi tidak identik dengannya. Daftar menggambarkan variasi linguistik yang digunakan dalam konteks sosial tertentu. Daftar akademik, daftar teknikal, daftar jurnalistik, daftar sastera. Masing-masing mempunyai konvensi tersendiri untuk struktur ayat, kosa kata, dan peranti retorik. Teks yang diterjemahkan dalam daftar akademik menggunakan pembinaan pasif, bahasa pagar, dan frasa mesra petikan. Teks yang sama dalam daftar jurnalistik menggunakan suara aktif, ayat yang lebih pendek, dan atribusi langsung. Formaliti mengawal betapa sopan atau santai bunyinya. Daftar mengawal apa jenis teks yang terdengar seperti.
Nada menambah lapisan emosi. Neutral, optimis, mendesak, berhati-hati, empati, berkuasa. Kategori nada mempengaruhi pilihan perkataan di tahap konotasi. "The deadline is approaching" dalam nada neutral kekal datar. Dalam nada mendesak, kosa kata beralih ke arah perkataan yang menyampaikan tekanan dan kesegeraan. Dalam nada berhati-hati, ia menjadi lebih lembut, berpagar, lebih diplomatik. Nada adalah kategori yang paling langsung mempengaruhi cara pembaca merasa tentang teks, dan mendapatkannya dengan salah boleh membuat mesej yang berempati terdengar dingin atau kemas kini profesional terdengar panik.
Domain, Jantina, Varian, dan Perkara Subjek
Empat kategori yang tinggal menangani spesifik yang tidak dapat ditutup oleh enam yang pertama. Terminologi domain mengawal set kosa kata khusus mana yang ditarik oleh model. Ini lebih butir daripada industri. Dalam industri teknologi, domain mungkin pengkomputeran awan, pembangunan mudah alih, keselamatan siber, atau sains data. Masing-masing mempunyai jargon sendiri, konvensyen akronim sendiri, dan set istilah yang mempunyai makna khusus berbeza daripada penggunaan harian mereka.
Jantina penutur, seperti yang dibincangkan dalam panduan jantina Rusia, mengawal jantina tatabahasa dalam bahasa yang memerlukannya. Ini bukan pilihan untuk bahasa seperti Rusia, Arab, Ibrani, Hindi, dan banyak lagi di mana kata kerja masa lalu dan sifat mestilah bersetuju dengan jantina penutur. Menetapkan kategori ini sekali memastikan penanda jantina yang konsisten dan betul sepanjang keseluruhan output.
Varian serantau mengawal versi bahasa sasaran yang dihasilkan. Inggeris British atau Amerika. Portugis Brazil atau Eropah. Bahasa Cina yang dipermudahkan atau tradisional. Spanyol Amerika Latin atau Semenanjung. Kategori ini berfungsi dengan 22 tetapan khusus bahasa untuk memastikan output sepadan dengan konvensyen penonton serantau yang dimaksudkan, termasuk ejaan, kosa kata, dan ungkapan idiomatik. Panduan Inggeris British berbanding Amerika menutup ini dalam perincian untuk pasangan varian yang paling diminta bersama.
Perkara subjek memberikan konteks topik yang membantu menyelesaikan ambiguiti. Apabila berbilang kategori ditetapkan secara serentak, model AI menerima rentetan konteks yang kaya yang membimbing setiap keputusan yang dibuat semasa terjemahan. Gabungan kesemua sepuluh kategori, dengan 117 pilihan individu mereka, menghasilkan tapak jari konteks yang khusus cukup untuk menghasilkan terjemahan yang disesuaikan dengan situasi tepat dan bukannya penghampiran generik.
Apa Maksud 117 Pilihan Sebenarnya dalam Praktik
Nombornya terdengar besar, tetapi dalam praktik sistem direka supaya kebanyakan pengguna hanya perlu menetapkan beberapa kategori untuk sebarang tugasan. Pembangun yang menerjemahkan dokumentasi API mungkin menetapkan industri kepada teknologi, domain kepada pembangunan perisian, formaliti kepada tahap tiga, dan daftar kepada teknikal. Itu adalah empat tetapan, mungkin tiga puluh saat konfigurasi, dan terjemahan yang terhasil menggunakan terminologi teknikal yang betul, formaliti yang sesuai, dan daftar profesional sepanjang keseluruhan sesi.
Seorang profesional pemasaran yang menerjemahkan salinan kempen mungkin menetapkan industri kepada pemasaran, penonton kepada pengguna, tujuan kepada persuasif, nada kepada optimis, dan formaliti kepada tahap dua. Lima tetapan, masih di bawah seminit konfigurasi, dan setiap terjemahan dalam sesi mencerminkan pilihan tersebut. Panduan penggunaan membimbing melalui proses konfigurasi langkah demi langkah.
117 pilihan merentas sepuluh kategori tidak dimaksudkan untuk digunakan secara serentak. Mereka dimaksudkan untuk menutup julat penuh situasi yang dihadapi pengguna sebenar. Seorang penterjemah undang-undang memerlukan pilihan berbeza daripada pengurus media sosial. Seorang penyelidik perubatan memerlukan pilihan berbeza daripada pemlog perjalanan. Sistem menyediakan granulariti yang cukup untuk melayani semua kes penggunaan ini tanpa memerlukan setiap pengguna memahami setiap pilihan. Tetapkan kategori yang penting untuk tugasan yang dihadapi, tinggalkan yang lain pada lalai mereka, dan model AI menggabungkan apa pun konteks yang diterima.
Apa yang menjadikan ini secara fundamental berbeza daripada terjemahan generik ialah model tidak menghasilkan terjemahan lalai dan kemudian menyesuaikannya. Konteks membentuk output dari awal. Pilihan perkataan, struktur ayat, terminologi, daftar, dan formaliti semuanya ditentukan oleh konteks sebelum perkataan pertama terjemahan dihasilkan. Inilah sebabnya output boleh kelihatan begitu sangat berbeza dengan tetapan konteks yang berbeza. Ia bukan terjemahan yang sama sedang disesuaikan. Ia adalah terjemahan yang berbeza dihasilkan dari awal, dibimbing oleh set kekangan yang sama sekali berbeza.
Soalan Lazim
Apakah terjemahan mesin yang menghayati konteks
Terjemahan mesin yang menghayati konteks adalah pendekatan di mana model AI menerima maklumat tentang penutur, penonton, industri, tahap formaliti, nada, dan faktor lain sebelum menghasilkan terjemahan. Konteks ini membentuk pilihan perkataan, tatabahasa, dan daftar dalam output, menghasilkan terjemahan yang disesuaikan dengan situasi tertentu dan bukannya hasil satu saiz sesuai semua yang generik.
Berapa banyak tetapan konteks yang ditawarkan oleh YEB Translate
YEB Translate menyediakan 10 kategori konteks dengan 117 pilihan individu, ditambah 22 tetapan khusus bahasa dengan 78 pilihan. Kategori termasuk industri, penonton, formaliti, daftar, nada, tujuan, terminologi domain, jantina penutur, varian serantau, dan perkara subjek. Pengguna biasanya menetapkan 3 hingga 5 kategori setiap sesi.
Bolehkah tetapan konteks menghasilkan terjemahan yang lebih teruk jika ditetapkan dengan tidak betul
Menetapkan konteks yang salah boleh menolak terjemahan ke arah yang tidak sesuai. Sebagai contoh, menetapkan konteks industri perubatan untuk teks pemasaran akan memperkenalkan terminologi klinikal yang terasa tidak selaras. Walau bagaimanapun, meninggalkan tetapan pada lalai mereka hanya menghasilkan output generik, yang bersamaan dengan apa yang dihasilkan alat terjemahan lain tanpa konteks apa pun. Kes paling teruk untuk tetapan yang tidak digunakan adalah neutral, bukan berbahaya.
Adakah ada penterjemah AI percuma dengan tetapan konteks
YEB Translate menggunakan model kredit bayar-per-penggunaan dan bukannya langganan. Semua kategori konteks tersedia pada setiap permintaan tanpa peringkat premium. Kredit hanya digunakan apabila teks benar-benar diproses, dan kredit yang tidak digunakan terbawa ke depan selama-lamanya. Ini menjadikannya lebih mampu milik daripada alat langganan untuk pengguna kadang-kadang yang masih memerlukan output yang menghayati konteks.
Bagaimanakah terjemahan yang menghayati konteks dibandingkan dengan DeepL atau Google Translate
DeepL dan Google Translate menghasilkan output yang lancar tetapi menawarkan kawalan minimal ke atas konteks. Kedua-duanya tidak memberikan tetapan untuk industri, nada, jantina penutur, atau terminologi domain. Hasilnya adalah terjemahan generik yang betul secara tatabahasa tetapi mungkin menggunakan terminologi salah, formaliti yang tidak sesuai, atau bentuk berjeniskan yang tidak betul. Terjemahan yang menghayati konteks mengisi jurang ini dengan memberi model AI maklumat yang diperlukan untuk membuat pilihan yang ditargetkan. Perbandingan DeepL memecahkan ini dengan terperinci.
Adakah tetapan konteks berfungsi untuk semua pasangan bahasa
Tetapan konteks terpakai kepada mana-mana pasangan bahasa. Beberapa kategori lebih memberi kesan untuk bahasa-bahasa tertentu daripada yang lain. Jantina penutur paling penting untuk bahasa yang berjeniskan seperti Rusia dan Arab. Formaliti mempunyai kesan terkuat dalam Bahasa Jepun, Korea, dan Jerman. Varian serantau adalah penting untuk bahasa dengan perpecahan dialek besar seperti Portugis dan Cina. Sistem menyesuaikan tafsiran konteks berdasarkan bahasa sasaran.