Колір або колір і чому переклад ШІ без контексту - це марно

Десь у спільній папці лежить документ, який мав бути описом продукту для британської аудиторії. Текст був спочатку написаний німецькою мовою, перекладений англійською за допомогою одного з основних онлайн-інструментів перекладу та доставлений команді маркетингу. На перший погляд це виглядало добре. Граматика була правильною, речення текли розумно, а значення було збережено. Потім хтось у Лондоні це відзначив. Документ використовував "color" замість "colour", "organize" замість "organise", "center" замість "centre" та "analyze" замість "analyse". Кожен вибір правопису дотримувався американських угід. Для документа, спрямованого на британських клієнтів, опублікованого в домені .co.uk, це було неприйнятне.

Найнегативнішою частиною була не те, що переклад був неправильним. Найнегативнішою частиною було те, що не було можливості сказати інструменту, яку версію англійської мови виробляти. Google Translate має одну опцію: англійська. DeepL має одну опцію: англійська. Ніхто не запитує, чи читачем є людина з Манчестера чи людина з Манхеттена. Результат створюється, варіант вибирається тим, який шаблон найбільше з'явився в навчальних даних, і користувач дістає для ручного пошуку та заміни кожного разу американської правопису в документі, який повинен був бути британським від початку.

Це може звучати як дрібна скарга. Різниці в правописі між британською та американською англійською мовами добре задокументовані та відносно передбачувані. Але різниці йдуть далеко за межі заміни "ou" на "o" та "ise" на "ize". Словник істотно розходиться. "Boot" - це багажник. "Bonnet" - це капот. "Trousers" - це штани, але "pants" - це нижня білизна. "Biscuits" - це печиво. "Chips" - це картопля фрі, але "crisps" - це чіпси. "Flat" - це квартира. "First floor" - це насправді другий поверх. Ці словникові різниці можуть справді заплутати читачів, коли неправильний варіант з'являється в іншому добре написаному тексті.

Для тих, хто керує багатомовним вмістом, особливо веб-сайтами, програмами або матеріалами маркетингу, які повинні існувати як британською, так і американською англійською мовою, відсутність контролю варіанту в інструментах перекладу створює реальну роботу. Кожен перекладений документ потребує проходу ручного огляду спеціально, щоб виявити та виправити невідповідності варіантів. Цей перехід огляду займає час, коштує грошей і це цілком можна уникнути, якби інструмент перекладу просто знав, який варіант виробляти.

Одна мова, різні угоди, нульовий контроль

Британська та американська англійська - не єдина пара з цією проблемою, хоча вони найбільш часто зустрічаються. Португальська мова розділяється на бразильську португальську та європейську португальську, з різницями в правописі, граматиці, словнику та навіть використанні займенників, які досить значні, щоб текст відчувався іноземним читачам іншого варіанту. Іспанська змінюється між латиноамериканськими та піренейськими угодами, з формами дієслів, сленгом та словником, які істотно відрізняються. Французька мова має чіткі угоди у Франції, Канаді, Бельгії та різних африканських країнах. Китайська мова розділяється на спрощені та традиційні символи, що не просто різниця в правописі, а абсолютно інший набір символів.

У кожному з цих випадків виробництво неправильного варіанту не є дрібною косметичною проблемою. Бразильський читач, який зустрічає європейський португальський правопис у описі продукту, негайно це помітить. Це створює відчуття дистанції, немов би компанія не дбала достатньо для локалізації. Для бізнесу, який намагається побудувати довіру на конкретних регіональних ринках, такий дисбаланс підриває всю зусилля. Вміст міг би також залишитися непереведеним, якби переклад сигналізував "ми насправді не знаємо вашого ринку".

Посібник щодо переведення між американською та британською англійською на YEB охоплює конкретні залучені параметри. У YEB Translate, мовний варіант - це один з 22 мовних параметрів, доступних у системі контексту. Коли англійська мова вибрана як цільова мова, користувач може вказати американський, британський, австралійський або інші регіональні варіанти. Модель ШІ отримує цю перевагу як частину рядка контексту та виробляє вихід, який послідовно використовує правильні угоди правопису, вибір словника та ідіоматичні вирази для цього варіанту. Не потрібен жоден перехід пост-редагування.

Той же механізм працює для кожної мовної пари, яка має регіональні варіанти. Бразильський vs європейський португальський. Латиноамериканський vs піренейський іспанський. Спрощений vs традиційний китайський. Канадський vs столичний французький. Параметр встановлюється один раз, зберігається протягом сеансу та застосовується до кожного фрагмента тексту, оброблено під час цього сеансу. Для команд вмісту, які обробляють локалізацію у масштабі, це усуває цілу категорію роботи з контролю якості.

Чому упередженість навчальних даних робить це гірше, ніж здається

Причина, чому більшість інструментів перекладу за замовчуванням використовують американську англійську мову, проста: Інтернет містить більше американського англійського тексту, ніж британського англійського тексту. Дані про навчання для моделей ШІ здебільшого отримуються з веб-вмісту, а веб-вміст домінується американськими публікаціями, американськими компаніями та американським користувацьким текстом. Коли модель ШІ вчиться тому, що правильна англійська мова виглядає, вона навчається на корпусі, який за замовчуванням схиляється до американського.

Це упередження не є навмисним, але це постійне. Навіть коли інструменти перекладу оновлюються новішими моделями, основний розподіл даних не змінився. Американська англійська залишається більшовою варіацією в навчальних корпусах, що означає, що вихід за замовчуванням продовжує схилятися до американського незалежно від того, чи потребує користувач британського, австралійського, південноафриканського чи будь-якого іншого варіанту. Модель не вибирає американську англійську, тому що вона краще. Вона вибирає її, тому що вона її бачила більше.

Для користувачів, які перекладають англійську з інших мов, це створює невидиму проблему. Результат виглядає правильно, тому що він граматично правильний. Речення мають сенс. Словник прийнятний. Але варіант неправильний для передбачуваної аудиторії, і якщо користувач не знайомий достатньо з обома варіантами, щоб виявити кожну різницю, невідповідність проходить крізь щілини. Німецький менеджер маркетингу, який перекладає копію продукту для ринку Великобританії, може не помітити, що "aluminum" повинна бути "aluminium" або що "skeptical" повинна бути "sceptical". Це не помилки, які позначають граматичні перевірки, тому що обидва написання дійсні. Вони просто дійсні в різних країнах.

Система контексту в перекладачі ШІ YEB розглядає мовний варіант як першокласне встановлення, а не як вторинне. Це має значення, тому що модель ШІ регулює не просто правопис, а вибір словника, вибір ідіоми та навіть структуру речення на основі варіанту. Британська англійська тяжіє до дещо більш формальних конструкцій в бізнес-письмі. Американська англійська використовує більш прямі фрази. Австралійська англійська має свій власний неформальний регістр, який відрізняється від обох. Це тонкі різниці, які людина рідна мова виробляє несвідомо, і що модель ШІ може відтворити лише коли їй скажуть, який варіант як мета.

Реальна вартість отримання неправильного варіанту

Для особистого листа нікому не важливо, чи "colour" чи "color" з'являється. Для опублікованого вмісту ставки інші. Веб-сайт .co.uk, що використовує американські написання на всьому протязі, виглядає неохайно. Веб-сайт .com, спрямований на австралійських читачів британським правописом, виглядає трохи вибиває. Це не драматичні збої. Це паперові поцарапини, які накопичуються та створюють загальне враження недбалості.

У регульованих галузях узгодженість варіанту може бути проблемою відповідності. Юридичні документи у Великобританії дотримуються британських угід. Медична література для NHS використовує британську термінологію. Державні публікації дотримуються суворих стилевих вказівок, які визначають використання варіанту вниз до окремих слів. Подання перекладеного документа, який використовує неправильний варіант у цих контекстах, не просто неохайно. Це може спровокувати відхилення або запити на переробку, які затримують цілі проекти.

Порівняння з DeepL висвітлює це як одну з конкретних областей, де інструменти перекладу загального призначення не встигають. DeepL робить відмінні переклади з точки зору плинності та точності, але до недавна не мав можливості визначити, який англійський варіант виробляти. Користувачі, які потребували британської англійської мови, змушені були або прийняти те, що дала модель, або запустити окремий крок конвертації після цього. Те ж обмеження існує серед більшості основних інструментів перекладу ШІ на ринку.

Те, що робить підхід контексту різним, це те, що вибір варіанту відбувається до перекладу, а не після. Модель ШІ не виробляє текст американської англійської мови, а потім його перетворює на британський. Вона виробляє британський англійський текст з самого початку, вибираючи правильні слова, правильні написання та правильні конструкції з першого ж речення. Це принципово інший підхід, ніж пост-обробка пошуку та заміни, і він виробляє результати, які природно звучать у цільовому варіанті, а не виглядають як американський текст із тонким британським шаром фарби.

Часто задавані питання

Чи може Google Translate виробляти британську англійську конкретно

Google Translate пропонує "English" як єдину цільову мову без розрізнення британського, американського, австралійського або інших варіантів. Результат зазвичай дотримується американських угід, тому що навчальні дані моделі містять більше американської англійської мови. Немає параметра для запиту британської англійської конкретно, тому користувачі, які її потребують, мають вручну переглянути та виправити результат.

Які основні різниці між британським та американським англійським словником

Крім різниць у правописі, як "colour" vs "color" та "organise" vs "organize", словникові різниці включають повсякденні слова. Британський "boot" - це американський "trunk". Британський "lift" - це американський "elevator". Британський "pavement" - це американський "sidewalk". Британський "flat" - це американський "apartment". Ці різниці впливають на перекладений текст, тому що модель ШІ повинна вибрати одну версію, і без контексту вона вибирає ту, яка найбільше з'явилася в навчальних даних.

Чи є безплатний інструмент для перекладу тексту в Інтернеті британською англійською

YEB Translate працює на моделі кредитів за кожне використання, де кредити витрачаються лише при обробці тексту. Параметр мовного варіанту, включаючи британську англійську, доступний на кожному запиті перекладу без будь-якого преміумного рівня чи додаткової вартості.

Як контекстно-обізнаний переклад обробляє регіональні мовні варіанти

Контекстно-обізнаний переклад включає мовний варіант як один з його параметрів. Перш ніж модель ШІ обробляє вихідний текст, вона отримує інформацію про те, який регіональний варіант використовувати у результаті. Це впливає на правопис, словник, ідіоми та навіть структуру речення. Модель виробляє текст рідною мовою у запитаному варіанті, а не перекладає на варіант за замовчуванням та конвертує потім.

Яка найкраща альтернатива Google Translate для точних перекладів

Точність залежить від конкретної потреби. Для європейських мов з високими вимогами до плинності DeepL - це сильна опція. Для контекстно-обізнаних перекладів, які повинні враховувати стать, формальність, галузеву термінологію та регіональні варіанти, перекладач ШІ YEB забезпечує елементи керування, які інші інструменти не мають. Повне порівняння інструментів перекладу ШІ розбирає сильні та слабкі боки серед основних опцій.

Чи важливо британське vs американське англійське для SEO

Так. Поведінка пошуку відрізняється між регіонами. Користувачі Великобританії шукають "colour palette" у той час як користувачі США шукають "color palette". Використання неправильного варіанту означає, що вміст може не відповідати пошуковим термінам передбачуваної аудиторії. Для веб-сайтів, спрямованих на конкретні англомовні ринки, послідовне використання правильного варіанту покращує як довіру користувачів, так і релевантність пошуку.