Візьміть просте англійське речення: "We need to close this quickly." Тепер перекладіть його на німецьку мову. Без будь-якого контексту інструмент перекладу виробить щось універсальне та технічно правильне. Вибір дієслова буде нейтральним, формальність буде десь посередині, а тон буде плоським. Тепер додайте контекст: це юридична команда, яка обговорює переговори щодо контракту. Німецький вивід змінюється. "Close" стає конкретним юридичним терміном для завершення угоди. Формальність переходить на формальний реєстр. Термінове прохання, виражене у "quickly", отримує вираження через словник, який насправді використовували б німецькі юристи. Один і той же вихідний текст, абсолютно різний результат.
Тепер змініть контекст ще раз. Те саме речення, але цього разу воно походить від команди розроблення програмного забезпечення, яка говорить про закриття квитка про помилку. Німецький переклад змінюється ще раз. "Close" тепер відображає технічний термін, який використовується у інструментах управління проектами. Реєстр падає на напів-формальний. Словник узгоджується з тим, як німецькі розробники насправді розмовляють на стендапах і в каналах Slack. Речення все ще означає те саме англійською мовою. Німецькі версії виглядають абсолютно по-різному, і це правильно, тому що вони описують абсолютно різні ситуації.
Це основна проблема перекладу без контексту. Вихідний текст є двозначним, і перекладач вирішує цю двозначність шляхом вгадування. Іноді вгадування правильне. Часто це виробляє результат, який є граматично правильним, але семантично неправильним, текст, який технічно говорить правильну річ, але говорить це так, як жоден носій мови ніколи не говорив би у тій чи іншій ситуації. Десять категорій контексту в YEB Translate існують саме для того, щоб усунути це вгадування. Кожна з них надає моделі ШІ інформацію, яка їй потрібна для кращого вибору, і разом вони трансформують універсальний машинний результат у текст, який читається так, як якби він був написаний людиною, яка насправді розуміє ситуацію.
Галузь, аудиторія та мета
Перші три категорії утворюють основу будь-якого контексту перекладу. Галузь повідомляє модель, якій галузі належить текст, що безпосередньо контролює вибір технічного словника. Слово на кшталт "protocol" в медичному контексті викликає абсолютно інший словник, ніж "protocol" у контексті мережі або дипломатичному контексті. Без параметра галузі модель обирає те значення, яке вона найчастіше бачила у навчальних даних, що для "protocol" зазвичай замовчування технологію. Установіть галузь на охорону здоров'я, і результат автоматично використовуватиме правильну медичну термінологію.
Аудиторія вказує, хто читатиме перекладений текст. Технічний документ, спрямований до інженерів, використовує інший словник та припускає іншу фонову інформацію, ніж та сама інформація, написана для широкої аудиторії. Опис продукту для споживачів використовує простішу мову і переконливіший фрейм, ніж внутрішній документ специфікацій для команди розроблення. Категорія аудиторії не змінює те, що говориться. Вона змінює те, як це говориться, підлаштовуючи складність, щільність жаргону та припущену знання до очікуваного рівня читача.
Мета відтворює намір за текстом. Це інформаційний контент, призначений для навчання? Переконливий контент, призначений для продажу? Інструкційний контент, призначений для керівництва? Юридичний контент, призначений для обов'язання? Кожна мета активує різні мовні закономірності у результаті. Переконливий текст німецькою мовою використовує інші структури речень, ніж інформаційний текст. Юридична французька дотримується умовностей, які абсолютно відсутні у розмовній французькій. Категорія мети повідомляє модель не просто те, що говорить текст, але те, чого він намагається досягти, і результат відтворює цей намір у цільовій мові.
Ці три категорії самі по собі виробляють драматично різні результати при варіюванні. Речення про "поліпшення продуктивності", перекладене для медичної аудиторії з інформаційною метою, генерує клінічну, виміряну мову. Те саме речення, перекладене для маркетингової аудиторії з переконливою метою, генерує динамічну, орієнтовану на користь мову. Сторінка функції ШІ-перекладача показує приклади цих різниць поруч для всіх, хто хоче побачити контраст в дійсності.
Формальність, реєстр та тон
Формальність, можливо, є найбільш негайно впливовою категорією, особливо для мов з формальними та неформальними системами звернення. Встановлення формальності на рівень один виробляє невимушений, скорочений результат, який читається як текстовое повідомлення між друзями. Встановлення на рівень п'ять виробляє точний, структурований результат, який читається як юридичний контракт або офіційна державна кореспонденція. Посібник з переформулювання для професіоналізму досліджує взаємодію формальності з переформулюванням, але при перекладі ефект ще більш виражений, тому що багато мов мають абсолютно окремі словник та граматичні структури для різних рівнів формальності.
Японська мова є найбільш драматичним прикладом. Різниця між казуальною японською та формальною японською настільки значна, що речення на рівні формальності один може розділяти лише коріння дієслів зі своїм еквівалентом рівня п'ять. Кожне закінчення дієслова змінюється. Займенники змінюються. Частинки змінюються. З'являються або зникають почесні префікси. Інструмент перекладу, який не враховує формальність у японській мові, по суті виробляє випадковий результат у спектрі формальності, що означає, що приблизно половину часу результат буде неправильно невимушеним для ділового контексту або необов'язково жорстким для дружньої розмови.
Реєстр працює поряд з формальністю, але не ідентичний їй. Реєстр описує мовне розмаїття, використане в конкретному соціальному контексті. Академічний реєстр, технічний реєстр, журналістичний реєстр, літературний реєстр. Кожен має свої умовності для структури речень, словника та риторичних прийомів. Текст, перекладений в академічному реєстрі, використовує пасивні конструкції, обережну мову та формулювання, дружелюбне до цитування. Той самий текст у журналістичному реєстрі використовує активний голос, коротші речення та прямо вказану атрибуцію. Формальність контролює те, наскільки вежливим або невимушеним звучить текст. Реєстр контролює, на що схожий текст.
Тон додає емоційний шар. Нейтральний, оптимістичний, термінове, обережний, співчутливий, авторитетний. Категорія тону впливає на вибір слів на рівні конотації. "The deadline is approaching" у нейтральному тоні залишається плоським. У термінове тоні словник змінюється до слів, які передають тиск та невідкладність. У обережному тоні він стає м'якшим, обережним, більш дипломатичним. Тон є категорією, яка найбільш безпосередньо впливає на те, як читач сприймає текст, і помилка у цьому може зробити співчутливе повідомлення холодним або професійне оновлення панічним.
Область, стать, варіант та предмет
Решта чотирьох категорій займаються специфіками, які перші шість не можуть охопити. Термінологія області контролює, з якого спеціалізованого набору словника модель черпає. Це більш деталізовано, ніж галузь. У галузі технологій область може бути хмарними обчисленнями, розроблюванням мобільних пристроїв, кібербезпекою або наукою про дані. Кожна має свій жаргон, свої умовності акронімів та набір термінів, які мають конкретні значення, відмінні від їх щоденного використання.
Стать мовця, як обговорюється у посібнику російської гендерної статі, контролює граматичний род у мовах, які того вимагають. Це не факультативне для мов, таких як російська, арабська, іврит, гінді та багатьох інших, де дієслова минулого часу та прикметники повинні узгоджуватися зі статтю мовця. Встановлення цієї категорії один раз забезпечує послідовні та правильні гендерні маркери у всьому результаті.
Регіональний варіант контролює, яку версію цільової мови виробити. Британська або американська англійська. Бразильська або європейська португальська. Спрощена або традиційна китайська. Латиноамериканська або піренейська іспанська. Ця категорія працює з 22 мовно-специфічними параметрами, щоб забезпечити відповідність результату умовностям намічаного регіону аудиторії, включаючи правопис, словник та ідіоматичні вирази. Посібник британської та американської англійської охоплює це детально для найбільш часто запитуваної пари варіантів.
Предмет надає топічний контекст, який допомагає вирішити двозначність. Коли одночасно встановлені кілька категорій, модель ШІ отримує багатий рядок контексту, який керує кожним рішенням, яке вона приймає під час перекладу. Комбінація всіх десяти категорій, з їх 117 окремими параметрами, створює відбиток контексту, який достатньо специфічний для виробництва перекладів, адаптованих до точних ситуацій, а не до універсальних наближень.
Що 117 варіантів насправді означає на практиці
Число звучить велике, але на практиці система розроблена так, щоб більшість користувачів для будь-якого завдання потребували встановлення лише кількох категорій. Розробник, який перекладає документацію API, може встановити галузь на технологію, область на розроблення програмного забезпечення, формальність на рівень три та реєстр на технічний. Це чотири параметри, може бути тридцять секунд конфігурації, і результуючі переклади використовують правильну технічну термінологію, відповідну формальність та професійний реєстр протягом всієї сесії.
Професіонал у маркетингу, який перекладає текст кампанії, може встановити галузь на маркетинг, аудиторію на споживачів, мету на переконливу, тон на оптимістичний та формальність на рівень два. П'ять параметрів, все ще менше хвилини конфігурації, і кожен переклад у сесії відтворює ці вибори. Посібник з використання проходить процес конфігурації крок за кроком.
117 варіантів у десяти категоріях не призначені для одночасного використання. Вони призначені для охоплення повного діапазону ситуацій, з якими стикаються реальні користувачі. Юридичний перекладач потребує інших варіантів, ніж менеджер у соціальних мережах. Медичний дослідник потребує інших варіантів, ніж блогер подорожей. Система забезпечує достатню детальність для обслуговування всіх цих варіантів використання, не вимагаючи від кожного користувача розуміти кожний варіант. Установіть категорії, які важливі для завдання, залиште решту у їх замовчаннях, і модель ШІ включає будь-який контекст, який вона отримує.
Те, що робить це принципово відмінним від універсального перекладу, полягає в тому, що модель не виробляє стандартний переклад, а потім коригує його. Контекст формує результат з самого початку. Вибір слова, структура речення, термінологія, реєстр та формальність всі визначаються контекстом перед створенням першого слова перекладу. Ось чому результат може виглядати так драматично відмінним з різними параметрами контексту. Це не один і той же переклад, що коригується. Це інший переклад, що генерується з нуля, керований абсолютно іншим набором обмежень.
Часто задавані питання
Що таке контекстна машинна трансляція
Контекстна машинна трансляція - це підхід, при якому модель ШІ отримує інформацію про мовця, аудиторію, галузь, рівень формальності, тон та інші чинники перед створенням перекладу. Цей контекст формує вибір слова, граматику та реєстр у результаті, виробляючи переклади, адаптовані до конкретних ситуацій, а не універсальні результати, придатні для всіх.
Скільки параметрів контексту пропонує YEB Translate
YEB Translate пропонує 10 категорій контексту з 117 окремими варіантами, плюс 22 мовно-специфічних параметри з 78 варіантами. Категорії включають галузь, аудиторію, формальність, реєстр, тон, мету, термінологію області, стать мовця, регіональний варіант та предмет. Користувачі зазвичай встановлюють 3-5 категорій за сесію.
Чи можуть параметри контексту виробляти гірші переклади, якщо вони встановлені неправильно
Встановлення неправильного контексту може спрямувати переклад в невідповідний напрямок. Наприклад, встановлення контексту медичної галузі для маркетингового тексту введе клінічну термінологію, яка виглядає неповажно. Однак залишення параметрів у їх замовчаннях просто виробляє універсальні результати, що еквівалентно тому, що інші інструменти перекладу виробляють без будь-якого контексту. Найгіршим випадком для невикористаних параметрів є нейтральність, а не шкода.
Існує безплатний ШІ-перекладач з параметрами контексту
YEB Translate використовує кредитну модель оплати за використання, а не підписку. Усі категорії контексту доступні за кожним запитом без преміум-рівнів. Кредити витрачаються лише тоді, коли текст насправді обробляється, і невикористані кредити зберігаються невизначено довго. Це робить його більш доступним, ніж інструменти на основі підписки для разових користувачів, які все ще потребують контекстного результату.
Як контекстна трансляція порівнюється з DeepL або Google Translate
DeepL та Google Translate виробляють вільний результат, але пропонують мінімальний контроль над контекстом. Жодна не забезпечує параметри для галузі, тону, гендерної статті мовця або термінології області. Результатом є універсальні переклади, які граматично правильні, але можуть використовувати неправильну термінологію, невідповідну формальність або неправильні гендерні форми. Контекстна трансляція заповнює ці прогалини, давши моделі ШІ інформацію, яка їй потрібна для цільових виборів. Порівняння DeepL розбирає це детально.
Чи працюють параметри контексту для всіх мовних пар
Параметри контексту застосовуються до будь-якої мовної пари. Деякі категорії більш впливові для певних мов, ніж для інших. Стать мовця найбільше має значення для гендерованих мов, таких як російська та арабська. Формальність має найсильніший ефект у японській, корейській та німецькій мовах. Регіональний варіант критичний для мов з великими діалектними розділами, таких як португальська та китайська. Система адаптує свою інтерпретацію контексту на основі цільової мови.