Разговорът вървеше добре. Беше неформален чат за софтуерен проект — този вид непринуден обмен, който се случва десетки пъти на ден между разработчици, говорещи различни езици. Другият човек беше руснак, съобщенията се пишеха на английски, а Google Translate вършеше тежката работа по конвертирането на всичко на руски в реално време. В продължение на около десет съобщения всичко изглеждаше гладко. После, съвсем неочаквано, руснакът написа нещо, което грубо се преведе като: „Чакай, мъж ли си или жена?" Въпросът изглеждаше странен. Нищо в разговора нямаше общо с пола. Нямаше неяснота в профилната снимка, нямаше объркване с имена. Темата беше структура на бази данни. И все пак от гледна точка на другия човек въпросът имаше пълен смисъл.
Руският е граматически родов език. Глаголите в минало време, прилагателните и дори някои съществителни променят формата си в зависимост от граматическия род на говорещия. Когато някой напише „направих" на руски, окончанието на глагола казва на читателя дали говорещият е мъж или жена. Google Translate, работещ с нулев контекст за това кой пише, беше избрал женски глаголни форми за всяко едно съобщение. За руския читател изглеждаше точно така, сякаш пише жена. Истинският говорещ беше мъж. Преводачът нямаше как да знае това, защото никой не му каза и той никога не попита.
Това не беше дребна стилистична особеност. Целият тон на разговора се промени. Граматическият род в руски не е незадължителна украса. Той е вграден в структурата на почти всяко изречение, което се отнася до говорещия в минало време. Да кажеш „отидох до магазина" използва различна дума в зависимост от това дали е отишъл мъж или жена. Да кажеш „бях уморен" се променя. Да кажеш „завърших проекта" се променя. Всяко изказване в първо лице в минало време е излъчвало грешна идентичност през целия разговор, а руският участник просто е приел, че изходът на преводача е правилен.
Този момент беше повратната точка. Не раздразнение от единичен грешен превод, а осъзнаването, че най-използваният инструмент за превод на планетата абсолютно няма механизъм да знае нещо толкова фундаментално като пола на говорещия. Не пита. Не извежда заключения. Избира стойност по подразбиране и продължава напред, оставяйки читателя да прави изводи, които може да са напълно грешни. Решението не беше по-добър алгоритъм. Решението беше контекст.
🌐AI Преводач
Превеждайте, перифразирайте, коригирайте и обяснявайте текст на 105+ езика. Превод на няколко езика едновременно, персонализирани контексти и действия върху селекция.
Английският е език, който до голяма степен избягва граматическия род в ежедневната реч. „I went" е „I went" без значение кой говори. „I was happy" не се променя въз основа на идентичността на говорещия. Това улеснява англоговорещите да забравят, че повечето от основните световни езици не работят по този начин. Руски, арабски, иврит, хинди, френски, испански, португалски, немски, полски, чешки и десетки други — всички кодират рода в граматиката си в различна степен.
Проблемът за машинния превод е прост. Когато изходният текст е на английски, няма маркери за род, които да се извлекат. Изречението „I was surprised" дава на преводача нулева информация за това дали да използва мъжка или женска форма на целевия език. Човешки преводач би попитал или би знаел от предходния контекст. Машинен преводач избира формата, която се е появявала по-често в тренировъчните му данни, което за повечето езици по подразбиране е мъжки род, макар и не винаги последователно.
Това не е крайен случай, засягащ шепа неясни езикови двойки. Само руският има над 250 милиона говорещи. Арабският — над 300 милиона. Испанският — над 500 милиона. Хинди — над 600 милиона. Във всеки от тези езици грешният граматически род не звучи просто тромаво. Той създава истинско объркване за това кой говори и може да подкопае доверието към цялото послание.
Решението, внедрено в YEB Translate, е концептуално почти неудобно просто, макар изпълнението да изискваше внимателен дизайн. Сред категориите контекст, налични в настройките за превод, една от тях е полът на говорещия. Задаването му веднъж казва на AI модела да използва правилните родови форми във всеки изход, за всеки език, който го изисква.
Какво правят категориите контекст с превода
Полът на говорещия е една от десет категории контекст, които оформят начина, по който AI произвежда своите преводи. Пълният набор обхваща отрасъл, целева аудитория, ниво на формалност, регистър, тон, цел, терминология на домейна, пол на говорещия, регионален вариант и тема. Всяка категория има множество опции. Само отрасълът предлага избори от технологии и финанси до здравеопазване, право, маркетинг, образование и още. Формалността обхваща пет нива от изключително неформално до високо формално. Заедно тези десет категории съдържат 117 индивидуални опции.
Освен тях има 22 езикови настройки с 78 опции, които контролират лингвистични детайли, специфични за отделни езици. Неща като дали да се използва формално или неформално обръщение в езици, които правят разлика между двете. Дали да се предпочита латиница или кирилица на сръбски. Дали да се използват опростени или традиционни китайски йероглифи.
Всички тези настройки се обединяват в един контекстен низ, който придружава всяка заявка за превод. AI моделът чете този контекст, преди да обработи изходния текст, което означава, че познава отрасъла, аудиторията, тона, формалността и да, пола на говорещия, преди да произведе дори дума от изхода. Страницата AI текстов преводач разглежда конкретни примери за всеки, който е любопитен колко различни могат да бъдат резултатите.
Разговорът, който почти унищожи бизнес отношения
Връщайки се към оригиналния руски разговор, последствията се простираха отвъд момент на неудобство. Човекът от другата страна беше прекарал десет съобщения, изграждайки мислен образ на това с кого разговаря, и този образ беше грешен. Когато се появи въпросът за пола и бе направена корекция, настъпи забележимо нулиране в разговора. Не враждебност, а прекалибриране.
В неформален чат това е забавна анекдота. В бизнес контекст може да е истински вредно. Представете си изпращане на предложение за партньорство на арабски, където глаголните форми подсказват, че подателят е жена, когато подателят е мъж. Получателят може да не каже нищо, но ще забележи.
Същият принцип важи за обслужване на клиенти, юридическа комуникация, медицинска кореспонденция и всяка ситуация, в която идентичността на говорещия има значение. Истинска алтернатива на Google Translate трябва да се справя с това, като дава на потребителя контрол над контекста.
Отвъд рода: пълният обхват на липсващия контекст
Граматическият род е най-видимият пример за провал на контекста в превода, но далеч не е единственият. Помислете за формалността. В японския нивото на учтивост може да варира толкова драматично, че едно и също изречение, преведено на различни нива на формалност, почти не споделя лексика. Немският различава „du" и „Sie". Френският има „tu" и „vous". Испанският има „tú" и „usted".
Професионалният жаргон е друга област, където контекстът е от съществено значение. Думата „протокол" означава нещо специфично в медицината, нещо друго в мрежите и нещо съвсем различно в дипломацията.
Ръководството за използване на YEB Translate покрива целия процес на настройка. За всеки, който е изпитал разочарование от преводи, които звучат приблизително правилно, но пропускат замисления смисъл, системата за контекст е липсващото парче. Тя не прави AI по-умен. Тя дава на AI информацията, от която се нуждае, за да прави интелигентни избори.
Често задавани въпроси
Обработва ли Google Translate граматическия род правилно
Google Translate не пита и не отчита пола на говорещия. При превод от английски към езици с граматически род като руски, арабски или испански, по подразбиране избира формата, която се е появявала най-често в тренировъчните данни. Това може да доведе до използване на грешен род в цял разговор.
Има ли безплатен AI преводач, който поддържа настройки за контекст
YEB Translate използва модел за плащане на използване с кредити вместо абонамент. Кредити се изразходват само когато текст действително се обработва, и контекстната система с всичките десет категории е достъпна при всяка заявка.
Какво е контекстен превод и защо е важен
Контекстният превод означава, че AI моделът получава информация за говорещия, аудиторията, отрасъла, нивото на формалност и други фактори преди да генерира превода. Тази информация оформя избора на думи, граматиката, тона и регистъра в изхода.
Кои езици изискват граматически род в превода
Повечето от широко говорените езици в света използват граматически род в известна степен. Руски, арабски, иврит, хинди, френски, испански, португалски, италиански, немски, полски, чешки и много други изискват съгласуване на рода в глаголите, прилагателните или и двете.
Могат ли AI преводачите да заменят човешките преводачи за езици с граматически род
AI преводачите могат да произвеждат отлични резултати в езици с граматически род, когато получат подходящ контекст. Ключът е да се предостави контекстът, за който човешки преводач естествено би попитал.
Кое е най-доброто алтернативно приложение на Google Translate