Weź proste zdanie angielskie: „We need to close this quickly" (Musimy to zamknąć szybko). Teraz przetłumacz je na niemiecki. Bez żadnego kontekstu narzędzie tłumaczeniowe wytworzy coś ogólnego i technicznie poprawnego. Wybór czasownika będzie neutralny, formalność będzie gdzieś pośrodku, a ton będzie płaski. Teraz dodaj kontekst: to zespół prawny omawiający negocjacje umowy. Wynik w języku niemieckim się zmienia. „Close" staje się konkretnym terminem prawniczym oznaczającym zawarcie umowy. Formalność przechodzi na rejestr formalny. Pilność implikowana przez „quickly" jest wyrażana poprzez słownictwo, które niemiecki prawnik rzeczywiście by użył. To samo zdanie źródłowe, całkowicie inne wyniki.
Teraz zmień kontekst ponownie. To samo zdanie, ale tym razem pochodzi z zespołu tworzącego oprogramowanie omawiającego zamknięcie zgłoszenia błędu. Tłumaczenie na niemiecki zmienia się jeszcze raz. „Close" teraz mapuje się na termin techniczny używany w narzędziach zarządzania projektami. Rejestr spada do semi-formalnego. Słownictwo wyrównuje się z tym, jak niemieccy programiści rzeczywiście mówią na standupsach i kanałach Slack. Zdanie wciąż oznacza to samo po angielsku. Wersje niemieckie nie wyglądają podobnie, i nie powinny, ponieważ opisują całkowicie różne sytuacje.
To jest główny problem tłumaczenia bez kontekstu. Tekst źródłowy jest dwuznaczny, a tłumacz rozwiązuje tę dwuznaczność przez zgadywanie. Czasami zgadywanie jest poprawne. Często tworzy wynik, który jest gramatycznie poprawny, ale semantycznie niezupełny, tekst, który technicznie mówi właściwą rzecz, ale mówi to w taki sposób, którego żaden носитель języka nigdy by nie użył w tej konkretnej sytuacji. Dziesięć kategorii kontekstu w YEB Translate istnieje konkretnie aby wyeliminować to zgadywanie. Każda dostarcza modelowi AI informacji, których potrzebuje, aby dokonać lepszych wyborów, a razem transformują generyczne wyniki maszyn w tekst, który czyta się jakby został napisany przez kogoś, kto rzeczywiście rozumie sytuację.
Branża, publiczność i cel
Pierwsze trzy kategorie tworzą fundament każdego kontekstu tłumaczenia. Branża mówi modelowi, do jakiego pola należy tekst, co bezpośrednio kontroluje wybór słownictwa technicznego. Słowo takie jak „protocol" w kontekście medycznym wyzwala zupełnie inne słownictwo niż „protocol" w kontekście sieciowym lub dyplomatycznym. Bez ustawienia branży model wybiera, który z tych znaczeń pojawia się najczęściej w danych treningowych, co dla „protocol" zwykle domyślnie prowadzi do technologii. Ustaw branżę na opiekę zdrowotną, a wynik automatycznie używa poprawnej terminologii medycznej.
Publiczność określa, kto będzie czytać przetłumaczony tekst. Dokument techniczny skierowany do inżynierów używa innego słownictwa i założeń dotyczących podstawowej wiedzy niż te same informacje napisane dla ogółu społeczeństwa. Opis produktu dla konsumentów używa prostszego języka i bardziej persuazyjnego framing niż wewnętrzny dokument specyfikacji dla zespołu programistów. Kategoria publiczności nie zmienia tego, co zostaje powiedziane. Zmienia to, jak to zostaje powiedziane, dostosowując złożoność, gęstość żargonu i założoną wiedzę do oczekiwanego poziomu czytelnika.
Cel ujmuje intencję stojącą za tekstem. Czy to zawartość informacyjna mająca na celu edukowanie? Zawartość perswazyjną mającą na celu sprzedaż? Zawartość instrukcyjną mającą na celu przewodnictwo? Zawartość prawną mającą na celu wiążące zobowiązanie? Każdy cel aktywuje różne wzorce językowe w wynikach. Tekst perswazyjny w języku niemieckim używa innych struktur zdań niż tekst informacyjny. Prawo francuskie przestrzega konwencji, które są całkowicie nieobecne w konwersacyjnym francuskim. Kategoria celu mówi modelowi nie tylko to, co tekst mówi, ale to, co próbuje osiągnąć, i wynik odzwierciedla tę intencję w języku docelowym.
Te trzy kategorie samodzielnie produkują dramatycznie różne wyniki, gdy się je zmienia. Zdanie o „poprawianiu wydajności" przetłumaczone dla publiczności opieki zdrowotnej z celem informacyjnym generuje kliniczny, zmierzony język. To samo zdanie przetłumaczone dla publiczności marketingowej z celem perswazyjnym generuje dynamiczny, skoncentrowany na korzyściach język. Strona funkcji narzędzia do tłumaczenia AI pokazuje porównane przykłady tych różnic dla każdego, kto chce zobaczyć kontrast na żywo.
Formalność, rejestr i ton
Formalność jest być może najbardziej natychmiast wpływową kategorią, zwłaszcza dla języków z formalnymi i nieformalnym systemami zwracania się. Ustawienie formalności na poziom jeden produkuje swobodne, skrócone wyniki, które czytają się jak wiadomość tekstowa między przyjaciółmi. Ustawienie jej na poziom pięć produkuje precyzyjne, uporządkowane wyniki, które czytają się jak umowa prawna lub oficjalna korespondencja rządowa. Przewodnik dotyczący przeformułowań dla profesjonalizmu bada, jak formalność wchodzi w interakcję z przeformułowaniem, ale w tłumaczeniu efekt jest jeszcze bardziej wyrażony, ponieważ wiele języków ma całkowicie oddzielne słownictwo i struktury gramatyczne dla różnych poziomów formalności.
Japoński jest najdramatyczniejszym przykładem. Różnica między nieformalnym japońskim a formalnym japońskim jest tak znacząca, że zdanie na poziomie formalności jeden może dzielić tylko pierwiastkowe czasowniki ze swoją równoważnicą na poziomie pięć. Każde zakończenie czasownika się zmienia. Zaimki się zmieniają. Cząstki się zmieniają. Prefiksy honorowe pojawiają się lub znikają. Narzędzie tłumaczeniowe, które nie uwzględnia formalności w japońskim, zasadniczo produkuje losowe wyniki na spektrum formalności, co oznacza, że mniej więcej połowę czasu wynik będzie niewłaściwie swobodny dla kontekstu biznesowego lub niepotrzebnie sztywny dla konwersacji przyjaznej.
Rejestr operuje obok formalności, ale nie jest identyczny z nią. Rejestr opisuje odmianę językową używaną w konkretnym kontekście społecznym. Rejestr akademicki, rejestr techniczny, rejestr dziennikarski, rejestr literacki. Każdy ma swoje własne konwencje dotyczące struktury zdań, słownictwa i urządzeń retorycznych. Tekst przetłumaczony w rejestrze akademickim używa konstrukcji biernych, języka ostrożnego i frazowania przyjaznego dla cytowań. Ten sam tekst w rejestrze dziennikarskim używa aktywnego głosu, krótszych zdań i bezpośredniego przypisania. Formalność kontroluje, jak uprzejmy lub swobodny brzmi tekst. Rejestr kontroluje, na jaki rodzaj tekstu brzmi.
Ton dodaje warstwę emocjonalną. Neutralny, optymistyczny, pilny, ostrożny, empatyczny, autorytatywny. Kategoria tonu wpływa na wybór słów na poziomie konotacji. „Termin końcowy się zbliża" w tonie neutralnym pozostaje płaski. W tonie pilnym słownictwo przechodzi w kierunku słów, które przekazują nacisk i pilność. W tonie ostrożnym, staje się miększy, ostrożny, bardziej dyplomatyczny. Ton jest kategorią, która najbardziej bezpośrednio wpływa na to, jak czytelnik czuje się na temat tekstu, i dostanie go źle może sprawić, że sympatyczna wiadomość brzmi zimnie lub profesjonalna aktualizacja brzmi w panice.
Domena, płeć, wariant i temat
Pozostałe cztery kategorie obsługują szczegóły, które pierwsze sześć nie może pokryć. Terminologia domeny kontroluje, z którego zestawu specializowanego słownictwa model czerpie. To jest bardziej szczegółowe niż branża. W branży technologicznej domeną może być przetwarzanie w chmurze, tworzenie aplikacji mobilnych, cyberbezpieczeństwo lub nauka o danych. Każda ma swój własny żargon, swoje własne konwencje akronimów i swój własny zestaw termów, które mają konkretne znaczenia różniące się od ich codziennego użycia.
Płeć mówiącego, jak omówiono w przewodniku dotyczącym płci rosyjskiej, kontroluje rodzaj gramatyczny w językach, które go wymagają. To nie jest opcjonalne dla języków takich jak rosyjski, arabski, hebrajski, hindi i wiele innych, gdzie czasowniki czasu przeszłego i przymiotniki muszą zgadzać się z płcią mówiącego. Ustawienie tej kategorii raz zapewnia spójne i poprawne markery płci na całym wynikach.
Wariant regionalny kontroluje, która wersja języka docelowego zostanie wyprodukowana. Brytyjski lub amerykański angielski. Brazylijski lub europejski portugalski. Uproszczony lub tradycyjny chiński. Latynoamerykański lub półwyspiarski hiszpański. Ta kategoria pracuje z 22 ustawieniami specyficznych dla języka, aby upewnić się, że wynik odpowiada konwencjom zamierzonej publiczności regionu, włączając w to pisownię, słownictwo i wyrażenia idiomatyczne. Przewodnik dotyczący brytyjskiego vs amerykańskiego angielskiego obejmuje to szczegółowo dla najczęściej żądanej pary wariantów.
Temat zawartości zapewnia kontekst tematyczny, który pomaga rozwiązać dwuznaczność. Gdy jednocześnie ustawione są wiele kategorii, model AI otrzymuje bogaty ciąg kontekstu, który kieruje każdą decyzją podejmowaną podczas tłumaczenia. Kombinacja wszystkich dziesięciu kategorii, z ich 117 indywidualnymi opcjami, tworzy odcisk palca kontekstu, który jest wystarczająco konkretny, aby produkować tłumaczenia dostosowane do dokładnych sytuacji, a nie do generycznych przybliżeń.
Co naprawdę oznacza 117 opcji w praktyce
Liczba brzmi duża, ale w praktyce system został zaprojektowany tak, aby większość użytkowników potrzebowała ustawić tylko kilka kategorii dla każdego zadania. Programista tłumaczący dokumentację API może ustawić branżę na technologię, domenę na tworzenie oprogramowania, formalność na poziom trzeci i rejestr na techniczny. To cztery ustawienia, być może trzydzieści sekund konfiguracji, i wynikające z tego tłumaczenia używają poprawnej terminologii technicznej, odpowiedniej formalności i profesjonalnego rejestru na całej sesji.
Profesjonalista ds. marketingu tłumaczący kopię kampanii może ustawić branżę na marketing, publiczność na konsumentów, cel na perswazyjny, ton na optymistyczny i formalność na poziom drugi. Pięć ustawień, wciąż poniżej minuty konfiguracji, i każde tłumaczenie w sesji odzwierciedla te wybory. Przewodnik użytkownika przechodzi przez proces konfiguracji krok po kroku.
117 opcji w dziesięciu kategorii nie ma być używane wszystkie jednocześnie. Mają na celu objęcie pełnego zakresu sytuacji, które napotykają prawdziwi użytkownicy. Tłumacz prawniczy potrzebuje innych opcji niż menedżer mediów społecznościowych. Badacz medyczny potrzebuje innych opcji niż bloger podróżniczy. System zapewnia wystarczającą granularność, aby służyć wszystkim tym przypadkom użytku bez wymagania od każdego użytkownika zrozumienia każdej opcji. Ustaw kategorie, które mają znaczenie dla danego zadania, pozostaw resztę na ich ustawieniach domyślnych, a model AI włącza wszelkie otrzymane kontekstu.
To, co czyni to fundamentalnie różnym od generycznego tłumaczenia, to to, że model nie produkuje domyślne tłumaczenie, a następnie dostosowuje go. Kontekst kształtuje wynik od samego początku. Wybór słów, struktura zdań, terminologia, rejestr i formalność są wszystkie określone przez kontekst zanim pierwsze słowo tłumaczenia jest generowane. To dlatego wynik może wyglądać tak dramatycznie inaczej z różnymi ustawieniami kontekstu. To nie jest to samo tłumaczenie będące modyfikowane. To jest inne tłumaczenie generowane od nowa, kierowane przez całkowicie inny zestaw ograniczeń.
Często zadawane pytania
Co to jest tłumaczenie maszynowe świadome kontekstu
Tłumaczenie maszynowe świadome kontekstu to podejście, w którym model AI otrzymuje informacje o mówiącym, publiczności, branży, poziomie formalności, tonie i innych czynnikach przed wygenerowaniem tłumaczenia. Ten kontekst kształtuje wybór słów, gramatykę i rejestr w wynikach, produkując tłumaczenia dostosowane do konkretnych sytuacji, a nie do generycznych wyników jednej wielkości dla wszystkich.
Ile ustawień kontekstu oferuje YEB Translate
YEB Translate zapewnia 10 kategorii kontekstu z 117 indywidualnymi opcjami, plus 22 ustawienia specyficzne dla języka z 78 opcjami. Kategorie obejmują branżę, publiczność, formalność, rejestr, ton, cel, terminologię domeny, płeć mówiącego, wariant regionalny i temat. Użytkownicy zazwyczaj ustawiają 3 do 5 kategorii na sesję.
Czy ustawienia kontekstu mogą produkować gorsze tłumaczenia, jeśli są ustawione nieprawidłowo
Ustawienie niewłaściwego kontekstu może pchnąć tłumaczenie w nieodpowiednim kierunku. Na przykład, ustawienie kontekstu branży medycznej dla tekstu marketingowego wprowadzi terminologię kliniczną, która wydaje się na miejscu. Jednak pozostawienie ustawień na ich ustawieniach domyślnych po prostu produkuje wyniki generyczne, które są równoważne temu, co inne narzędzia tłumaczeniowe produkują bez żadnego kontekstu. Najgorszy przypadek dla nieużywanych ustawień jest neutralny, nie szkodliwy.
Czy istnieje darmowy tłumacz AI z ustawieniami kontekstu
YEB Translate używa modelu kredytów za użytkowanie, a nie subskrypcji. Wszystkie kategorie kontekstu są dostępne na każde żądanie bez poziomów premium. Kredyty są zużywane tylko wtedy, gdy tekst jest rzeczywiście przetwarzany, a niewykorzystane kredyty są przenoszone na czas nieokreślony. To czyni to bardziej przystępnym niż narzędzia subskrypcji dla okazjonalnych użytkowników, którzy wciąż potrzebują wyników świadomych kontekstu.
Jak tłumaczenie świadome kontekstu porównuje się z DeepL lub Google Translate
DeepL i Google Translate produkują biegłe wyniki, ale oferują minimalne sterowanie nad kontekstem. Ani jeden nie zapewnia ustawień dla branży, tonu, płci mówiącego lub terminologii domeny. Wynikiem są generyczne tłumaczenia, które są gramatycznie poprawne, ale mogą używać niewłaściwej terminologii, nieodpowiedniej formalności lub nieprawidłowych form genderowych. Tłumaczenie świadome kontekstu wypełnia te luki, dając modelowi AI informacje, które potrzebuje, aby dokonać ukierunkowanych wyborów. Porównanie DeepL rozbija to szczegółowo.
Czy ustawienia kontekstu działają dla wszystkich par języków
Ustawienia kontekstu dotyczą każdej pary języków. Niektóre kategorie są bardziej wpływowe dla niektórych języków niż dla innych. Płeć mówiącego ma największe znaczenie dla języków genderowych, takich jak rosyjski i arabski. Formalność ma najsilniejszy efekt w japońskim, koreańskim i niemieckim. Wariant regionalny jest krytyczny dla języków z głównymi podziałami dialektalnymi, takimi jak portugalski i chiński. System dostosowuje swoją interpretację kontekstu na podstawie języka docelowego.