Uzmite jednostavnu englesku rečenicu: "Trebamo da zatvorimo ovo brzo." Sada je prevedite na nemački. Bez bilo kakvog konteksta, alat za prevod će proizvesti nešto generičko i tehnički ispravno. Izbor glagola će biti neutralan, formalnost će biti negde u sredini, a ton će biti ravan. Sada dodajte kontekst: ovo je pravni tim koji diskutuje o pregovaranju ugovora. Nemački izlaz se menja. "Zatvori" postaje specifičan pravni termin za zaključivanje dogovora. Formalnost se prebacuje na formalni registar. Hitnost implicirane sa "brzo" se izražava kroz vokabular koji bi nemački pravnik zaista koristio. Ista izvorni tekst, potpuno drugačiji izlaz.
Sada promenite kontekst ponovo. Ista rečenica, ali ovaj put dolazi od tima za razvoj softvera koji govori o zatvaranju izveštaja greške. Nemačka prevodna verzija se menja još jednom. "Zatvori" sada mapira na tehnički termin korišćen u alatima za upravljanje projektima. Registar pada na polu-formalno. Vokabular se usklađuje sa kako nemački programeri zaista govore na standup-ima i Slack kanalima. Rečenica i dalje znači isto na engleskom. Nemačke verzije toga izgledaju nikako slično, i ne bi trebalo da budu, jer opisuju potpuno različite situacije.
Ovo je osnovni problem sa prevođenjem bez konteksta. Izvorni tekst je dvosmislen, a prevodilac razrešava tu dvosmislenost pogađanjem. Ponekad je pogađanje tačno. Često proizvodi izlaz koji je gramatički ispravan ali semantički pogrešan, tekst koji tehnički kaže pravu stvar ali je kaže na način koji nikada ne bi koristio nijedan prirodan govornik u toj specifičnoj situaciji. Deset kategorija konteksta u YEB Translate postoje upravo da eliminišu ovo pogađanje. Svaka od njih pruža AI modelu informacije koje mu trebaju da naprave bolji izbor, i zajedno transformišu generički mašinski izlaz u tekst koji čita kao da je napisan od strane nekoga ko zaista razume situaciju.
Industrija, auditorijum i cilj
Prve tri kategorije čine temelj bilo kakvog konteksta prevoda. Industrija govori modelu kojem polju tekst pripada, što direktno kontroliše izbor tehničkog vokabulara. Reč kao "protokol" u medicinskom kontekstu aktivira potpuno drugačiji vokabular od "protokola" u mrežnom kontekstu ili diplomatskom kontekstu. Bez postavke industrije, model bira koje značenje je video najčešće u podacima za treniranje, što za "protokol" obično zadanu vrednost na tehnologiju. Postavite industriju na zdravstvenu zaštitu, i izlaz koristi ispravnu medicinsku terminologiju automatski.
Auditorijum precizira ko će čitati prevedeni tekst. Tehnički dokument namenjen inženjerima koristi drugačiji vokabular i pretpostavlja drugačije znanje u pozadini nego iste informacije napisane za opštu javnost. Opis proizvoda za potrošače koristi jednostavniji jezik i privlačnije okviravanje od unutrašnjeg dokumenata specifikacije za tim razvoja. Kategorija publike ne menja šta se kaže. Menja kako se kaže, prilagođavajući kompleksnost, gustinu žargona i pretpostavljeno znanje nivou čitaoca.
Cilj hvata nameru iza teksta. Da li je ovo informativni sadržaj namenjen da edukuje? Ubeđivačka rečenica namenjena da prodaje? Instruktivna rečenica namenjena da vođa? Pravna rečenica namenjena da vezuje? Svaki cilj aktivira različite lingvističke šablone u izlazu. Ubeđujući tekst na nemačkom koristi drugačije strukture rečenice od informativnog teksta. Pravni francuski prati konvencije koje su potpuno odsutne iz razgovorne francuskog. Kategorija svrhe govori modelu ne samo šta tekst kaže, već šta pokušava da dosigne, i izlaz odražava tu nameru na ciljanomjeziku.
Samo ove tri kategorije proizvode drastično drugačije izlaze kada se variraju. Rečenica o "poboljšanju performansi" prevedena za auditorijum zdravstvene zaštite sa informativnom svrhom generiše kliničko, merljivo jezičko izražavanje. Ista rečenica prevedena za marketing auditorijum sa ubeđivačkom svrhom generiše dinamičko, korisnost-fokusirano jezičko izražavanje. Stranica za AI prevodilačke karakteristike pokazuje primere ovih razlika od strane do strane za onoga ko želi da vidi kontrast izbliza.
Formalnost, registar i ton
Formalnost je možda najneposrednija impactna kategorija, posebno za jezike sa formalnim i neformalnim sistemima obraćanja. Postavljanje formalnosti na nivo jedan proizvodi usputno, skraćeno iskupljenje koje čita kao tekstualna poruka između prijatelja. Postavljanje na nivo pet proizvodi precizno, strukturirano iskupljenje koje čita kao pravni ugovor ili zvanična vladina korespondencija. Vodiči o preformulisanju za profesionalnost istražuje kako formalnost kombinuje sa preformulisanjem, ali u prevodu, efekat je čak i najizraženiji jer mnogi jezici imaju potpuno odvojen vokabular i gramatičke strukture za različite nivoe formalnosti.
Japanski je najdramatičnije primer. Razlika između usputnog japanskog i formalnog japanskog je tako velika da rečenica na nivou formalnosti jedan mogla bi da deli samo korenske glagole sa svojom verzijom nivoa pet. Svako završavanje glagola se menja. Zamenice se menjaju. Čestice se menjaju. Počasni prefiksi se pojavljuju ili nestaju. Alat za prevod koji ne uzima u obzir formalnost na japanskom je suštinski proizvođač slučajnog izlaza u spektru formalnosti, što znači otprilike polovinu vremena rezultat će biti neprimeren usputno za poslovni kontekst ili nepotrebno stiff za prijateljski razgovor.
Registar deluje pored formalnosti ali nije identičan sa tim. Registar opisuje lingvističku raznolikost korišćenu u specifičnom društvenom kontekstu. Akademski registar, tehnički registar, novinarni registar, književni registar. Svaki ima svoje konvencije za strukturu rečenice, vokabular, i retoričke uređaje. Tekst preveden u akademskom registru koristi pasivne konstrukcije, hedging jezik, i Citation-friendly frazu. Isti tekst u novinarnom registru koristi aktivni glas, kraće rečenice, i direktnu atribuciju. Formalnost kontroliše kako ljubazan ili usputu tekst zvuči. Registar kontroliše kakav vid teksta zvuči.
Ton dodaje emocionalnu stranu. Neutralan, optimističan, hitno, oprezan, empatičan, autoritetivan. Kategorija tona utiče na izbor reči na nivou konotacije. "Rok ističe" u neutralnom tonu ostaje ravan. U hitnom tonu, vokabular se prebacuje prema rečima koje prenose pritisak i neposrednost. U opreznom tonu, postaje miše, hedged, diplomatičnije. Ton je kategorija koja direktno utiče na kako se čitalac osjeća o tekstu, i greškama sa tim može da učini simpatičnu poruku hladnom ili stručnjačku ažuriranja paničnom.
Domen, pol, varijanta i predmet
Preostale četiri kategorije rukuju specifičnostima koje prve šest ne mogu pokriti. Terminologija domena kontroliše koji specijalizovani set vokabulara model izvlači iz. Ovo je granularnije od industrije. U okviru tehnološke industrije, domen može biti cloud computing, razvoj mobilnih, cybersecurity, ili науки o podacima. Svaki ima svoj žargon, svoju konvenciju akronima, i svoj set termina koji imaju specifična značenja drugačija od njihove svakodnevne upotrebe.
Pol govornika, kao što je rečeno u ruskom vodiču o polu, kontroliše gramatički pol u jezicima koji ga zahtevaju. Ovo nije opciono za jezike kao što su ruski, arapski, hebrejski, hindi, i mnogi drugi gde glagoli u prošlom vremenu i pridevnici moraju biti u skladu sa polom govornika. Postavljanje ove kategorije jednom obezbeđuje konzistentne i ispravne oznake pola kroz ceo izlaz.
Regionalna varijanta kontroliše koju verziju ciljanog jezika proizvesti. Britanski ili američki engleski. Brazilski ili evropski portugalski. Pojednostavljeni ili tradicionalni kineski. Latinoamerički ili poluostrvski španski. Ova kategorija deluje sa 22 jezičko-specifične postavke da osigura da se izlaz slaže sa konvencijama namenjenog auditorijuma regije, uključujući pravopis, vokabular, i idijomatske izraze. Britanski naspram američkog engleskog vodiča pokriva ovo detaljno za najčešće traženu parnju varijante.
Predmet dopunjava tematski kontekst koji pomaže razrešavanju dvosmislenosti. Kada su sve kategorije postavljene istovremeno, AI model prima bogat string konteksta koji vodi svaku odluku koju pravi tokom prevoda. Kombinacija svih deset kategorija, sa njihove 117 pojedinačnim opcijama, pravi otisak konteksta koji je dovoljno specifičan da proizvede prevode prilagođene tačnim situacijama umesto generikog aproksimacije.
Šta 117 opcija zapravo znači u praksi
Broj zvuči velik, ali u praksi sistem je osmišljen tako da većina korisnika samo trebam da postavi nekoliko kategorija za bilo koji zadatak. Razvijač koji prevodi API dokumentaciju može da postavi industriju na tehnologiju, domen na razvoj softvera, formalnost na nivo tri, i registar na tehnički. To je četiri postavke, možda trideset sekundi konfiguracije, i rezultujući prevodi koriste ispravnu tehnički terminologiju, odgovarajući formalnost, i profesionalni registar kroz čitavu sesiju.
Marketing stručnjak koji prevodi kampanjske kopije može da postavi industriju na marketing, auditorijum na potrošače, svrhu na ubeđujuće, ton na optimistički, i formalnost na nivo dva. Pet postavki, i dalje manje od minute konfiguracije, i svaki prevod u sesiji odražava te izbore. Vodiči za upotrebu prolazi kroz proces konfiguracije korak po korak.
117 opcija preko deset kategorija nisu namenjene da sve budu korišćene istovremeno. Oni su namenjeni da pokrivaju puni opseg situacija koje susreću stvarni korisnici. Pravni prevodilac trebam drugačije opcije od menadžera društvenih mreža. Medicinski istraživač trebam drugačije opcije od travel bloggera. Sistem pruža dovoljno granularnosti da služi svim ovim slučajevima upotrebe bez zahtevanja od svakog korisnika da razume svaku opciju. Postavite kategorije koje su važne za zadatak pri ruci, ostavite ostatak na njihovim zadanim vrednostima, i AI model ugrađuje bilo koji kontekst koji prima.
Šta čini ovo fundamentalno drugačije od generikog prevoda jeste da model ne proizvede zadani prevod i onda ga prilagodi. Kontekst oblikuje izlaz od samog početka. Izbor reči, struktura rečenice, terminologija, registar, i formalnost su svi određeni kontekstom pre nego što je prvo reč prevoda generisana. Ovo je zašto izlaz može izgleda tako drastično drugačito sa različitim postavkama konteksta. Nije isti prevod biti prilagođen. To je drugačiji prevod koji se generiše od početka, vođen potpuno drugačitim setom ograničenja.
Često postavljana pitanja
Šta je kontekst svesna prevodilačka aktivnost mašine
Kontekst svesna prevodilačka aktivnost mašine je pristup gde AI model prima informacije o govoriku, auditorijumu, industriji, nivou formalnosti, tonu, i drugim faktorima pre nego što generiše prevod. Ovaj kontekst oblikuje izbor reči, gramatiku, i registar u izlazu, proizvodeći prevode prilagođene specifičnim situacijama umesto generikog jednog-za-sve rezultata.
Koliko kontekst postavki pruža YEB Translate
YEB Translate obezbeđuje 10 kategorija konteksta sa 117 pojedinačnim opcijama, plus 22 jezičko-specifične postavke sa 78 opcija. Kategorije uključuju industriju, auditorijum, formalnost, registar, ton, svrhu, terminologiju domena, pol govornika, regionalnu varijantu, i predmet. Korisnici obično postavljaju 3 do 5 kategorija po sesiji.
Mogu li kontekst postavke proizvesti lošije prevode ako su postavljene pogrešno
Postavljanje pogrešnog konteksta može da gura prevod u neodgovarajućem pravcu. Na primer, postavljanje medicinskog konteksta industrije za marketing tekst će uvesti klinički terminologiju koja se osjeća van mesta. Međutim, ostavljanje postavki na njihovim zadanim vrednostima jednostavno proizvede generički izlaz, što je ekvivalentno šta drugi alati za prevod proizvode bez bilo kakvog konteksta. Najgori slučaj za nekorišćene postavke je neutralan, ne štetan.
Da li je besplatna AI prevodilačka aktivnost sa kontekst postavkama dostupna
YEB Translate koristi pay-per-use model kredita umesto pretplate. Sve kategorije konteksta su dostupne na svakom zahtevanju bez premijumskih nivoa. Krediti se konzumiraju samo kada je tekst zaista obrađen, i nekorišćeni krediti se prenose zauvek. Ovo ga čini pristupačnijom od alata za pretplatu za povremene korisnike koji i dalje trebaju kontekst svesnu proizvodnju.
Kako kontekst svesna prevodilačka aktivnost poredi sa DeepL ili Google Translate
DeepL i Google Translate proizvode fluent izlaz ali nude minimalne kontrole nad kontekstom. Ni jedno ne pruža postavke za industriju, ton, pol govornika, ili terminologiju domena. Rezultat je generički prevod koji je gramatički ispravan ali može koristiti pogrešnu terminologiju, neprimerenu formalnost, ili pogrešne gendered oblike. Kontekst svesna prevodilačka aktivnost popunjava ove jaze pružajući AI modelu informacije koje mu trebaju da napravi ciljane izbore. DeepL poređenje rastavlja ovo detaljno.
Da li kontekst postavke rade za sve jezičke parove
Kontekst postavke primenjuju se na bilo koji jezički par. Neke kategorije su više impactne za određene jezike od ostalih. Pol govornika ima najveće značenje za gendered jezike kao što su ruski i arapski. Formalnost ima najjače efekat u japanskom, korejskom, i nemačkom. Regionalna varijanta je kritična za jezike sa većim dijalektnim podela kao što su portugalski i kineski. Sistem prilagođava njegovoj interpretaciji konteksta na osnovu ciljanog jezika.