API za Konverziju Skripti od Ćirilice, Arapskog i Ostalih Nelatinskih Skripti u Latinicu

Internet se pokretanja sa latiničnim znakovima. URL adrese koriste latinicu. E-mail adrese koriste latinicu. Nazivi datoteka na većini operativnih sistema zadani su na latinici. Identifikatori baza podataka, parametri API-ja i sistematski generisani kodovi svi se koriste sa ASCII podskupom latinice. Ova latinična centralnost je istorijski artefakt koji prethodi globalnoj ekspanziji interneta, ali njene praktične posledice ostaju u svakom sistemu koji treba da obradi tekst od svih nelatinskih pismenih sistema na svetu. Naziv ruskog biznisa koji izgleda potpuno normalno na Ćirilici postaje nečitljiv niz kodiranih znakova kada se prisili u URL. Ime arapske osobe koje se prirodno teče od desna ka levo postaje tehnički problem kada se mora pojaviti u polju baze podataka na zapadu. Ova sudaranja između jezičke raznolikosti na svetu i latinske infrastrukture interneta dešavaju se milionima puta svaki dan, a svaki od njih zahteva prevod ne značenja već skripte.

Transliteracija je reč za ovaj prevod na nivou skripte, i ona je fundamentalno drugačija od lingvističkog prevoda. Prevod pretvara značenje: "house" na engleskom postaje "дом" na ruskom, jer obe reči znače istu stvar na različitim jezicima. Transliteracija pretvara skriptu: "дом" na Ćirilici postaje "dom" na latinici, jer su to latinični znakovi koji aproksimiraju zvukove Ćirilinih znakova. Značenje ostaje isto. Jezik ostaje isti. Samo pismeni sistem se menja, što je razlog zašto se transliteracija ponekad opisuje kao "ponovno pisanje" umesto "ponovno značenja."

API za Transliteraciju omogućava ovu konverziju skripte kao programabilnu uslugu. Pošaljite tekst u jednoj skripti, primite ga nazad u drugoj. Ćirilica na latinicu, arapski na latinicu, grčki na latinicu, devanagari na latinicu, i sveobuhvatan popis ostalih parova skripti koji pokrivaju pismene sisteme koje koristi većina korisnika interneta na svetu. Konverzija sledi uspostavljene standarde transliteracije gde postoje i fonetski tačna mapiranja gde standardizovani sistemi nisu definirani, proizvodeći izlaz koji je čitljiv, izgovorljiv i prikladan za tehnijske kontekste gde su latinični znakovi neophodni.

URL Slug-ovi i Problem Nelatinskog Teksta u Veb Adresama

Najneposrednije praktično iskorišćenje transliteracije u veb razvoju je generisanje URL slug-ova iz nelatinskog teksta. Blog članak naslovljen "Как приготовить борщ" (Kako napraviti bors) treba URL-prijateljski slug koji funkcioniše u svakom pretraživaču, svakoj platformi za deljenje i svakom sistemu za analitiku. Ćirilični znakovi u naslovljenom su validni u internacionalizovanim domenama (IDN-ovima) i internacionalizovanim identifikatorima resursa (IRI-jevima), ali u praksi većina veb infrastrukture i dalje ih obraduje nepouzdano. Kodirani Ćirilični URL-ovi su dugi, ružni i prekidaju se kada se kopiraju između određenih aplikacija. Transliterirani slug kao "kak-prigotovit-borshch" je kratak, čitljiv, deljiv i univerzalno kompatibilan.

Slučaj upotrebe generisanja slug-a zahteva ne samo konverziju skripte već i dodatnu obradu: promenu u mala slova, zamenu beline sa crticama, uklanjanje specijalnih znakova i normalizovanje akcentuiranih znakova. API za transliteraciju obrađuje korak konverzije skripte, konvertujući Ćirilične znakove u njihove latinske ekvivalente, a pozivajuća aplikacija obrađuje preostale korake normalizovanja. Ova podela odgovornosti čini API fokusiraj se na lingvistički složen zadatak (ispravna transliteracija) dok prepušta tehnički jednostavne zadatke (mala slova, umetanje crtica) pipeline-u za obradu teksta razvojnog inženjera.

Kvalitet transliteracije za generisanje slug-a je važan jer je slug vidljiv korisnicima i doprinosi SEO-u. Ruski korisnik koji susretne slug "kak-prigotovit-borshch" prepoznaje ga odmah kao transliteraciju ruskog naslova i može ga čitati bez napora. Loše transliteran slug, onaj koji koristi neispravna mapiranja slova ili proizvodi neizgovorljive kombinacije znakova, izgleda kao besmisla za ruske i engleske čitaoce. API koristi fonetski tačna mapiranja koja proizvode čitljiv izlaz bez obzira na izvornu skriptu, što čini rezultujuće slug-ove funkcionalnim kao tehnički identifikatori i ljudski čitljiv tekst.

Veb prodavnice koje prodaju multilingvalnim tržištima koriste transliteraciju opsežno za generisanje URL-ova proizvoda. Katalog proizvoda koji uključuje stavke sa nazivima na ruskom, arapskom, kineskom i indijskom treba URL slug-ove koji funkcioniše na svim jezicima. Ručna transliteracija u ovoj skali je nepraktična, a automatizirana transliteracija preko API-ja proizvodi konzistentne, tačne slug-ove koji se mogu generisati kao deo pipeline-a uvoza proizvoda bez ljudske intervencije za svaki jezik.

Imena iz Pasoša i Transliteracija Službenih Dokumenata

Transliteracija imena iz pasoša je jedna od najznačajnijih primena konverzije skripte jer greške u transliteraciji imena uzrokuju probleme iz stvarnog sveta. Ime prevedeno drugačije na pasošu nego na vizuelnoj aplikaciji može odložiti ili sprečiti međunarodno putovanje. Ime transliterirano drugačije u bankovnom sistemu nego na identifikacionom dokumentu može blokirati finansijske transakcije. Ulozi su dovoljno visoki da većina zemalja održava zvanične standarde transliteracije za imena iz pasoša, a API implementira ove standarde za skripte koje podržava.

Ruska imena ilustruju dobro složenost. Rusko slovo "Щ" može se transliterirati kao "shch," "sch," "sh," ili "sc" u zavisnosti od primenjenog sistema transliteracije. ICAO (Međunarodna organizacija za građansko vazduhoplovstvo) standard koji se koristi za pasoše specificira "shch." BGN/PCGN sistem koji koriste američke i britanske vladine agencije specificira "shch." ISO 9 sistem koji se koristi u akademskim kontekstima specificira jedan znak sa dijakritičkom oznakom. Osoba imenovan "Щербаков" treba da zna da će njihov pasoš biti "Shcherbakov" i da svaki drugi dokument koji uključuje njihovo ime mora tačno da se podudara sa ovom transliteracijom. API podrži više standarda transliteracije i dozvoljava pozivaču da specificira koji standard da primeni, osiguravajući izlaz koji odgovara zahtevima specifičnog konteksta.

Transliteracija arapskih imena dodaje dodatnu složenost jer je arapska skripta abjad-osnovna, što znači da se samoglasnici često čuvaju iz pisanog teksta i moraju biti zaključeni za transliteraciju. Ime "محمد" (Muhammad) može biti legitimno transliterirano kao Muhammad, Mohamed, Mohammed, Muhammed, ili nekoliko ostalih varijanti u zavisnosti od sistema transliteracije i regionalnog izgovora. API primenjuje konzistentno, standarde-usklađeno mapiranje koje proizvodi najšire prepoznate varijante, dok dokumentacija beleži alternativna pisanja koja različiti standardi proizvode za najčešće transliterana imena.

Sistemi imigracije i vlada koji obrađuju aplikacije iz više zemalja imaju koristi od standardizovane transliteracije koja proizvodi konzistentno izlaz bez obzira koji operater obrađuje aplikaciju. Bez API-bazirane transliteracije, individualni operateri primenjuju svoju intuitivnu transliteraciju, koja proizvodi nedoslednne rezultate koji kompliziraju baze podataka, verifikaciju identiteta i povezivanje zapisa. Standardizovana transliteracija preko API-ja osigurava da isti izvorni tekst uvek proizvodi isti latinski izlaz, što je neophodno za sisteme koji se oslanjaju na poklapanje stringova za verifikaciju identiteta.

Normalizacija Pretrage i Pronalaženje Sadržaja Kroz Skripte

Sistemi pretrage suočavaju se sa fundamentalnim izazovom kada korpus pretrage uključuje sadržaj u više skripti: korisnik koji pretražuje u jednoj skripti trebao bi da pronađe sadržaj koji je pohranjen u drugoj skripti ako je sadržaj semantički relevantan. Ruski korisnik koji pretražuje "Москва" (Moskva) trebao bi da pronađe sadržaj koji se odnosi na "Moskva" u latiničnom indeksu. Engleski korisnik koji pretražuje "Moscow" trebao bi da pronađe sadržaj pohranjen sa Ćiriličnim originalnom "Москва." Ovo podudaranje između skripti zahteva normalizacijski sloj koji transliteriše upite pretrage i indeksirani sadržaj u zajedničku skriptu pre nego što se podudara.

API za transliteraciju služi kao ovaj normalizacijski sloj. U vreme indeksiranja, nelatinski sadržaj je transliterirani na latinici i pohranjen uz originalnu verziju skripte. U vreme upita, nelatinski upiti su transliterirani pre nego što se podudare sa latiničnim normalizovanim indeksom. Ovaj pristup dvostruko indeksiranja osigurava da pretrage u bilo kom podržanom skripti pronalaze sadržaj pohranjen u bilo kom podržanom skripti, jer se podudaranje dešava u zajedničkom latiničnom normalizovanom prostoru gde su razlike skripte rešene.

Tačnost transliteracije direktno utiče na relevantnost pretrage u ovoj primeni. Neispravna transliteracija proizvodi normalizovanu formu koja se ne podudara sa ispravnom normalizovanom formom iste reči iz drugog izvora, što stvara lažne negativce (relevantan sadržaj nije pronađen). Transliteracija koja proizvodi neuslovnu izlaz, gde različite izvornih reči mapiraju na isti latinski string, stvara lažne pozitivce (ne-relevantan sadržaj pronađen). Fonetski tačna mapiranja API-ja minimiziraju oba tipa greške, mada je određena neizvesnost svojstvena bilo kom sistemu transliteracije jer različite skripte kodiraju različite fonetske distinkcije.

Muzičke platforme, baze podataka knjiga i medijski katalozi su teški korisnici normalizacije pretrage bazirane na transliteraciji jer njihovi katalozi obuhvataju nekoliko jezika i skripti. Umetnik čije je ime skladišteno na Ćirilici u ruskom katalogu, latinici u SAD katalogu i japanskom katakani u japanskom katalogu treba da bude pronađljiv kroz jednu pretragu bez obzira koji skript korisnik ukucava. Normalizacija transliteracije čini ovu ujedinjenu pretragu moguća smanjujući sve varijante skripte na zajedničku latiničnu formu koja služi kao ključ podudaranja.

Podržane Skripte i Obim Konverzije

API za Transliteraciju podrži konverziju od Ćirilice (ruski, ukrajinski, bugarski, srpski i drugi jezici sa Ćiriličnim skriptom), arapski (uključujući perzijske i urdske varijante), grčki, devanagari (hindi, sanskrt, marati), bengalski, tajlandski, gruzijski, armenski, hebrejski, korejski (romanizacija hangula), japanski (romaji konverzija za hiraganu i katakanu) i kineski (pinyin konverzija za pojednostavljene i tradicionalne znakove). Svaki par skripte ima specifične pravila transliteracije koja uzimaju u obzir fonetske karakteristike izvornog skripte i reprezentacijske sposobnosti latiničnih znakova.

Pravila konverzije nisu "jedan-za-sve" preko jezika koji dele skriptu. Ruska Ćirilica i ukrajinska Ćirilica koriste istu abecedu ali sa različitim slovima i različitim konvencijama izgovora za deljenom slovima. API razlikuje ruski i ukrajinski unos i primenjuje odgovarajuća language-specifična pravila transliteracije, što je neophodno za tačnost jer isti znak može predstavljati različite zvukove u različitim jezicima sa Ćiriličnim skriptom. Ova svest jezičnih proširenja na drugih jezicima koji dele skriptu, osiguravajući da transliteracija odražava konvencije izgovora specifičnog izvora jezika umesto primene generičkog mapiranja na nivou skripte.

Izlaz je čist latinski tekst sa ASCII znakovima po zadanom, sa opcijom da se uključe dijakritičke oznake za sisteme transliteracije koji ih koriste (kao što je ISO 9 za Ćirilicu ili ISO 233 za arapski). ASCII-samo izlaz je idealan za tehnijske primene kao što su URL slug-ovi, nazivi datoteka i identifikatori baza podataka gde dijakritičke oznake uzrokuju probleme kompatibilnosti. Dijakritički izlaz je idealan za primene gde fonetska preciznost više važna od univerzalne kompatibilnosti, kao što su akademske publikacije i lingvističke baze podataka.

Dvosmerna konverzija je podržavana za parove skripti gde je mapiranje reverzibilno. Ćirilica na latinicu i latinica na Ćirilicu oba funkcioniše, omogućavajući okrugle putne konverzije gde se originalni tekst može približno vratiti iz transliterirane forme. Preokret je približan umesto tačnog za neke znakove jer je transliteracija inherentno skazana kada izvorni skript pravi razlike zvukove koje ciljni skript ne čini, ali za većinu praktičnih potreba kvalitet okruglog putovanja je dovoljan za prepoznavanje ljudima.

Često Postavljana Pitanja

Koja je razlika između transliteracije i prevoda

Prevod pretvara značenje između jezika: "cat" postaje "кошка" na ruskom jer obe reči znače istu stvar. Transliteracija pretvara skriptu bez promene jezika ili značenja: "кошка" postaje "koshka" sa latiničnim znakovima, predstavljajući istu rusku reč u drugom pismenom sistemu. Transliteracija čuva zvuk; prevod čuva značenje.

Koji standard transliteracije API koristi po zadanom

Zadani standard transliteracije varira po skripti i dokumentovan je za svaki podržani par skripti. Za Ćirilicu, zadani koraci se prate ICAO/pasoš konvencije. Za arapski, zadani koraci pracenja fonetski optimizovana mapiranja koja proizvode najšире prepoznate latinske izlaze. Korisnici mogu specificirati alternativne standarde gde više priznatih sistemi postoje za isti skript.

Može li API rukovati tekst sa mešovitom skriptom

Da. Tekst koji sadrži mešavinu latiničnih i nelatinskih znakova je obrađen transliteracijom samo nelatinski delova i čuvanjem latiničnih znakova kako su. Brojevi, interpunkcija i drugi ne-abecedni znakovi se čuvaju nepromenjeni. Ova obrada u mešanom modu je neophodno za tekst iz stvarnog sveta koji često sadrži marke imena, tehnički termini ili akronime na latinici pored tela nelatinskog teksta.

Kako API rukovati znakovi koji nemaju latiničan ekvivalent

Znakovi bez jednostavnog latiničnog ekvivalenta se predstavljaju sa kombinacijama sa više znakova koje aproksimiraju zvuk. Ruski "Щ" postaje "shch," arapski "ع" postaje simbol ili "a" u zavisnosti od standarda, i drugi jedinstveni znakovi primaju standarde-usklađene latinske reprezentacije. Dokumentacija navodi sva mapiranja znakova za svaki podržani skript.

Je li transliteracija reverzibilna

Reverzibilnost zavisi od para skripti i standarda transliteracije korišćenog. Neke konverzije su potpuno reverzibilne, što znači da se originalni tekst može tačno vratiti iz transliterirane forme. Druge su približno reverzibilne, što znači da se većina znakova može vratiti ali neke distinkcije prisutne u izvornoj skripti se gube u latiničnoj reprezentaciji. Dokumentacija ukazuje na nivo reverzibilnosti za svaki podržani konverziju.

Može li API da se koristi za masovnu transliteraciju velikih tekstualnih datoteka

Da. API prihvata tekst bilo koje praktične dužine i obrađuje ga u jednom zahtevanju. Za veoma velike skupove podataka, obrada serije sa više konkurentnih API poziva omogućava efikasni propusnost. Troškovi kredita po zahtevanju se razlikuju sa dužinom teksta, čineći masovnu transliteraciju ekonomski praktičnom za zadatke obrade velikog korpusa.

Konverzija Ćirilice u Latinicu i Arapskog u Latinicu i Konverzija Skripti za Multilingvalne Aplikacije