Българския език не съществува в повечето инструменти за субтитри, така че изградих един, който поддържа 98 езика
Падащото меню е първото нещо, което виждате при качване на видео в всеки инструмент за субтитри. Дълъг списък от езици, подредени в азбучен ред, понякога със знамена до тях. Английският е винаги там, обикновено в началото. Испански, френски, немски, португалски. Всички присъстват и отчетени. Прекарайте надолу и може да намерите китайски, японски, корейски. Продължете да прекарвате. Арабски. Хинди, понякога. И тогава списъкът завършва, или езикът, който наистина ви трябва, просто не е там. Български. Не е поставен в списък. Не като опция, не като функция на бета версия, дори не като неподдържана запис с етикет предупреждение. Просто не съществува в света на продукта.
Това не е малко неудобство. Когато езикът липсва напълно, инструментът не е частично полезен. Той е напълно безполезен. Няма обход, който дава приемливи резултати. Звукът влиза, и или инструментът го отхвърля веднага, или се опитва да го обработи като нещо друго. Резултатът е боклук, всеки път.
Опитът на автор на съдържание, чийто първичен език попада извън тесния диапазон на "търговски интересни" езици, е един постоянен компромис. Означава да се научите да работите около инструментите, а не с тях. Означава да приемете, че повечето софтуер просто не е построен с вас предвид, и че функциите, маркирани като "глобални" или "многоезични", наистина означава "поддържаме десетте езика, които ни правят най-много пари".
Руския компромис и защо не работи
Когато българският не е на списъка, руският става подразбиран компромис. Двата езика имат общата кирилица и някои думи имат подобни корени. На теория изглежда като разумно приближение. На практика е катастрофа, която създава повече работа от всичко ръчно от нула.
Руската транскрипция приложена към български аудио произвежда нещо, което изглежда почти правилно на първи поглед. Кирилските знаци се показват на екрана, думите имат смътна славянска форма, и може би една от три е наистина правилна. Но "почти правилно" в субтитрите означава напълно неправилно. Зрител, който чете субтитри, които са 60% точни, не получава 60% от съобщението. Те получават объркване, отвличане и впечатление, че создателят не се загрижи достатъчно да преглежда своето собствено съдържание.
Процесът на редактиране, който следва, е където истинското време се загубва. Петминутно видео може да произведе 180 до 220 отделни сегмента на субтитри. Когато езикът на транскрипцията е грешен, всеки един от тези сегменти трябва да бъде отворен, прочетен, сравнен с действителния аудио и ръчно препечатан. Не коригиран, а препечатан изцяло, защото руската транскрипция често има толкова малко прилика с българския оригинал, че е по-бързо да изтриете текста и да започнете отново, отколкото да се опитате да го коригирате символ по символ. Два часа ръчно редактиране за петминутно видео не е необичайно. За някой, който управлява множество YouTube канали с редовни графици за качване, тази аритметика просто не издържа.
Този точен проблем се разширява далеч отвъд българския. Създатели на хинди се сблъскват с него, когато техния регионален диалект се сплътнява в генерична хинди транскрипция, която пропуска половината от словаря. Тайски създатели се занимават с грешки в интонационното тълкуване, които превръщат всяко друго изречение в безсмислица. Виетнамски, сръбски, тагалог, суахили. Списъкът на езиците, които се пренебрегват или слабо приблизителни от основните инструменти за субтитри, е дълъг, и създателите, които говорят тези езици, тихо абсорбират допълнителната работна натовареност от години.
Защо празнотата на езика съществува на първо място
Инструментите за субтитри са бизнес, и бизнесите разпределят ресурсите за развитие, където е приходът. Англоговорящите пазари представляват най-голям дял от плащащите клиенти за почти всеки SaaS продукт в пространството на създаването на видеа. Испански и португалски покриват по-голямата част на Латинска Америка. Френски добавя части на Европа и Африка. Немски, японски, корейски. Всеки един отваря пазар със значителна покупателна мощ. Продукт, който поддържа тези десет или дванадесет езика, може да твърди, че служи на по-голямата част от своята потенциална база клиенти, и от чисто финансова гледна точка, това твърдение е защитимо.
Добавянето на нов език към система за транскрипция не е тривиално. Изисква тренировъчни данни, тестване на качество, текущо поддържане и документация на поддръжката. За език, говорен от седем милиона души, като българския, изчислението на разходи към приходи рядко оправдава инвестицията, когато същите часове на инженеринг могат да отидат към подобряване на английската точност на транскрипцията от 95% на 97%, което засяга милиони плащащи потребители.
Резултатът е пазар, където горните петнадесет или двадесет езика получават отличена поддръжка, следващите тридесет получават преминавам покритие, и всичко останало или липсва, или е толкова слабо внедрено, че не трябва да е посочено като функция. Това не е злоумислено. Това е прогнозируемия резултат от построяването на продукти, които оптимизират за най-голямата възможна аудитория, вместо най-широкото възможно покритие. Но разбирането защо се случва не го прави по-малко разочаровано, когато сте този, който гледа падащо меню, което не включва вашия език.
Генераторът за субтитри на YEB е построен с различен набор от приоритети. Вместо да започнете с най-търговски ценни езици и да работите навън, машина за транскрипция е избрана специално за своята ширина на поддръжка на езици. Деветдесет и осем езика от стартирането, не като пътна карта аспирация, а като изискване за стартиране. Български, сръбски, хинди, тайски, виетнамски, тагалог и десетки други, които рядко се появяват в списъците с функции на конкуренти, всички се обработват本地,с същия конвей за транскрипция и същите стандарти на качество като английския или испански.
Какво наистина означава надлежната поддръжка на езика на практика
Поддържането на язык не просто означава приемане на аудио на този язик и връщане на някакъв текст. Означава, че машина за транскрипция разбира фонетичната структура, обичайния словар, кадънса и ритъма на естественото говорене на този език. Означава, че когато български говорител записа видео, резултатът не трябва да бъде ръчно коригиран отвъд случайното собствено име или технически термин, който всяка система за транскрипция може да се спъне.
На YEB Captions, качването на българско видео работи точно по същия начин като качването на английско. Езикът е избран от пълния списък от 98 опции, аудиото е обработено и транскрипцията се връща като правилно балансирани сегменти на субтитри на български. Няма руска приблизителност, няма ръчно препечатване, няма двучасови сесии на редактиране за петминутно видео. Сегментите могат да бъдат редактирани индивидуално, ако е необходимо, като неправилно чута дума тук или име, което трябва коригиране там, но основната точност прави тези редакции, измерени в минути, а не часове.
Същото се отнася за превода на субтитри. Съдържанието, първоначално транскрибирано на български, може да бъде преведено в някой от другите поддържани езици преди визуализиране. Музикално видео с български текст може да бъде публикувано с английски, испански или японски субтитри без преминаване през отделен работен процес за превод. За създатели, които публикуват съдържание, насочено към международни аудитории, това елиминира цял слой на ръчна работа, която преди това изискваше или наемане на преводач, или прекарване на вечер със речник и много търпение.
Точката не е, че YEB Captions е единственият инструмент в света, който поддържа български. Няколко инструмента го предлагат в някаква форма. Точката е, че надлежната поддръжка, където точност на транскрипцията е наистина използваема без обширно ръчно коригиране, остава рядка за езици извън главния ток, и разликата между "посочена като поддържана" и "наистина работи добре" е често огромна.
По-широкия проблем на построяването на инструменти за всички
Има предположение вложено в повечето разработка на софтуер, че "всички" означава "всички, които говорят голям език". Страниците с функции казват "глобална" и "многоезична", докато действителния списък на езици казва много по-тесна история. Това не е ограничено до инструментите за субтитри. Услуги за машинен превод, гласови асистенти, OCR системи и машини за търсене всички показват същия модел на дълбока поддръжка за малко езики и плитка или несъществуваща поддръжка за остатъка.
Това, което прави инструментите за субтитри особено забележителен, е природата на провала. Когато гласов асистент неправилно разбира команда, потребителят може да я повтори или напиша вместо това. Когато инструмент за субтитри произвежда текст с боклук, този текст завършва изгорен в видео, което се публикува на стотици или хиляди зрители. Грешката е постоянна, публична и директно свързана с професионална репутация на создателя. Да го сгрешиш не е просто неудобство; това е видимо отказ на качеството, който зрители забелязват веднага.
Създатели, които говорят недостатъчно поддържани езици, са разработили всички видове компромиси през годините. Някои записват техните видеа на английски дори когато техния аудиторий говори нещо друго. Някои напълно пропускат субтитрите и приемат по-нито ангажимент числа. Някои използват най-близкия налични език и след това прекарват часове поправяне резултатите, абсорбиране на разходи на работа, че техния английски говорещи конкуренти просто не трябва да се справят. Нито един от тях не са истински решения. Те са компромиси, които са форсирани от пазар, който реши, че определени езици не стоят пълна поддръжка.
Построяване captions.yeb.to с 98 езика беше отчасти отговор на този конкретен разочарование и отчасти признание, че недостатъчно поддържания сегмент на пазара е много по-голям, отколкото повечето компании изглеждат, че мисля. Седем милиона български говорители е малък брой в сравнение с английски или мандарински. Но добавете всички езици, които падат в категорията "не е търговски интересно", включително сърбините, тайците, виетнамците, тагалог говорителите, суахили говорителите, и говорите на няколко стотни милиона хора, които са били слабо обслужвани от инструментите за субтитри за години. Това не е ниша. Това е пазар, който просто не е обработен, и ландшафтът на приложения на данък бавно начина отразяват тази реалност.
Често задавани въпроси
Кои генератори за субтитри поддържат български язык
Много малко инструменти за субтитри включват български като поддържан езък, и дори по-малко произвеждат използваема точност на транскрипцията. YEB Captions поддържа български като един от 98 езика с местна транскрипция, което означава, че резултатът не изисква руския езиков компромис, който повечето други инструменти налагат на българи.
Може ли AI генератор за субтитри да обработи не-латински скриптове точно
Точността зависи напълно от машина за транскрипция и колко тренировъчни данни има за конкретния езък. Кирилица, Деванагари, тайски и арабски скриптове всички се поддържат от модерни модели на транскрипция, но повечето инструменти за субтитри само включват няколко от тях. Инструменти, построени с широка многоезична поддръжка от началото, имат тенденция да обработват не-латински скриптове значително по-добре от тези, които я добавиха като вторична мисъл.
Защо повечето инструменти за субтитри само поддържат 10 до 15 езика
Поддържане на езък изисква тренировъчни данни, тестване и текущо поддържане. Повечето компании фокусирайте техните ресурси на езиците, които генерират най-много приход, което означава английски, испански, френски, немски и няколко други. Езици, говорени от по-малки популации, рядко оправдават инвестицията от чиста бизнес гледна точка, което е защо те се оставят извън повечето продукти напълно.
Дали автоматично генериране на субтитри е точно достатъчно, за да пропусна ръчно редактиране
За добре поддържани езици като английски и испански, точност на современата транскрипция е обикновено над 90%, което означава, че само малки корекции са необходими. За по-малко разпространени езици, точност варира драматично между инструменти. Ключова разлика е дали инструментът е дизайниран за поддържане на езък от началото или добавена като вторична мисъл с минимално тестване.
Как добавям субтитри на видео на язык, който повечето инструменти не поддържат
Най-разпространената обхват е избиране на свързан язык и ръчно коригиране резултатите, което е изключително време консумиране. По-добрата опция е използване на инструмент, който наистина поддържа езък местно. YEB генератор за субтитри покрива 98 езика и произвежда транскрипции, които изискват минимално коригиране дори за езици като български, сръбски и тайски, които повечето конкуренти игнорира.
Каква е разликата между превод на субтитри и генериране на субтитри
Генериране на субтитри означава превръщане на устен аудио в текст на същия язык. Превод на субтитри означава приемане на съществуващ субтитри и превръщане на техния в различен язык. YEB Captions поддържа и двете. Видео може да бъде транскрибирано в своя оригинален язык и след това преведено в някой от другите поддържани езици преди визуализиране.