대부분의 자막 도구에서 불가리아어가 지원되지 않아서 98개 언어를 지원하는 도구를 만들었습니다

비디오를 자막 도구에 업로드할 때 가장 먼저 보게 되는 것은 드롭다운 메뉴입니다. 알파벳순으로 정렬된 긴 언어 목록으로, 때로는 옆에 깃발이 있습니다. 영어는 항상 있으며, 보통 맨 위에 있습니다. 스페인어, 프랑스어, 독일어, 포르투갈어. 모두 있습니다. 더 아래로 스크롤하면 중국어, 일본어, 한국어를 찾을 수 있습니다. 계속 스크롤하세요. 아랍어. 힌디어, 때때로. 그리고 목록이 끝나거나 당신이 실제로 필요한 언어가 단순히 없습니다. 불가리아어. 목록에 없습니다. 옵션으로도 없고, 베타 기능으로도 없고, 경고 레이블이 있는 지원되지 않는 항목으로도 없습니다. 그것은 제품의 우주에 존재하지 않습니다.

이것은 사소한 불편이 아닙니다. 언어가 완전히 누락되면 도구는 부분적으로 유용하지 않습니다. 완전히 쓸모없습니다. 허용할 수 있는 결과를 생성하는 해결 방법은 없습니다. 오디오가 들어가면 도구가 이를 거부하거나 다른 것으로 처리하려고 합니다. 출력은 매번 쓰레기입니다.

기본 언어가 "상업적으로 흥미로운" 언어의 좁은 범위를 벗어나는 콘텐츠 제작자로서의 경험은 끝없는 적응의 경험입니다. 이것은 도구와 함께 작업하기보다는 도구를 돌아다니며 작동하도록 학습해야 함을 의미합니다. 대부분의 소프트웨어가 단순히 당신을 염두에 두고 만들어지지 않았고, "글로벌" 또는 "다국어"로 마케팅되는 기능은 실제로 "우리는 당신이 가장 많은 돈을 벌어주는 10개 언어를 지원합니다"를 의미한다는 것을 수용해야 함을 의미합니다.

러시아어 해결 방법과 왜 실패하는가

불가리아어가 목록에 없으면 러시아어가 기본 해결 방법이 됩니다. 두 언어는 키릴 문자를 공유하고 특정 단어는 유사한 어원을 가지고 있습니다. 종이 위에서는 합리적인 근사치처럼 보입니다. 실제로는 처음부터 모두 직접 하는 것보다 더 많은 작업을 만드는 재앙입니다.

불가리아어 오디오에 적용된 러시아어 전사는 첫 눈에 거의 맞는 것을 생성합니다. 키릴 문자가 화면에 나타나고, 단어는 모호하게 슬라브식 형태를 가지고 있으며, 3개 중 1개는 실제로 맞을 수도 있습니다. 하지만 자막에서 "거의 맞음"은 완전히 틀렸다는 의미입니다. 60% 정확한 자막을 읽는 시청자는 메시지의 60%를 얻지 못합니다. 그들은 혼란, 방해, 그리고 제작자가 자신의 콘텐츠를 충분히 교정하지 않았다는 인상을 얻습니다.

다음의 편집 과정은 실제 시간이 손실되는 곳입니다. 5분 비디오는 180개에서 220개의 개별 자막 세그먼트를 생성할 수 있습니다. 전사 언어가 잘못되면 이러한 모든 세그먼트는 열어야 하고, 읽어야 하고, 실제 오디오와 비교해야 하고, 수동으로 다시 입력해야 합니다. 수정하지 말고, 완전히 다시 입력하세요. 왜냐하면 러시아어 전사가 불가리아어 원문과 너무 거의 유사하지 않아서 텍스트를 삭제하고 처음부터 시작하는 것이 문자 단위로 수정하려고 하는 것보다 빠르기 때문입니다. 5분 비디오에 대해 2시간의 수동 편집은 드물지 않습니다. 정기적인 업로드 일정으로 여러 YouTube 채널을 운영하는 사람에게 그 산술은 단순히 성립하지 않습니다.

이 정확한 문제는 불가리아어를 훨씬 넘어 확장됩니다. 힌디어 제작자는 그들의 지역 방언이 어휘의 절반을 놓치는 일반적인 힌디어 전사로 평탄해질 때 이를 직면합니다. 태국 제작자는 모든 다른 문장을 말도 안 되게 변환하는 음조 해석 오류를 다룹니다. 베트남어, 세르비아어, 타갈로그어, 스와힐리어. 주류 자막 도구에 의해 무시되거나 형편없게 근사되는 언어 목록은 길고, 그 언어를 말하는 제작자는 수년 동안 조용히 추가 작업 부하를 흡수해 왔습니다.

언어 격차가 처음부터 존재하는 이유

자막 도구는 비즈니스이고, 비즈니스는 수익이 있는 곳에 개발 리소스를 할당합니다. 영어권 시장은 비디오 생성 공간의 거의 모든 SaaS 제품에서 가장 큰 고객 지분을 나타냅니다. 스페인어와 포르투갈어는 라틴 아메리카의 대부분을 다룹니다. 프랑스어는 유럽과 아프리카의 일부를 추가합니다. 독일어, 일본어, 한국어. 각 하나는 상당한 구매력을 가진 시장을 엽니다. 10개 또는 12개 언어를 지원하는 제품은 잠재적 고객 기반의 대다수를 제공할 수 있다고 주장할 수 있으며, 순전히 재정적 관점에서 그 주장은 방어할 수 있습니다.

전사 시스템에 새로운 언어를 추가하는 것은 사소한 일이 아닙니다. 훈련 데이터, 품질 테스트, 지속적인 유지 관리 및 지원 문서가 필요합니다. 불가리아어처럼 700만 명이 말하는 언어의 경우, 비용 대비 수익 계산은 동일한 엔지니어링 시간이 영어 전사 정확도를 95%에서 97%로 개선하는 데 사용될 수 있을 때 투자를 정당화하지 못하므로, 수백만 명의 유료 사용자에게 영향을 줍니다.

결과는 상위 15개 또는 20개 언어가 우수한 지원을 받고, 다음 30개가 허용할 수 있는 범위를 얻고, 다른 모든 것은 누락되거나 기능으로 나열되어야 할 정도로 형편없게 구현되는 시장입니다. 이것은 악의적이지 않습니다. 가장 큰 가능한 대상자보다는 가장 광범위한 범위를 최적화하는 제품을 구축하는 예측 가능한 결과입니다. 하지만 그것이 일어나는 이유를 이해하는 것은 당신의 언어를 포함하지 않는 드롭다운 메뉴를 바라보고 있을 때 덜 답답하게 만들지 못합니다.

YEB의 subtitle generator는 다른 우선순위 세트로 구축되었습니다. 가장 상업적으로 가치있는 언어로 시작하여 외부로 작동하는 대신, 전사 엔진은 언어 지원의 너비에 대해 특별히 선택되었습니다. 출시 요구 사항으로서 98개 언어부터 처음부터, 로드맵 포부가 아닙니다. 불가리아어, 세르비아어, 힌디어, 태국어, 베트남어, 타갈로그어 및 경쟁사의 기능 목록에 거의 나타나지 않는 수십 개의 다른 언어가 모두 기본적으로 처리되며, 영어 또는 스페인어와 동일한 전사 파이프라인과 동일한 품질 표준이 있습니다.

적절한 언어 지원이 실제로 의미하는 바

언어를 지원한다는 것은 그 언어에서 오디오를 받고 일부 텍스트를 반환하는 것을 의미하는 것 이상입니다. 전사 엔진이 음성 구조, 일반적인 어휘, 그 언어의 자연스러운 말하기의 빠르기와 리듬을 이해한다는 것을 의미합니다. 불가리아어 스피커가 비디오를 녹화할 때, 출력이 전사 시스템이 우연히 나올 수 있는 적절한 고유명사 또는 기술 용어 이외에 수동으로 수정될 필요가 없다는 것을 의미합니다.

YEB Captions, 불가리아어 비디오를 업로드하는 것은 영어 비디오를 업로드하는 것과 정확히 동일하게 작동합니다. 98개 옵션의 전체 목록에서 언어를 선택하고, 오디오를 처리하고, 전사는 불가리아어의 적절하게 정시된 자막 세그먼트로 돌아옵니다. 러시아어 근사값 없음, 수동 재입력 없음, 5분 비디오에 대한 2시간 편집 세션 없음. 세그먼트는 여전히 필요한 경우 개별적으로 편집할 수 있으므로, 들리지 않은 단어가 있거나 수정이 필요한 이름 같은 경우, 하지만 기준선 정확도는 이러한 편집을 시간보다는 분으로 측정합니다.

동일한 것이 subtitle translation에 적용됩니다. 원래 불가리아어로 전사된 콘텐츠는 렌더링 전에 지원되는 다른 언어 중 하나로 번역될 수 있습니다. 불가리아어 가사가 있는 음악 비디오는 별도의 번역 워크플로우를 거치지 않고 영어, 스페인어 또는 일본어 자막과 함께 게시될 수 있습니다. 국제 대상을 대상으로 한 콘텐츠를 게시하는 제작자의 경우, 이것은 이전에 번역가를 고용하거나 저녁을 사전 및 많은 인내심으로 보내야 했던 전체 수동 작업 계층을 제거합니다.

YEB Captions가 불가리아어를 지원하는 유일한 도구라는 것은 아닙니다. 소수의 도구가 어떤 형태로든 제공합니다. 요점은 어디서 전사 품질이 광범위한 수동 수정 없이 진정으로 사용할 수 있는 적절한 지원이 주류 밖의 언어로는 드물며, "지원 목록"과 "실제로 잘 작동"사이의 격차는 종종 거대하다는 것입니다.

모든 사람을 위한 도구 구축의 더 넓은 문제

"모든 사람"이 "주요 언어를 말하는 모든 사람"을 의미한다는 것은 대부분의 소프트웨어 개발에 구워진 가정입니다. 기능 페이지는 "글로벌" 및 "다국어"를 말하지만, 실제 언어 목록은 훨씬 더 좁은 이야기를 말합니다. 이것은 자막 도구로 제한되지 않습니다. 기계 번역 서비스, 음성 어시스턴트, OCR 시스템 및 검색 엔진은 모두 적은 수의 언어에 대한 깊은 지원과 나머지에 대한 얕거나 존재하지 않는 지원의 동일한 패턴을 보여줍니다.

자막 도구를 특히 눈에 띄게 만드는 것은 실패의 성질입니다. 음성 어시스턴트가 명령을 잘못 이해할 때, 사용자는 반복하거나 대신 입력할 수 있습니다. 자막 도구가 쓰레기 텍스트를 생성할 때, 그 텍스트는 수백 또는 수천 명의 시청자에게 게시되는 비디오에 구워집니다. 오류는 영구적이고, 공개적이며, 제작자의 전문적인 평판과 직접 연결되어 있습니다. 잘못 얻는 것은 단순한 불편함이 아닙니다. 시청자가 즉시 알아차리는 눈에 띄는 품질 실패입니다.

언어 부족 지역을 말하는 제작자는 수년 동안 모든 종류의 해결 방법을 개발해 왔습니다. 일부는 청중이 다른 것을 말할 때에도 영어로 비디오를 녹화합니다. 일부는 자막을 완전히 건너뛰고 낮은 참여 수를 수용합니다. 일부는 가장 가까운 사용 가능한 언어를 사용한 다음 출력을 수정하는 데 시간을 보내며, 영어권 경쟁자가 단순히 처리할 필요가 없는 노동 비용을 흡수합니다. 이 중 어느 것도 실제 솔루션이 아닙니다. 이들은 특정 언어가 적절하게 지원할 가치가 없다고 결정한 시장에 의해 강제된 타협입니다.

captions.yeb.to를 구축하는 것은 부분적으로 이 특정 답답함에 대한 대응이었고 부분적으로 언어 부족 지역의 시장이 대부분의 회사가 생각하는 것보다 훨씬 크다는 인식이었습니다. 700만 불가리아어 스피커는 영어 또는 만다린과 비교하면 적은 수입니다. 그러나 세르비아인, 태국인, 베트남인, 타갈로그어 스피커, 스와힐리어 스피커를 포함하여 "상업적으로 흥미로운" 범주에 속하는 모든 언어를 더하면, 당신은 자막 도구에 의해 많은 년 동안 형편없게 지원된 수억 명의 사람들을 이야기하고 있습니다. 그것은 틈새 시장이 아닙니다. 그것은 단순히 해결되지 않은 시장이고, landscape of caption apps는 천천히 그 현실을 반영하기 시작합니다.

자주 묻는 질문

어떤 자막 생성기가 불가리아어를 지원합니까

매우 적은 자막 도구에 불가리아어가 지원 언어로 포함되어 있으며, 훨씬 더 적은 수가 사용할 수 있는 전사 품질을 생성합니다. YEB Captions는 불가리아어를 98개 언어 중 하나로 기본 전사로 지원하므로 출력이 대부분의 다른 도구가 불가리아어 스피커에게 강요하는 러시아어 언어 해결 방법을 필요로 하지 않습니다.

AI 자막 생성기가 비라틴 스크립트를 정확하게 처리할 수 있습니까

정확도는 전적으로 전사 엔진과 특정 언어에 대한 훈련 데이터의 양에 따라 달라집니다. 키릴, 데바나가리, 태국, 아랍 스크립트는 모두 현대 전사 모델에서 지원되지만 많은 자막 도구에는 이들 중 소수만 포함됩니다. 처음부터 광범위한 다국어 지원으로 구축된 도구는 그들을 사후 생각으로 추가한 도구보다 비라틴 스크립트를 훨씬 더 잘 처리하는 경향이 있습니다.

대부분의 자막 도구가 10~15개 언어만 지원하는 이유는 무엇입니까

언어 지원은 훈련 데이터, 테스트 및 지속적인 유지 관리가 필요합니다. 대부분의 회사는 가장 많은 수익을 생성하는 언어에 리소스를 집중합니다. 이는 영어, 스페인어, 프랑스어, 독일어 및 몇 가지 다른 언어를 의미합니다. 작은 인구가 말하는 언어는 순수한 비즈니스 관점에서 투자를 정당화하지 못하므로 대부분의 제품에서 완전히 빠집니다.

자동 자막 생성이 정확하여 수동 편집을 건너뛰기에 충분합니까

영어 및 스페인어와 같이 잘 지원되는 언어의 경우 최신 전사 정확도는 일반적으로 90% 이상이므로 경미한 수정만 필요합니다. 덜 일반적인 언어의 경우 정확도는 도구 간에 극적으로 다릅니다. 핵심 차이점은 도구가 처음부터 언어를 지원하도록 설계되었는지 또는 최소한의 테스트로 추가되었는지입니다.

대부분의 도구가 지원하지 않는 언어로 비디오에 자막을 추가하려면 어떻게 해야 합니까

가장 일반적인 해결 방법은 관련 언어를 선택하고 출력을 수동으로 수정하는 것이므로 시간이 매우 오래 걸립니다. 더 나은 선택은 실제로 언어를 기본적으로 지원하는 도구를 사용하는 것입니다. YEB의 subtitle generator는 98개 언어를 다루고 불가리아어, 세르비아어, 태국어 같은 대부분의 경쟁사가 무시하는 언어에서도 최소한의 수정이 필요한 전사를 생성합니다.

자막 번역과 자막 생성의 차이점은 무엇입니까

자막 생성은 음성 오디오를 동일한 언어의 텍스트로 변환하는 것을 의미합니다. 자막 번역은 기존 자막을 다른 언어로 변환하는 것을 의미합니다. YEB Captions는 둘 다 지원합니다. 비디오는 원래 언어로 전사될 수 있고 렌더링 전에 지원되는 다른 언어 중 하나로 translated될 수 있습니다.