เมนูแบบเลื่อนลงเป็นสิ่งแรกที่คุณเห็นเมื่ออัปโหลดวิดีโอไปยังเครื่องมือสร้างคำบรรยายใดๆ รายการภาษายาวๆ เรียงตามตัวอักษร บางครั้งมีธงข้างๆ ภาษาอังกฤษอยู่ที่นั่นเสมอ โดยปกติอยู่ที่ด้านบน ภาษาสเปน ฝรั่งเศส เยอรมัน โปรตุเกส ทั้งหมดมีอยู่และพร้อมสำหรับการใช้งาน เลื่อนเพิ่มเติมและคุณอาจพบภาษาจีน ญี่ปุ่น เกาหลี เลื่อนต่อไป ภาษาอาหรับ ภาษาฮินดี บางครั้ง และจากนั้นรายการจึงสิ้นสุด หรือภาษาที่คุณต้องการนั้นไม่มีอยู่เลย ภาษาบัลแกเรีย ไม่ได้ระบุไว้ ไม่ใช่ตัวเลือก ไม่ใช่ฟีเจอร์เบตา แม้แต่ไม่ได้เป็นรายการที่ไม่สนับสนุนโดยมีป้ายเตือน มันเพียงไม่มีอยู่ในจักรวาลของผลิตภัณฑ์

นี่ไม่ใช่ความไม่สะดวกเล็กน้อย เมื่อภาษาหายไปโดยสิ้นเชิง เครื่องมือนี้จึงไม่เป็นประโยชน์บางส่วน มันไร้ประโยชน์โดยสิ้นเชิง ไม่มีวิธีแก้ปัญหาที่สร้างผลลัพธ์ที่ยอมรับได้ เสียงเข้ามา และเครื่องมือจะปฏิเสธมันออกไปหรือพยายามประมวลผลเป็นสิ่งอื่น ผลลัพธ์จึงเป็นขยะทุกครั้ง

ประสบการณ์ของผู้สร้างเนื้อหาที่ภาษาหลักของพวกเขาอยู่นอกขอบเขตของภาษา "ที่น่าสนใจทางพาณิชย์" นั้นเป็นการปรับตัวอย่างต่อเนื่อง มันหมายถึงการเรียนรู้ที่จะใช้เครื่องมือแทนที่จะใช้กับเครื่องมือเหล่านี้ มันหมายถึงการยอมรับว่าซอฟต์แวร์ส่วนใหญ่ไม่ได้ถูกสร้างขึ้นโดยคำนึงถึงคุณ และฟีเจอร์ที่ตลาดว่า "โลกี" หรือ "หลายภาษา" จริงๆ แล้วหมายถึง "เรารองรับ 10 ภาษาที่สร้างรายได้ให้เราได้มากที่สุด"

วิธีแก้ปัญหารัสเซีย และเหตุใดจึงล้มเหลว

เมื่อภาษาบัลแกเรีย ไม่อยู่ในรายการ รัสเซียจึงกลายเป็นวิธีแก้ปัญหาเริ่มต้น ทั้งสองภาษาใช้อักษรซีริลลิก และคำบางคำมีรากศัพท์ที่คล้ายกัน ในเชิงทฤษฎี ดูเหมือนว่าจะเป็นการประมาณที่สมควร ในทางปฏิบัติ มันเป็นภัยพิบัติที่สร้างงานมากกว่าการทำทั้งหมดด้วยมือตั้งแต่เริ่มต้น

การถอดเสียงรัสเซีย ที่ใช้กับเสียงภาษาบัลแกเรีย สร้างสิ่งที่ดูเกือบจะถูกต้องในแวบแรก ตัวอักษรซีริลลิกปรากฏบนหน้าจอ คำต่างๆ มีรูปร่างที่คล้ายคลึงกับสลาเวีย และบางที อย่างน้อยหนึ่งใน 3 ตัวอักษร นั้นถูกต้อง แต่ "เกือบจะถูกต้อง" ในคำบรรยายหมายถึงการสิ้นเชิง ผิด ผู้ดูที่อ่านคำบรรยายที่มีความถูกต้อง 60% ไม่ได้รับข้อความ 60% พวกเขาจึงได้รับความสับสน การ分散ใจ และความประทับใจว่าผู้สร้างไม่มีความเอาใจใส่เพียงพอที่จะตรวจสอบเนื้อหาของตนเอง

กระบวนการแก้ไขที่ตามมา คือจุดที่สูญเสียเวลาจริงๆ วิดีโอ 5 นาทีอาจสร้างส่วนคำบรรยาย 180 ถึง 220 ส่วน เมื่อภาษาถอดเสียงเป็นภาษาผิด ทุกส่วนหนึ่งในนั้นจำเป็นต้องเปิด อ่าน เปรียบเทียบกับเสียงจริง และพิมพ์ใหม่ทั้งหมด ไม่ได้แก้ไข แต่พิมพ์ใหม่ทั้งหมด เนื่องจากการถอดเสียงรัสเซีย มักจะไม่คล้ายคลึงกับต้นฉบับภาษาบัลแกเรีย จึงเร็วกว่าในการลบข้อความและเริ่มต้นใหม่มากกว่าความพยายามที่จะแก้ไข ตัวอักษรต่อตัวอักษร การแก้ไข 2 ชั่วโมงสำหรับวิดีโอ 5 นาที ไม่ใช่เรื่องปกติ สำหรับใครบางคนที่ทำ YouTube หลายช่องที่มีตารางอัปโหลดปกติ เลขคณิตนั้นไม่สามารถจ่ายได้เลย

ปัญหาที่เหมือนกันนี้ขยายไปไกลนอกเหนือจากภาษาบัลแกเรีย ผู้สร้างภาษาฮินดี เผชิญหน้ากับสถานการณ์เมื่อวัฒนะภูมิภาคของพวกเขาถูกทำให้เรียบง่ายเป็นการถอดเสียงภาษาฮินดี ทั่วไป ที่พลาดศัพท์ครึ่งหนึ่ง ผู้สร้างเนื้อหาไทยจัดการกับข้อผิดพลาดการตีความเสียงที่เปลี่ยนประโยคทั้งประโยคให้เป็นสิ่งไร้สาระ ภาษาเวียดนาม เซอร์เบีย ตากาล็อก สวาฮีลี รายการภาษาที่ถูกละเว้นหรือประมาณค่าอย่างง่ายๆ โดยเครื่องมือสร้างคำบรรยายหลักนั้นยาว และผู้สร้างเนื้อหาที่พูดภาษาเหล่านั้น ได้รับการดูดซึมปริมาณงานเพิ่มเติมอย่างเงียบๆ มาหลายปีแล้ว

เหตุใดช่องว่างภาษาจึงมีอยู่ตั้งแต่แรก

เครื่องมือสร้างคำบรรยายเป็นธุรกิจ และธุรกิจจึงจัดสรรทรัพยากรการพัฒนาไปยังจุดที่มีรายได้ตลาดภาษาอังกฤษเป็นส่วนแบ่งที่ใหญ่ที่สุดของลูกค้าที่จ่ายเงินสำหรับผลิตภัณฑ์ SaaS เกือบทั้งหมดในพื้นที่การสร้างวิดีโอ ภาษาสเปนและโปรตุเกส ครอบคลุมส่วนใหญ่ของอเมริกาละติน ฝรั่งเศส เพิ่มส่วนของยุโรปและแอฟริกา เยอรมัน ญี่ปุ่น เกาหลี แต่ละส่วนเปิดตลาดที่มีอำนาจซื้อที่มีนัยสำคัญ ผลิตภัณฑ์ที่รองรับ 10 หรือ 12 ภาษา สามารถอ้างว่าให้บริการลูกค้าที่มีศักยภาพส่วนใหญ่ และจากมุมมองที่บริสุทธิ์ทางการเงิน ข้อเรียกร้องนั้นสามารถป้องกันได้

การเพิ่มภาษาใหม่ให้กับระบบถอดเสียงนั้นไม่ใช่เรื่องง่าย มันต้องการข้อมูลการฝึกอบรม การทดสอบคุณภาพ การบำรุงรักษาอย่างต่อเนื่อง และเอกสารสนับสนุน สำหรับภาษาที่พูดโดยผู้คน 7 ล้านคน เช่น ภาษาบัลแกเรีย การคำนวณต้นทุนต่อรายได้ ไม่ค่อยสมควรลงทุน เมื่อสามารถใช้ชั่วโมงวิศวกรรมเดียวกันเพื่อปรับปรุงความถูกต้องการถอดเสียงภาษาอังกฤษ จาก 95% เป็น 97% ซึ่งส่งผลกระทบต่อผู้ใช้ที่จ่ายเงินหลายล้านคน

ผลลัพธ์คือตลาดที่ภาษา 15 หรือ 20 อันดับแรกได้รับการสนับสนุนที่ยอดเยี่ยม 30 ภาษาถัดไปได้รับความครอบคลุมที่พอใจ และทุกอย่างอื่นหายไปหรือถูกดำเนินการได้อย่างแย่มากจนไม่ควรระบุว่าเป็นฟีเจอร์เลย นี่ไม่ใช่เรื่องโหดร้าย มันเป็นผลลัพธ์ที่คาดเดาได้ของการสร้างผลิตภัณฑ์ที่ปรับให้เหมาะสมสำหรับผู้ชมที่ใหญ่ที่สุดที่เป็นไปได้แทนที่จะเป็นความครอบคลุมที่กว้างที่สุด แต่การทำความเข้าใจว่าทำไมมันจึงเกิดขึ้น ไม่ได้ทำให้มันน้อยลงแม้แต่น้อย เมื่อคุณเป็นคนที่มองเมนูแบบเลื่อนลงที่ไม่รวมภาษาของคุณ

ตัวสร้าง subtitle generator บน YEB ถูกสร้างขึ้นด้วยชุดลำดับความสำคัญที่แตกต่างกัน แทนที่จะเริ่มต้นด้วยภาษาที่มีคุณค่ามากที่สุดทางพาณิชย์และทำงานออกไป เครื่องมือถอดเสียงได้รับการเลือกโดยเฉพาะสำหรับความกว้างของการรองรับภาษา 98 ภาษาตั้งแต่เริ่มต้น ไม่ใช่เป็นความทะเยอทะยานแผนงาน แต่เป็นข้อกำหนดการเปิดตัว ภาษาบัลแกเรีย เซอร์เบีย ฮินดี ไทย เวียดนาม ตากาล็อก และอีกหลายสิบคนที่ไม่ค่อยปรากฏในรายการฟีเจอร์ของคู่แข่ง ทั้งหมดได้รับการจัดการเป็นภาษา ที่มีไปป์ไลน์ถอดเสียงเดียวกันและมาตรฐานคุณภาพเดียวกับภาษาอังกฤษหรือสเปน

สิ่งที่การสนับสนุนภาษาที่เหมาะสม หมายถึง ในทางปฏิบัติ

การสนับสนุนภาษาไม่ได้หมายความว่ายอมรับเสียงในภาษาที่และส่งคืนข้อความบางส่วน มันหมายถึงเครื่องมือถอดเสียงเข้าใจโครงสร้างเสียง ศัพท์ทั่วไป จังหวะและจังหวะของการพูดตามธรรมชาติในภาษาที่ มันหมายถึงเมื่อผู้พูดภาษาบัลแกเรีย บันทึกวิดีโอ ผลลัพธ์ไม่จำเป็นต้องมีการแก้ไขด้วยตนเองเกินกว่าชื่อเฉพาะเท่านั้น หรือพจน์เทคนิค ที่ระบบถอดเสียงใดก็ตามอาจสะดุด

บน YEB Captions การอัปโหลดวิดีโอภาษาบัลแกเรีย ทำงานเหมือนกับการอัปโหลดวิดีโออังกฤษ ภาษาได้รับการเลือกจากรายการ 98 ตัวเลือกแบบเต็ม เสียงได้รับการประมวลผล และการถอดเสียงกลับมาเป็นส่วนคำบรรยายที่มีการจัดเวลาอย่างถูกต้องในภาษาบัลแกเรีย ไม่มีการประมาณรัสเซีย ไม่มีการพิมพ์ใหม่ ไม่มีการแก้ไข 2 ชั่วโมงสำหรับวิดีโอ 5 นาที ส่วนต่างๆ ยังสามารถแก้ไขได้โดยบุคคล หากจำเป็น เช่น คำที่เข้าใจผิดที่นี่ หรือชื่อที่ต้องการแก้ไข แต่ความถูกต้องพื้นฐาน ทำให้การแก้ไขเหล่านั้นวัดในนาที แทนที่จะเป็นชั่วโมง

เช่นเดียวกับ subtitle translation เนื้อหาที่ถูกถอดเสียงเดิมในภาษาบัลแกเรีย สามารถแปลเป็นภาษาอื่นๆ ที่สนับสนุนใดๆ ก่อนการแสดงผล วิดีโออเพลง ที่มีการออกเสียงเพลงบัลแกเรีย สามารถเผยแพร่ด้วยคำบรรยายอังกฤษ สเปน หรือญี่ปุ่น โดยไม่ต้องผ่านเวิร์กโฟลว์การแปลแยกต่างหาก สำหรับผู้สร้างเนื้อหาที่เผยแพร่เนื้อหาที่มีวัตถุประสงค์สำหรับผู้ชมระหว่างประเทศ นี่คือการขจัดชั้นงานด้วยตนเองทั้งชั้นที่ก่อนหน้านี้ต้องการการจ้าง นักแปล หรือใช้เวลาเย็นกับพจนานุกรมและความอดทนมากมาย

ประเด็นนี้ไม่ใช่ว่า YEB Captions เป็นเครื่องมือเพียงชิ้นเดียวในโลกที่รองรับภาษาบัลแกเรีย มีเครื่องมือสักไม่กี่เครื่องที่เสนอในบางรูปแบบ ประเด็นคือการสนับสนุนที่เหมาะสม โดยที่คุณภาพการถอดเสียงนั้นสามารถใช้ได้จริงโดยไม่ต้องทำการแก้ไขด้วยตนเองอย่างกว้างขวาง ยังคงหายากสำหรับภาษาที่อยู่นอกกระแสหลัก และช่องว่างระหว่าง "ระบุว่ารองรับ" และ "ทำงานได้ดีจริง" มักจะมีขนาดใหญ่

ปัญหาที่กว้างขึ้นของการสร้างเครื่องมือสำหรับทุกคน

มีสมมติฐาน ที่อยู่ในการพัฒนาซอฟต์แวร์ส่วนใหญ่ว่า "ทุกคน" หมายถึง "ทุกคนที่พูดภาษาหลัก" หน้าฟีเจอร์กล่าวว่า "โลกี" และ "หลายภาษา" ในขณะที่รายการภาษาจริง บอกเล่าเรื่องที่แคบกว่ามาก นี่ไม่ได้จำกัดเฉพาะเครื่องมือสร้างคำบรรยาย การแปลเครื่องจักร ผู้ช่วยเสียง ระบบ OCR และเครื่องมือค้นหา ทั้งหมดแสดงให้เห็นถึงรูปแบบเดียวกันของการสนับสนุนลึกสำหรับจำนวนเล็กน้อย ของภาษา และการสนับสนุนที่ตื้นหรือไม่มีอยู่สำหรับส่วนที่เหลือ

สิ่งที่ทำให้เครื่องมือสร้างคำบรรยายเป็นที่สังเกต โดยเฉพาะ คือ ธรรมชาติของความล้มเหลว เมื่อผู้ช่วยเสียง เข้าใจคำสั่งผิด ผู้ใช้สามารถทำซ้ำได้ หรือพิมพ์แทน เมื่อเครื่องมือสร้างคำบรรยายสร้างข้อความขยะ ข้อความนั้น สิ้นสุด ที่ถูกไหม่เข้าไปในวิดีโอที่ได้รับการเผยแพร่สำหรับผู้ชมหลายร้อยหรือหลายพัน ข้อผิดพลาดนั้นมีความหมาย สาธารณะ และเกี่ยวข้องโดยตรง กับชื่อเสียงของผู้สร้างเนื้อหา การทำให้ผิดไป ไม่ได้เป็นเพียงความไม่สะดวก มันเป็นความล้มเหลวด้านคุณภาพที่มองเห็นได้ ที่ผู้ชมสังเกตได้ทันที

ผู้สร้างเนื้อหาที่พูดภาษาที่ได้รับบริการไม่เพียงพอ ได้พัฒนาวิธีแก้ปัญหาทั้งหมดในช่วงหลายปี บางคนบันทึกวิดีโอของพวกเขาเป็นภาษาอังกฤษแม้ว่าผู้ชมของพวกเขา พูดอย่างอื่น บางคนข้ามคำบรรยายทั้งหมด และยอมรับตัวเลขการมีส่วนร่วมที่ต่ำกว่า บางคน ใช้ภาษาที่ใกล้เคียงที่สุดและจากนั้นใช้เวลาหลายชั่วโมงแก้ไขผลลัพธ์ โดยการดูดซึม ต้นทุนแรงงาน ที่คู่แข่งที่พูดภาษาอังกฤษ ไม่จำเป็นต้องรับมือ ไม่มี ใด ของสิ่งเหล่านี้เป็นการแก้ปัญหาจริง พวกเขา คือการประนีประนอม บังคับใช้โดยตลาด ที่ตัดสินใจ ภาษาบางภาษา ไม่คุ้มค่า การ รองรับอย่างเหมาะสม

การสร้าง captions.yeb.to ที่มี 98 ภาษา เป็นส่วนการตอบสนอง ต่อความหงุดหงิดที่เฉพาะเจาะจงนี้ และส่วนหนึ่งเป็นการรับรู้ว่า ส่วนของตลาดที่ได้รับบริการไม่เพียงพอ นั้นใหญ่กว่า บริษัท ส่วนใหญ่ดูเหมือนว่า จะคิด ผู้พูดภาษาบัลแกเรีย 7 ล้านคน เป็นตัวเลขเล็ก ๆ เมื่อเทียบกับภาษาอังกฤษ หรือจีน แต่เพิ่ม ขึ้นทั้งหมด ภาษา ที่อยู่ใน "ไม่ น่าสนใจทางพาณิชย์" ประเภท รวมทั้ง เซอร์เบีย ไทย เวียดนาม ตากาล็อก ผู้พูดสวาฮีลี และคุณ พูดคุย กับ ผู้คนหลายร้อยล้านคน ที่ได้รับบริการ ไม่ดี โดย เครื่องมือสร้างคำบรรยาย สำหรับ ปี นั่น ไม่ใช่ ช่องว่าง นั่น คือ ตลาด ที่ ก็ไม่ได้ ทำให้ที่อยู่ และ landscape of caption apps จึงค่อยๆ เริ่มสะท้อนให้เห็นว่า ความจริง นั้น

คำถามที่พบบ่อย

เครื่องมือสร้างคำบรรยายใดที่รองรับภาษาบัลแกเรีย

เครื่องมือสร้างคำบรรยายเพียงไม่กี่เครื่องรวมภาษาบัลแกเรียเป็นภาษาที่รองรับ และน้อยกว่านั้นยังสร้างคุณภาพการถอดเสียงที่ใช้ได้ YEB Captions รองรับภาษาบัลแกเรียเป็นหนึ่งใน 98 ภาษา ด้วยการถอดเสียงแบบเนทีฟ ซึ่งหมายความว่า ผลลัพธ์ไม่จำเป็นต้องใช้วิธีแก้ปัญหาแบบรัสเซีย ที่เครื่องมือส่วนใหญ่บังคับใช้กับผู้พูดภาษาบัลแกเรีย

เครื่องมือสร้างคำบรรยายด้วย AI สามารถจัดการสคริปต์ที่ไม่ใช่ละตินได้อย่างแม่นยำ

ความแม่นยำขึ้นอยู่กับเครื่องมือถอดเสียง และข้อมูลการฝึกอบรมจำนวนเท่าใดที่มีสำหรับภาษาที่เฉพาะเจาะจง ซีริลลิก เทวนครรี ไทย และอักษรอาหรับ ทั้งหมดได้รับการสนับสนุนโดยแบบจำลองการถอดเสียงสมัยใหม่ แต่เครื่องมือสร้างคำบรรยายจำนวนมากรวมเพียงไม่กี่เครื่องในจำนวนนี้ เครื่องมือที่สร้างขึ้นด้วยการสนับสนุนหลายภาษาที่กว้างขวางตั้งแต่เริ่มต้น มักจะจัดการกับสคริปต์ที่ไม่ใช่ละตินได้ดีกว่าอย่างมาก มากกว่าเครื่องมือที่เพิ่มเป็นกรณีภายหลังด้วยการทดสอบที่น้อยที่สุด

เหตุใดเครื่องมือสร้างคำบรรยายส่วนใหญ่จึงรองรับเพียง 10 ถึง 15 ภาษา

การสนับสนุนภาษาต้องการข้อมูลการฝึกอบรม การทดสอบ และการบำรุงรักษาอย่างต่อเนื่อง บริษัท ส่วนใหญ่มุ่งเน้นทรัพยากรของพวกเขา ไปยังภาษา ที่สร้างรายได้มากที่สุด ซึ่งหมายถึง ภาษาอังกฤษ สเปน ฝรั่งเศส เยอรมัน และไม่กี่ภาษาอื่นๆ ภาษา ที่พูดโดยประชากรที่เล็กกว่า ไม่ค่อยสมควร ลงทุน จากมุมมอง ธุรกิจที่บริสุทธิ์ ซึ่งเป็นเหตุผล ว่าทำไมพวกเขา ได้รับการตัดออก จากผลิตภัณฑ์ส่วนใหญ่ทั้งหมด

การสร้างคำบรรยายอัตโนมัติ มีความแม่นยำเพียงพอที่จะข้ามการแก้ไขด้วยตนเองหรือไม่

สำหรับภาษา ที่ได้รับการสนับสนุนอย่างดี เช่น ภาษาอังกฤษ และสเปน ความแม่นยำการถอดเสียง สมัยใหม่ โดยปกติมีค่ามากกว่า 90% ซึ่งหมายความว่า เพียง การแก้ไข เล็กน้อย เท่านั้นที่จำเป็น สำหรับ ภาษา ที่ไม่ค่อยพบบ่อย ความแม่นยำ แตกต่างกันอย่างมาก ระหว่าง เครื่องมือ ความ แตกต่างที่สำคัญ คือ ว่า เครื่องมือ ได้รับการออกแบบ เพื่อ รองรับ ภาษา ตั้งแต่ต้น หรือ เพิ่มเติม ต่อไป ด้วย การ ทดสอบ ขั้นต่ำ

ฉันจะเพิ่มคำบรรยายลงในวิดีโอในภาษาที่เครื่องมือส่วนใหญ่ไม่สนับสนุนได้อย่างไร

วิธีแก้ปัญหา ที่พบบ่อย ที่สุด คือ การเลือก ภาษา ที่เกี่ยวข้อง และการ แก้ไข ผลลัพธ์ด้วยตนเอง ซึ่ง เป็น เรื่องยุ่งวุ่นวาย อย่างสุดขั้ด ตัวเลือก ที่ดี กว่า คือ การใช้ เครื่องมือ ที่รองรับ ภาษา จริงๆ YEB's subtitle generator ครอบคลุม 98 ภาษา และสร้าง การ ถอดเสียง ที่ต้อง เพียง การ แก้ไข น้อย ที่สุด แม้ สำหรับ ภาษา เช่น ภาษาบัลแกเรีย เซอร์เบีย และไทย ที่คู่แข่ง ส่วนใหญ่ เพิกเฉย

ความแตกต่างระหว่างการแปลคำบรรยายและการสร้างคำบรรยายคืออะไร

การสร้างคำบรรยาย หมายถึง การแปลง เสียง พูด เป็น ข้อความ ใน ภาษา เดียวกัน การแปล คำบรรยาย หมายถึง การ นำ คำบรรยาย ที่มี อยู่ และแปลง เป็น ภาษา ต่างๆ YEB Captions รองรับ ทั้งสองอย่าง วิดีโอ สามารถ ถูก ถอดเสียง ในภาษา ดั้งเดิม และจากนั้น translated เป็น ภาษา ที่รองรับ อื่นๆ ก่อน การ แสดงผล