القائمة المنسدلة هي أول شيء تراه عند تحميل فيديو على أي أداة ترجمة. قائمة طويلة من اللغات، مرتبة أبجدياً، أحياناً مع أعلام بجانبها. الإنجليزية موجودة دائماً، عادة في الأعلى. الإسبانية والفرنسية والألمانية والبرتغالية. كلها موجودة ومحسوبة. استمر في التمرير وقد تجد الصينية والاليابانية والكورية. استمر في التمرير. العربية. الهندية، أحياناً. ثم تنتهي القائمة، أو اللغة التي تحتاجها فعلاً ليست هناك. البلغارية. غير موجودة في القائمة. ليست كخيار، وليست كميزة بيتا، وليست حتى كإدراج غير مدعوم مع علامة تحذير. إنها ببساطة لا توجد في عالم المنتج.
هذا ليس إزعاجاً طفيفاً. عندما تكون اللغة مفقودة تماماً، الأداة ليست مفيدة جزئياً. إنها عديمة الفائدة تماماً. لا توجد طريقة بديلة تنتج نتائج مقبولة. الصوت يدخل، والأداة إما ترفضه تماماً أو تحاول معالجته كشيء آخر. النتيجة هي قمامة، في كل مرة.
تجربة كونك منشئ محتوى تقع لغتك الأساسية خارج نطاق اللغات "المثيرة للاهتمام تجارياً" هي تكيف مستمر. هذا يعني تعلم العمل حول الأدوات بدلاً من معها. هذا يعني قبول أن معظم البرامج ببساطة لم تُبنَ بك في الاعتبار، وأن الميزات المروجة كـ "عالمية" أو "متعددة اللغات" تعني فعلاً "نحن ندعم اللغات العشر التي تحقق لنا أكثر أرباح".
الحل الروسي ولماذا فشل
عندما لا تكون البلغارية في القائمة، تصبح الروسية الحل الافتراضي. اللغتان تشتركان في الأبجدية السيريلية، وكلمات معينة لها جذور متشابهة. على الورقة، يبدو وكأنه تقريب معقول. عملياً، إنها كارثة تخلق المزيد من العمل من فعل كل شيء يدوياً من الصفر.
النسخ الروسي المطبق على الصوت البلغاري ينتج شيئاً يبدو صحيحاً تقريباً للوهلة الأولى. أحرف السيريلية تظهر على الشاشة، الكلمات لها شكل سلافي غامض، وربما واحدة من ثلاث صحيحة فعلاً. لكن "صحيح تقريباً" في الترجمات يعني خاطئ تماماً. المشاهد الذي يقرأ ترجمات بدقة 60% لا يحصل على 60% من الرسالة. يحصل على التباس وإلهاء والانطباع بأن المنشئ لم يهتم بما يكفي لمراجعة محتواه الخاص.
عملية التحرير التي تلي ذلك هي حيث يضيع الوقت الفعلي. قد ينتج فيديو مدته خمس دقائق 180 إلى 220 جزء ترجمة فردي. عندما تكون لغة النسخ خاطئة، يجب فتح كل واحد من هذه الأجزاء وقراءته ومقارنته بالصوت الفعلي وإعادة كتابته بالكامل. ليس تصحيحه، بل إعادة كتابته بالكامل، لأن النسخ الروسي غالباً ما يشبه الأصل البلغاري بحيث يكون من الأسرع حذف النص والبدء من جديد بدلاً من محاولة إصلاحه حرفاً بحرف. ساعتان من التحرير اليدوي لمقطع فيديو مدته خمس دقائق ليس استثنائياً. بالنسبة لشخص يدير قنوات يوتيوب متعددة برزنامة تحميل عادية، هذه الحسابات ببساطة لا تصمد.
هذه المشكلة بالذات تمتد بعيداً عن البلغارية. منشئو المحتوى الهندي يواجهونها عندما يتم تسطيح اللهجة الإقليمية في نسخ هندية عامة تفقد نصف المفردات. منشئو المحتوى التايلاندي يتعاملون مع أخطاء تفسير النبرة التي تحول كل جملة ثانية إلى هراء. الفيتنامية والصربية والتاغالوغية والسواحيلية. قائمة اللغات التي يتم تجاهلها أو تقريبها بشكل سيء من قبل أدوات الترجمة الرئيسية طويلة، والمنشئون الذين يتحدثون هذه اللغات قد امتصوا بصمت عبء العمل الإضافي لسنوات.
لماذا الفجوة اللغوية موجودة في المقام الأول
أدوات الترجمة هي عمل تجاري، والشركات توزع موارد التطوير حيث يكون الإيراد. الأسواق الناطقة بالإنجليزية تمثل أكبر نسبة من العملاء الدافعين لكل منتج SaaS تقريباً في مساحة إنشاء الفيديو. الإسبانية والبرتغالية تغطي معظم أمريكا اللاتينية. الفرنسية تضيف أجزاء من أوروبا وأفريقيا. الألمانية واليابانية والكورية. كل واحدة تفتح سوقاً بقوة شرائية كبيرة. المنتج الذي يدعم هذه اللغات العشر أو الاثني عشر يمكنه أن يدعي أنه يخدم أكبر جزء من قاعدة عملائه المحتملة، ومن منظور مالي بحت، هذا الادعاء يمكن الدفاع عنه.
إضافة لغة جديدة إلى نظام النسخ ليس تافهاً. يتطلب بيانات تدريب واختبار الجودة والصيانة المستمرة وتوثيق الدعم. بالنسبة للغة يتحدثها سبعة ملايين شخص، مثل البلغارية، فإن حساب التكلفة إلى الإيراد نادراً ما يبرر الاستثمار عندما يمكن لنفس ساعات الهندسة أن تذهب نحو تحسين دقة النسخ الإنجليزي من 95% إلى 97%، مما يؤثر على ملايين المستخدمين الدافعين.
النتيجة هي سوق حيث تتلقى اللغات الخمس عشرة أو العشرون الأولى دعماً ممتازاً، والثلاثون التالية تحصل على تغطية مقبولة، وكل شيء آخر إما مفقود أو تم تنفيذه بشكل سيء لدرجة أنه لا ينبغي أن يتم إدراجه كميزة على الإطلاق. هذا ليس خبيثاً. إنها النتيجة المتوقعة لبناء المنتجات التي تُحسّن الجمهور الأكبر قدر الإمكان بدلاً من أوسع تغطية. لكن فهم السبب لا يجعله أقل إحباطاً عندما تكون أنت الذي تحدق في قائمة منسدلة لا تتضمن لغتك.
مولد الترجمات على YEB تم بناؤه بمجموعة مختلفة من الأولويات. بدلاً من البدء باللغات الأكثر قيمة تجارياً والعمل بالخارج، تم اختيار محرك النسخ خصيصاً لعرضه لدعم اللغات. ثمان وتسعون لغة من البداية، ليس كتطلع خارطة طريق، بل كمتطلب إطلاق. البلغارية والصربية والهندية والتايلاندية والفيتنامية والتاغالوغية وعشرات غيرهم الذين نادراً ما يظهرون في قوائم ميزات المنافسين يتم التعامل معهم أصلياً، مع نفس خط أنابيب النسخ والمعايير الجودة مثل الإنجليزية أو الإسبانية.
ما يعنيه دعم اللغة الصحيح فعلاً عملياً
دعم اللغة لا يعني فقط قبول الصوت باللغة وإرجاع نص. هذا يعني أن محرك النسخ يفهم البنية الصوتية والمفردات الشائعة والإيقاع والنبر من الكلام الطبيعي باللغة. هذا يعني أنه عندما يسجل متحدث بلغاري فيديو، لا يحتاج الناتج إلى تصحيح يدوي إلا لاسم عام أو مصطلح تقني قد يتعثر عليه أي نظام نسخ.
على YEB Captions، يعمل تحميل فيديو باللغة البلغارية تماماً مثل تحميل إنجليزي. يتم اختيار اللغة من القائمة الكاملة من 98 خيار، يتم معالجة الصوت، وترجع النسخ كأجزاء ترجمة مؤقتة بشكل صحيح باللغة البلغارية. لا تقريب روسي، لا إعادة كتابة يدوية، لا جلسات تحرير لمدة ساعتين لمقطع فيديو مدته خمس دقائق. لا تزال الأجزاء قابلة للتحرير بشكل فردي إذا لزم الأمر، مثل كلمة تم فهمها بشكل خاطئ هنا أو اسم يحتاج تصحيح هناك، لكن دقة الخط الأساسي تجعل هذه التعديلات تقاس بالدقائق بدلاً من الساعات.
الشيء ذاته ينطبق على ترجمة الترجمات. يمكن ترجمة المحتوى الذي تم نسخه في الأصل باللغة البلغارية إلى أي من اللغات الأخرى المدعومة قبل العرض. يمكن نشر مقطع فيديو موسيقي بكلمات بلغارية مع ترجمات إنجليزية أو إسبانية أو يابانية دون المرور عبر سير عمل ترجمة منفصل. بالنسبة لمنشئي المحتوى الذين ينشرون محتوى موجه للجماهير الدولية، هذا يلغي طبقة كاملة من العمل اليدوي الذي كان يتطلب سابقاً توظيف مترجم أو قضاء مساء مع قاموس والكثير من الصبر.
الملاحظة ليست أن YEB Captions هي الأداة الوحيدة في العالم التي تدعم البلغارية. عدد قليل من الأدوات تقدمها بشكل ما. الملاحظة هي أن الدعم الصحيح، حيث تكون جودة النسخ صالحة فعلاً بدون تصحيح يدوي كبير، تبقى نادرة للغات خارج التيار الرئيسي، والفجوة بين "مدرج كمدعوم" و "يعمل فعلاً بشكل جيد" غالباً ما تكون ضخمة.
المشكلة الأوسع لبناء الأدوات للجميع
هناك افتراض مدمج في معظم تطوير البرامج بأن "الجميع" يعني "كل من يتحدث لغة أساسية". صفحات الميزات تقول "عالمية" و "متعددة اللغات" بينما قائمة اللغات الفعلية تحكي قصة أضيق بكثير. هذا لا يقتصر على أدوات الترجمة. خدمات الترجمة الآلية والمساعدون الصوتيون وأنظمة OCR ومحركات البحث جميعها تعرض نفس نمط الدعم العميق لعدد صغير من اللغات والدعم السطحي أو غير الموجود للبقية.
ما يجعل أدوات الترجمة بارزة بشكل خاص هو طبيعة الفشل. عندما يسيء مساعد صوتي فهم الأمر، يمكن للمستخدم تكراره أو الكتابة بدلاً من ذلك. عندما تنتج أداة ترجمة نصاً قمامة، ينتهي هذا النص بحرقه في فيديو يتم نشره على مئات أو آلاف المشاهدين. الخطأ دائم وعام ومرتبط مباشرة بالسمعة المهنية للمنشئ. الحصول عليها خاطئة ليست مجرد إزعاج؛ إنها فشل جودة مرئي يلاحظه المشاهدون على الفور.
طور منشئو المحتوى الذين يتحدثون لغات غير مدعومة بشكل جيد جميع أنواع الحلول البديلة على مر السنين. يسجل البعض مقاطعهم بالإنجليزية حتى عندما تتحدث جمهورهم شيء آخر. يتخطى البعض الترجمات تماماً ويقبلون أرقام الانخراط المنخفضة. يستخدم البعض أقرب لغة متاحة ثم يقضون ساعات في إصلاح النتيجة، ممتصين تكلفة العمل التي لا يتعين على منافسيهم الناطقين بالإنجليزية التعامل معها. لا واحد منها حل حقيقي. إنها تسويات فرضتها سوق قررت أن لغات معينة لا تستحق الدعم الصحيح.
بناء captions.yeb.to مع 98 لغة كان جزئياً استجابة لهذا الإحباط المحدد وجزئياً اعترافاً بأن القطاع غير المدعوم من السوق أكبر بكثير مما تعتقده معظم الشركات. سبعة ملايين متحدث بلغاري رقم صغير مقارنة بالإنجليزية أو الماندرين. لكن أضف كل اللغات التي تقع في فئة "غير مثيرة للاهتمام تجارياً"، بما في ذلك الصرب والتايلاند والفيتناميون ومتحدثو التاغالوغية ومتحدثو السواحيلية، وأنت تتحدث عن مئات الملايين من الناس الذين تم خدمتهم بشكل سيء من قبل أدوات الترجمة لسنوات. هذا ليس مكانة. هذه سوق لم تتم معالجتها، ومشهد تطبيقات الترجمة يبدأ ببطء في عكس هذا الواقع.
الأسئلة الشائعة
أي مولدات ترجمات تدعم اللغة البلغارية
عدد قليل جداً من أدوات الترجمة تتضمن البلغارية كلغة مدعومة، وعدد أقل بكثير ينتج جودة نسخ صالحة. YEB Captions تدعم البلغارية كواحدة من 98 لغة مع نسخ أصلي، مما يعني أن النتيجة لا تتطلب الحل البديل باللغة الروسية الذي تفرضه معظم الأدوات الأخرى على متحدثي البلغارية.
هل يمكن لمولد ترجمات الذكاء الاصطناعي التعامل مع النصوص غير اللاتينية بدقة
تعتمد الدقة بالكامل على محرك النسخ ومقدار بيانات التدريب التي يتمتع بها للغة معينة. السيريلية والديفاناغاري والتايلاندية والخط العربي جميعها مدعومة من قبل نماذج النسخ الحديثة، لكن العديد من أدوات الترجمة تتضمن فقط عدد قليل منها. الأدوات المبنية مع دعم لغات متعددة واسع من البداية تميل إلى التعامل مع النصوص غير اللاتينية بشكل أفضل بكثير من تلك التي أضافتها كفكرة لاحقة مع اختبار ضئيل.
لماذا تدعم معظم أدوات الترجمة فقط 10 إلى 15 لغة
يتطلب دعم اللغة بيانات التدريب والاختبار والصيانة المستمرة. تركز معظم الشركات مواردها على اللغات التي تحقق أكثر الإيرادات، مما يعني الإنجليزية والإسبانية والفرنسية والألمانية وعدد قليل من غيرها. اللغات التي يتحدثها السكان الأصغر نادراً ما تبرر الاستثمار من وجهة نظر تجارية حتة، ولهذا السبب تسقط من معظم المنتجات تماماً.
هل النسخ التلقائي للترجمات دقيق بما يكفي لتجاوز التحرير اليدوي
بالنسبة للغات المدعومة جيداً مثل الإنجليزية والإسبانية، عادة ما تكون دقة النسخ الحديثة أعلى من 90%، مما يعني أن التصحيحات البسيطة فقط مطلوبة. للغات الأقل شيوعاً، تختلف الدقة بشكل كبير بين الأدوات. الفرق الرئيسي هو ما إذا كانت الأداة مصممة لدعم اللغة من البداية أو أضافتها كفكرة لاحقة مع اختبار ضئيل.
كيف أضيف ترجمات إلى فيديو بلغة لا تدعمها معظم الأدوات
الحل البديل الأكثر شيوعاً هو تحديد لغة ذات صلة وتصحيح النتيجة يدوياً، وهو يستغرق وقتاً طويلاً جداً. الخيار الأفضل هو استخدام أداة تدعم فعلاً اللغة أصلياً. مولد ترجمات YEB يغطي 98 لغة وينتج نصوص تتطلب تصحيح حد أدنى حتى للغات مثل البلغارية والصربية والتايلاندية التي يتجاهلها معظم المنافسين.
ما الفرق بين ترجمة الترجمات وإنشاء الترجمات
إنشاء الترجمات يعني تحويل الصوت المنطوق إلى نص باللغة ذاتها. ترجمة الترجمات تعني أخذ ترجمات موجودة وتحويلها إلى لغة مختلفة. YEB Captions تدعم كليهما. يمكن نسخ الفيديو بلغته الأصلية ثم ترجمته إلى أي من اللغات الأخرى المدعومة قبل العرض.