Att lägga till undertexter till dina videor gör dem tillgängliga för fler människor och håller tittarna engagerade även med ljudet avstängt. Denna guide leder dig genom hela processen — från att ladda upp din video till att exportera den med inbrända undertexter eller nedladdningsbara SRT-filer.
Vi kommer att använda vårt verktyg captions.yeb.to, ett webbläsarbaserat verktyg som hanterar transkription, styling och översättning på ett ställe.
Steg 1: Kom igång med Captions AI av YEB
Gå till captions.yeb.to och logga in med ditt Google-konto. Det tar ett klick. Nya användare får gratis krediter för att testa verktyget innan de köper något. Med gratis krediter kan du transkribera och exportera videor upp till 1 minut långa — tillräckligt för att testa allt och se kvaliteten. Det enda kruxet är en liten YEB.to-vattenstämpel på den exporterade videon. SRT- och VTT-undertextfiler är alltid gratis utan vattenstämpel, oavsett plan.
Om du behöver längre videor eller ingen vattenstämpel, köper du PRO-krediter. Det finns ingen prenumeration — du köper en gång och använder dem när du vill. De går aldrig ut. För närvarande kostar en kort video under 5 minuter 2 krediter att transkribera och 2 till för att exportera som video. En 10-minuters video kostar 4 krediter för varje. Priset skalar med längd, inte med funktioner — allt är upplåst från början.
Steg 2: Ladda upp din video eller ljudfil
När du har loggat in ser du uppladdningszonen på huvudsidan. Antingen drar och släpper du din fil direkt på den, eller klickar du på "Välj fil" för att bläddra.
Verktyget accepterar de vanligaste videoformaten — MP4, MOV, AVI, MKV och WebM, med filer upp till 500MB. Men det är inte begränsat till video. Du kan också ladda upp ljudfiler — MP3, WAV, M4A, AAC, OGG, FLAC, upp till 100MB. Om du är en podcaster eller bara behöver en transkription utan video, ladda upp din ljudfil och resten av processen fungerar på samma sätt. Du får en fullständig transkription med tidsstämplar som du kan exportera som SRT eller VTT.
Efter att ha valt din fil dyker två inställningar upp:
Källspråk — välj språket som talas i din video, eller lämna det på "Auto-detektera" om du är osäker. Auto-detektera fungerar bra för de flesta stora språk.
Projektnamn — ge det ett namn så att du kan hitta det senare i din projektlista.
När allt ser bra ut, tryck på "Starta bearbetning." AI:n börjar transkribera ditt innehåll. Detta tar vanligtvis en bråkdel av den faktiska videolängden — en 10-minuters video transkriberas på ungefär en minut.
Steg 3: Granska och redigera transkriptionen
När transkriptionen är klar, kommer du till tidslinjeredigeraren. Varje ord har tidsstämplats och lagts ut som segment längs en tidslinje synkroniserad med din video.
Här kan du:
Redigera text — klicka på något segment och rätta ord som AI:n kanske har fått fel. Detta är särskilt användbart för egennamn, varumärken eller tekniska termer.
Justera timing — dra segmentkanterna för att justera när undertexterna visas och försvinner. Om en undertext dyker upp för tidigt eller för sent, är det här du fixar det.
Dela eller slå ihop segment — om en undertextdel är för lång för bekväm läsning, dela den. Om två korta fragment hör ihop, slå ihop dem.
Spela upp videon vid vilken punkt som helst för att kontrollera hur undertexterna synkar med ljudet. Det du ser i redigeraren är exakt vad du får i exporten.
Steg 4: Styla dina undertexter
Det är här du får undertexterna att se ut som du vill. Det snabbaste sättet att komma igång är med förinställningar — färdiga undertextstilar som du kan applicera med ett klick. Välj en som passar ditt innehåll, och du är klar. Om du vill justera ytterligare eller börja från början, ger den fullständiga stileditorn dig kontroll över allt:
Typsnitt och storlek — välj ett typsnitt som matchar ditt varumärke eller innehållsstil. Större text fungerar bättre för TikTok och Instagram Reels där folk tittar på små skärmar.
Färger — ställ in textfärg, bakgrundsfärg och opacitet. Vit text med en semitransparent mörk bakgrund är det säkra standardvalet. Ljusa färger utan bakgrund fungerar för en mer modern TikTok-stil.
Position — placera undertexterna längst ner (standard), högst upp, eller i mitten av ramen.
Effekter — lägg till kontur, skugga, eller animationer för att få texten att sticka ut mot röriga bakgrunder.
Övergångar — kontrollera hur undertexterna visas och försvinner på skärmen. Fade in, glid upp, poppa in, eller använd ord-för-ord avslöjande för en dynamisk karaoke-stil effekt som markerar varje ord när det talas. Detta fungerar särskilt bra för kortformatinnehåll på TikTok och Reels.
Visningsläge — välj hur undertexterna visas på skärmen. Standard visar hela segmentet på en gång. Ord-för-ord avslöjar ett ord i taget, TikTok-stil. Ordmarkering är karaokeläge — hela meningen är synlig men varje ord lyser upp när det talas. Linjeprogress ritar en progressionsbar över texten i synk med ljudet. Ord-för-ord och karaoke-lägen fungerar bäst för kortformatinnehåll där du vill ha maximal visuell inblandning.
Du kan också spara din anpassade stil som en förinställning för framtida projekt — användbart om du regelbundet producerar innehåll och vill ha ett konsekvent utseende över videor.
Förhandsvisningen uppdateras i realtid när du gör ändringar, så att du exakt kan se hur allt ser ut innan du bestämmer dig.
Steg 5: Lägg till översättning (Valfritt)
Om du vill nå tittare som talar ett annat språk, öppna översättningspanelen och välj ett målspråk. Verktyget stöder över 100 språk.
AI:n översätter hela ditt manuskript med ett klick. Men det intressanta är tvåspråksläget — istället för att ersätta den ursprungliga texten visas båda språken samtidigt. Din engelskspråkiga publik läser originalet medan dina spansktalande tittare läser översättningen, allt i samma video.
Varje språk får sin egen oberoende styling. Du kanske vill ha originalet i vitt längst ner och översättningen i gult strax ovanför. Eller originalet i en större font med översättningen mindre under. Du kontrollerar båda separat.
Steg 6: Lägg till emojis (valfritt)
För mer avslappnat innehåll — speciellt TikTok och Reels — lägger AI-emojifunktionen till kontextuellt relevanta emojis till dina undertexter automatiskt. AI:n läser vad som sägs och väljer emojis som passar.
Du kan ställa in var emojis dyker upp: ovanför texten, under den, till vänster, till höger, eller slumpmässigt placerade för en mer dynamisk känsla.
Detta är helt valfritt och förmodligen inte vad du vill ha för en företagsutbildningsvideo. Men för socialt innehåll tillför det visuell energi.
Steg 7: Exportera
Du har tre exportalternativ:
SRT- eller VTT-filer — dessa är undertextfiler som du laddar upp separat till YouTube, Vimeo eller någon plattform som stöder undertextspår. YouTube använder SRT. Webvideo-spelare använder vanligtvis VTT. Nedladdning av dessa är alltid gratis — inga krediter krävs.
HD-video (1080p) — detta skapar en ny kopia av din video med undertexterna permanent inbrända i bilderna. Utdata är en standard MP4-fil som du kan ladda upp var som helst — TikTok, Instagram, YouTube, LinkedIn, var som helst. Inga kompatibilitetsproblem med undertexter eftersom texten är en del av videon själv.
Om du har lagt till översättningar inkluderas de tvåspråkiga undertexterna i både undertextfilerna och den renderade videon.
Välj ditt format, tryck på exportera och ladda ner resultatet när det är klart. För SRT/VTT är det omedelbart. För videorendering, förvänta dig några minuter beroende på längd.
Snabba Tips
För YouTube: Exportera en SRT-fil och ladda upp den som ett undertextspår i YouTube Studio. Detta håller din video ren samtidigt som det ger tittarna möjlighet att slå på eller av undertexter. YouTube indexerar också undertexttext, vilket hjälper din video att visas i sökresultat.
För TikTok och Reels: Använd videoexport med inbrända undertexter. Dessa plattformar stöder inte separata undertextfiler, så texten måste vara en del av videon. Använd en större teckenstorlek — människor tittar på telefoner, och liten text försvinner. Placera undertexter i mitten eller övre mitten för att undvika överlappning med TikToks UI-element längst ner.
För podcasts och endast ljudinnehåll: Ladda upp din ljudfil på samma sätt. Du får ingen videoexport, men du får en ren SRT/VTT-transkript som du kan använda för programanteckningar, blogginlägg eller tillgänglighet.
Allmänt: Granska alltid transkriptionen innan du exporterar. AI-transkription är noggrann men inte perfekt — egennamn, slang och tungt accentuerat tal behöver ibland manuell korrigering. Två minuters redigering sparar dig från att publicera en undertext som säger "capitol" när du menade "capital."