WEB-DL

OCR提取各类视频字幕

马上2020年了,想着12月还没写点东西,想着总要写点东西凑合过去吧。想来,今年折腾比较多的东西就是Netflix和Amazon下载工具的魔改版,也不太方便写,更不愿意随便分享。另一个就是扒取部分流媒体网站的字幕、校对字幕时轴、OCR蓝光碟SUP字幕转srt,上周遇到一个硬字幕的视频,奈何画质比较烂,而韩版是不会有中字的,只能OCR视频硬字幕了,想来也就这点东西能写一下吧,也算是做个记录。
玩PT已经5年多了,收获不少,分享不少,真正技术掌握的不多。OCR字幕应该算是一门手艺(体力活)了,详细教程不写了,今晚暂时没这么多时间,先写一下流程。

更新:

2024.02.21:添加电视源码DVB字幕提取方法

2022.07.08:添加视频硬字幕OCR软件Video-subtitle-extractor (vse) 

一、蓝光碟的SUP字幕OCR成srt格式

推荐使用IdxSubOcr

1.安装office的MODI模块
对于Windows系统,想要OCR字幕,安装office的MODI模块是必不可少的,其他平台我不清楚。
MODI模块可以通过office 2010/2007/2003安装包选择安装,也可以通过更小体积的SharePointDesigner程序安装,还有一种方法就是直接安装马健老师的MODI_From_Office文件,上述三种方法设计的软件直接从马健老师的网盘下载即可,网盘地址为:链接:https://pan.baidu.com/s/1PnpZ3Bk-lTArrajva7EVzQ 提取码:4hie

2.提取蓝光碟字幕
可以用eac3to程序提取;也可以借助MeGUI的辅助功能提取(本质上还是调用eac3to);tsMuxeR程序加载mpls文件独取视频正片文件保存sup文件。

3.OCR字幕
在没有用IdxSubOcr 2.0版之前,我一直用的的方法是BDSup2Sub软件将sup字幕转成idx+sub文件,然后用IdxSubOcr调用idx文件独取sub内容。IdxSubOcr2.0版开始支持直接独取sup文件了,从此可以少一步,也避免sup字幕转成idx+sub文件过程中由于BDSup2Sub这种上古软件识别功能不够强引起的错误,在此非常感谢马健老师更新IdxSubOcr,不然这种上古优秀软件真的只能将就凑合用。IdxSubOcr详细使用步骤详见马健老师的教程说明,在此不多赘述。

4.检查错误
OCR字幕需要仔细检查初版srt文件,毕竟软件是机器,不会像人一样,一看就知道是什么字,加上字体或者颜色干扰,难免有识别错误的。检查错误这步很累,真的不是一般的累,我一般用SrtEdit加载视频和初版字幕检查或者视频播放软件PotPlayer边看视频边检查,这个看个人习惯和需求了。记住,这步是体力活。。。没啥可以偷懒的,至少目前我是没找到什么偷懒方法。

二、视频硬字幕OCR成srt格式

所谓硬字幕,就是压在视频一起,不能直接提取sup、srt、ass等文件的字幕,为了保护字幕不被直接盗用,很多动漫压制组、流媒体网站选择字幕压在视频一起,虽然方便观看和不被盗用,但是不方便我们使用(根本没法直接用),因此,我们需要想办法把硬字幕OCR提取出来方便二次、N次魔改使用。

(一)esrXP

1.esrXP读取视频
esrXP作为上古软件,在Windows10系统环境下,我没正常运行过,目前解决方案,笔记本远程我台式机打开esrXP、虚拟机安装win7/winXP打开软件ocr字幕。上古软件esrXP容易奔溃,记得随时保存。esrXP可以导出idx+sub文件,可以用IdxSubOcr实现最终ocr字幕。

2.esrXP注意事项
推荐把视频切割成30分钟左右一段文件,自己备注好分段,esrXP作为上古软件经常奔溃。esrXP需要根据视频和硬字幕字体、颜色进行详细调整配置,不然错误率很高。

(二)Video-subtitle-extractor (vse)

Video-subtitle-extractor (vse) 是一款将视频中的硬字幕提取为外挂字幕文件(srt格式)的软件。 主要实现了以下功能:

  • 提取视频中的关键帧
  • 检测视频帧中文本的所在位置
  • 识别视频帧中文本的内容
  • 过滤非字幕区域的文本,去除水印(台标)文本
  • 去除重复字幕行,生成srt字幕文件
  • 支持视频字幕批量提取
  • 多语言:支持中文/英文日语韩语阿拉伯语繁体中文法语德语俄语西班牙语葡萄牙语意大利语字幕的提取
  • 多模式:
    • 快速 – 快速提取字幕但可能丢字幕(推荐)
    • 精准 – 不丢字幕但速度较慢

Video-subtitle-extractor (vse)官方地址:https://github.com/YaoFANGUK/video-subtitle-extractor

相关使用方法各位自行参考作者介绍内容。

三、电视源码DVB字幕OCR成srt格式

电视源码DVB字幕提取成srt字幕分两步走即可。

1.使用SubtitleEdit转sup

SubtitleEdit支持直接打开ts格式的录制文件,选择你需要ocr的字幕轨道(有预览),导入DVB字幕后直接在OCR区右键选择导出为SUP/idx+sub/xml+png等格式,根据你接下来使用的软件来选择导出格式即可,因为现在IdxSubOcr对SUP字幕识别度很高,我个人喜欢直接提取为SUP。

SubtitleEdit下载地址:https://github.com/SubtitleEdit/subtitleedit/releases

2.使用IdxSubOcr进行OCR识别转srt

此步骤因人而异,因软件而异,各位自行操作吧。

码字很辛苦,转载请注明来自非WEB-DL资源站《OCR提取各类视频字幕》

评论