OCR提取各类视频字幕
马上2020年了,想着12月还没写点东西,想着总要写点东西凑合过去吧。想来,今年折腾比较多的东西就是Netflix和Amazon下载工具的魔改版,也不太方便写,更不愿意随便分享。另一个就是扒取部分流媒体网站的字幕、校对字幕时轴、OCR蓝光碟SUP字幕转srt,上周遇到一个硬字幕的视频,奈何画质比较烂,而韩版是不会有中字的,只能OCR视频硬字幕了,想来也就这点东西能写一下吧,也算是做个记录。
玩PT已经5年多了,收获不少,分享不少,真正技术掌握的不多。OCR字幕应该算是一门手艺(体力活)了,详细教程不写了,今晚暂时没这么多时间,先写一下流程。
更新:
2024.02.21:添加电视源码DVB字幕提取方法
2022.07.08:添加视频硬字幕OCR软件Video-subtitle-extractor (vse)
一、蓝光碟的SUP字幕OCR成srt格式
推荐使用IdxSubOcr
1.安装office的MODI模块
对于Windows系统,想要OCR字幕,安装office的MODI模块是必不可少的,其他平台我不清楚。
MODI模块可以通过office 2010/2007/2003安装包选择安装,也可以通过更小体积的SharePointDesigner程序安装,还有一种方法就是直接安装马健老师的MODI_From_Office文件,上述三种方法设计的软件直接从马健老师的网盘下载即可,网盘地址为:链接:https://pan.baidu.com/s/1PnpZ3Bk-lTArrajva7EVzQ 提取码:4hie
2.提取蓝光碟字幕
可以用eac3to程序提取;也可以借助MeGUI的辅助功能提取(本质上还是调用eac3to);tsMuxeR程序加载mpls文件独取视频正片文件保存sup文件。
3.OCR字幕
在没有用IdxSubOcr 2.0版之前,我一直用的的方法是BDSup2Sub软件将sup字幕转成idx+sub文件,然后用IdxSubOcr调用idx文件独取sub内容。IdxSubOcr2.0版开始支持直接独取sup文件了,从此可以少一步,也避免sup字幕转成idx+sub文件过程中由于BDSup2Sub这种上古软件识别功能不够强引起的错误,在此非常感谢马健老师更新IdxSubOcr,不然这种上古优秀软件真的只能将就凑合用。IdxSubOcr详细使用步骤详见马健老师的教程说明,在此不多赘述。
4.检查错误
OCR字幕需要仔细检查初版srt文件,毕竟软件是机器,不会像人一样,一看就知道是什么字,加上字体或者颜色干扰,难免有识别错误的。检查错误这步很累,真的不是一般的累,我一般用SrtEdit加载视频和初版字幕检查或者视频播放软件PotPlayer边看视频边检查,这个看个人习惯和需求了。记住,这步是体力活。。。没啥可以偷懒的,至少目前我是没找到什么偷懒方法。
二、视频硬字幕OCR成srt格式
所谓硬字幕,就是压在视频一起,不能直接提取sup、srt、ass等文件的字幕,为了保护字幕不被直接盗用,很多动漫压制组、流媒体网站选择字幕压在视频一起,虽然方便观看和不被盗用,但是不方便我们使用(根本没法直接用),因此,我们需要想办法把硬字幕OCR提取出来方便二次、N次魔改使用。
(一)esrXP
1.esrXP读取视频
esrXP作为上古软件,在Windows10系统环境下,我没正常运行过,目前解决方案,笔记本远程我台式机打开esrXP、虚拟机安装win7/winXP打开软件ocr字幕。上古软件esrXP容易奔溃,记得随时保存。esrXP可以导出idx+sub文件,可以用IdxSubOcr实现最终ocr字幕。
2.esrXP注意事项
推荐把视频切割成30分钟左右一段文件,自己备注好分段,esrXP作为上古软件经常奔溃。esrXP需要根据视频和硬字幕字体、颜色进行详细调整配置,不然错误率很高。
(二)Video-subtitle-extractor (vse)
Video-subtitle-extractor (vse) 是一款将视频中的硬字幕提取为外挂字幕文件(srt格式)的软件。 主要实现了以下功能:
- 提取视频中的关键帧
- 检测视频帧中文本的所在位置
- 识别视频帧中文本的内容
- 过滤非字幕区域的文本,去除水印(台标)文本
- 去除重复字幕行,生成srt字幕文件
- 支持视频字幕批量提取
- 多语言:支持中文/英文、日语、韩语、阿拉伯语、繁体中文、法语、德语、俄语、西班牙语、葡萄牙语、意大利语字幕的提取
- 多模式:
- 快速 – 快速提取字幕但可能丢字幕(推荐)
- 精准 – 不丢字幕但速度较慢
Video-subtitle-extractor (vse)官方地址:https://github.com/YaoFANGUK/video-subtitle-extractor
相关使用方法各位自行参考作者介绍内容。
三、电视源码DVB字幕OCR成srt格式
电视源码DVB字幕提取成srt字幕分两步走即可。
1.使用SubtitleEdit转sup
SubtitleEdit支持直接打开ts格式的录制文件,选择你需要ocr的字幕轨道(有预览),导入DVB字幕后直接在OCR区右键选择导出为SUP/idx+sub/xml+png等格式,根据你接下来使用的软件来选择导出格式即可,因为现在IdxSubOcr对SUP字幕识别度很高,我个人喜欢直接提取为SUP。
SubtitleEdit下载地址:https://github.com/SubtitleEdit/subtitleedit/releases
2.使用IdxSubOcr进行OCR识别转srt
此步骤因人而异,因软件而异,各位自行操作吧。
评论
评论关闭