WEB-DL

OCR字幕

马上2020年了,想着12月还没写点东西,想着总要写点东西凑合过去吧。想来,今年折腾比较多的东西就是Netflix和Amazon下载工具的魔改版,也不太方便写,更不愿意随便分享。另一个就是扒取部分流媒体网站的字幕、校对字幕时轴、OCR蓝光碟SUP字幕转srt,上周遇到一个硬字幕的视频,奈何画质比较烂,而韩版是不会有中字的,只能OCR视频硬字幕了,想来也就这点东西能写一下吧,也算是做个记录。
玩PT已经5年多了,收获不少,分享不少,真正技术掌握的不多。OCR字幕应该算是一门手艺(体力活)了,详细教程不写了,今晚暂时没这么多时间,先写一下流程。

一、蓝光碟的sup字幕OCR成srt格式
1、安装office的MODI模块
对于Windows系统,想要OCR字幕,安装office的MODI模块是必不可少的,其他平台我不清楚。
MODI模块可以通过office 2010/2007/2003安装包选择安装,也可以通过更小体积的SharePointDesigner程序安装,还有一种方法就是直接安装马健老师的MODI_From_Office文件,上述三种方法设计的软件我会稍后提供下载地址。
office 2010下载地址:N/A || office 2007下载地址:N/A || office 2003下载地址:N/A || SharePointDesigner:N/A || MODI_From_Office2003:N/A || MODI_From_Office2007SP3
2、提取蓝光碟字幕
可以用eac3to程序提取;也可以借助MeGUI的辅助功能提取(本质上还是调用eac3to);tsMuxeR程序加载mpls文件独取视频正片文件保存sup文件。
3、OCR字幕
在没有用IdxSubOcr最新版之前,我一直用的的方法是BDSup2Sub软件将sup字幕转成idx+sub文件,然后用IdxSubOcr调用idx文件独取sub内容。前几个月在群里闲聊,群友说IdxSubOcr新版早就支持直接独取sup文件了,从此可以少一步,也避免sup字幕转成idx+sub文件过程中由于BDSup2Sub这种上古软件识别功能不够强引起的错误,在此非常感谢马健老师更新IdxSubOcr,不然这种上古优秀软件真的只能将就凑合用。IdxSubOcr详细使用步骤详见马健老师的教程说明,在此不多赘述。
4、检查错误
OCR字幕需要仔细检查初版srt文件,毕竟软件是机器,不会像人一样,一看就知道是什么字,加上字体或者颜色干扰,难免有识别错误的。检查错误这步很累,真的不是一般的累,我一般用SrtEdit加载视频和初版字幕检查或者视频播放软件PotPlayer边看视频边检查,这个看个人习惯和需求了。记住,这步是体力活。。。没啥可以偷懒的,至少目前我是没找到什么偷懒方法。

二、视频硬字幕OCR成srt格式
所谓硬字幕,就是压在视频一起,不能直接提取sup、srt、ass等文件的字幕,为了保护字幕不被直接盗用,很多动漫压制组、流媒体网站选择字幕压在视频一起,虽然方便观看和不被盗用,但是不方便我们使用(根本没法直接用),因此,我们需要想办法把硬字幕OCR提取出来方便二次、N次魔改使用。
1、esrXP独取视频
esrXP作为上古软件,在Windows10系统环境下,我没正常运行过,目前解决方案,笔记本远程我台式机打开esrXP、虚拟机安装win7/winXP打开软件ocr字幕。
上古软件esrXP容易奔溃,记得保存,近期会ocr几个硬字幕,过几天再补充这部分详细步骤,如果没时间,那就找个教程引用一下。esrXP可以导出idx+sub文件,可以用IdxSubOcr实现最终ocr字幕
2、esrXP注意事项
推荐把视频切割成30分钟左右一段文件,自己备注好分段,esrXP作为上古软件经常奔溃
esrXP需要根据视频和硬字幕字体、颜色进行详细调整配置,不然错误率很高。

以上内容只是一个底稿,等我实际OCR的时候再详细截图补充步骤流程和相关注意事项。

码字很辛苦,转载请注明来自非WEB-DL资源站《OCR字幕》

评论