关于OCR
我把知道的东西说一下吧,也是我从14年到现在的一点点经验。
- 古籍方面。目前国内有一些要钱的库,比如说爱如生、鼎秀、雕龙、书同文、大成故纸堆等。这些OCR的模型是没放出来的,是人家吃饭的本。GITHUB上有可能有模型,但是效果懂得都懂。之前阿里和加州大学伯克利分校搞了一个,但是最后什么都没有放出来,离谱。浙大古籍平台可以去看看,但是错误也是有的,我最后来说。还有一个就是基于百度API的手写识别,这个效果也就是那样。
- 普通中、英文字符。目前遍地开花,最方便是QQ,其次是微软和百度。还有隔壁的ABBYY(需要请去我书库翻一下,第一个文件夹的软件文件夹里面找找)这些大同小异,不足为奇,而且免费。无聊的可以去玩paddleOCR,但是门槛有,不是抄代码的我能解决的。
- 现状。均通过各种算法想方设法识别字,却不会运用NLP去辅助认字,乱码就是这样出现的。还有就是不公开模型,弄得又要从头再来。报价各家还不低,有是有办法,反正我看不下去这些公司的吃相。
- 使用差异,QQ别扫手写,认不出来的。特殊符号也有办法,这个我没研究,可以转换为latex(但是错误摆在这。)千百OCR是好东西,API受限罢了,我是自有API,随意。微软认一些吧,手写没办法。ABBYY是拿来压PDF然后搜索的,这样舒服点,错误就错,90%对的就行。