文件名称:ocular:Ocular是最先进的历史OCR系统
文件大小:19.39MB
文件格式:ZIP
更新时间:2024-05-18 08:55:32
Java
眼科 Ocular是最先进的历史OCR系统。 它的主要特征是: 无监督学习未知字体:仅需要文档图像和文本语料库。 处理嘈杂文件的能力:不一致的着墨,间距,垂直对齐等 支持多语言文档,包括具有大量单词级代码转换的文档。 拼写变化模式的无监督学习,包括过时的拼写和打印机速记。 同时联合翻译成外交(文字)形式和规范化形式。 在以下出版物中对此进行了描述: 历史文件的无监督转录 ( ,( )和( ACL 2013 用于历史OCR的改进的排版模型 和( ACL 2014 多语言历史文档转录的无监督代码转换 ( ,汉娜·阿尔珀特·阿布拉姆斯( Hannah Alpert-Abrams) ,泰勒·伯格·基尔帕特里克( Taylor Berg-Kirkpatrick )和丹·克莱恩( Dan Klein) NAACL 2015 历史文献转录的正交变化无监督模型[pdf] [