文件名称:图像修复matlab代码-worldly-ocr:普什图语和中文的文本到图像转换(OCR),以实现全面的多语言OCR
文件大小:1.32GB
文件格式:ZIP
更新时间:2024-06-08 23:14:24
系统开源
图像修复matlab代码世俗的 [地位] 关于 目标是构建下一代OCR技术。 最终,它有助于建立大规模,开放源代码,全球语言和文化数据库。 此软件包包含专门用于普什图语,波斯语和繁体中文的OCR引擎。 目前,它主要由以下部分组成:细分,布局分析和OCR。 它的OCR功能使用最新的Tesseract OCR(https:\ // github.com/tesseract-ocr/tesseract)的某些部分进行字符识别。 存在许多OCR软件的实现,包括商业和开放源代码,但是它们对于繁体中文,普什图语和波斯文学而言无法产生有用的结果。 90%+的准确率是OCR有用的门槛。 OCR软件某些最引人注目的故障不是由于无法识别字符引起的,而是无法通过识别文本区域,图像和文本方向来执行准确的布局分析。 提议的高级实现将是能够处理复杂布局的下一代OCR软件。 该项目目前由国家人文基金会(NEH)资助,2019年的费用为75,000美元。 Marek Rychlik是首席研究员。 Yan Han和Dylan Murphy是联合PI。 其他项目人员包括Raymundo Navarette,Dwight