文件名称:使用深度学习技术对印刷和手写文档进行光学字符识别-研究论文
文件大小:2.58MB
文件格式:PDF
更新时间:2024-06-29 21:35:05
OCR for Cursive Handwriting
尽管进行了数十年的研究,但开发具有与人类相当的能力的光学字符识别 (OCR) 系统仍然是一个开放的挑战。 需要将图像形式的大量文档输入到计算机数据库中,与可编辑文本相比,这需要大量内存,并且在解释来自图像的数据时可能会出现错误。 该项目旨在使用 OCR 将手写或打印的文档转换为可编辑的文本。 文档被扫描成图像格式作为 doc_class_net 的输入,doc_class_net 是一个全尺寸的图像分类器,它将输入图像分为四个不同的类别,即。 印刷、半印刷、手写离散和手写草书。 OCR 模型预测并解码图像中的文本,并将输出作为可编辑文本。 我们已经使用 Pytesseract 将 OCR 应用于打印的文本图像。 对于手写文本图像,使用名为 CL-9(7 个 CNN 层和 2 个 LSTM 层)的自行开发的卷积循环神经网络 (CRNN) 预测文本。 doc_class_net 分类器和 line_class_net 分类器(line-wise 分类器)的准确率分别为 88.03% 和 82.1%。 获得的印刷、手写离散和手写草书的总体准确率分别为 94.79%、75.2% 和 65.7%。 OCR在医疗处方、智能图书馆、纳税申报等各个领域都有实时应用。 使用这种方法可以将书籍、杂志和任何其他形式的文档数字化并非常有效地访问。