文件名称:adding-extracting
文件大小:44.45MB
文件格式:ZIP
更新时间:2024-06-04 03:47:01
添加结构并提取特征 由于我们昨天没有在命令行训练营中执行所有步骤,因此请删除桌面上的“ Project”文件夹,然后下载并解压缩然后将其放在桌面上。 还要将“ stanford-ner-2018-02-27”文件夹拖到桌面(位于用户/应用程序中)。 Tesseract光学字符识别(OCR) 描述 Tesseract-OCR是开源的OCR(光学字符识别)引擎,最初由惠普实验室开发。 Tesseract-OCR的标准安装可以将39种不同语言的文本图像转换为纯文本数据。 设想 您访问档案馆,需要捕获基于文本的档案收藏集的图像以进行研究-最终,您希望将这些图像转换为可以搜索,可视化,文本挖掘等的数据。使用数码相机和/或复印机,您可以以.tif / .tiff格式捕获档案收藏的照片。 有了这些文件,您就可以使用Tesseract-OCR将图像转换为纯文本文件。 有时我们会得到页面图像,但我们真正
【文件预览】:
adding-extracting-master
----adding-extracting.pdf(3.65MB)
----project.zip(41.01MB)
----img()
--------entities.png(209KB)
----readme.md(7KB)