SyntheticWordImagesGenerationIndianScripts:收集用于印度文字的Unicode字体-孟加拉语,梵文,古吉拉特语,古尔穆克语,卡纳达语,马拉雅拉姆语,泰米尔语和泰卢固语和阿拉伯语

时间:2024-04-28 09:07:35
【文件属性】:

文件名称:SyntheticWordImagesGenerationIndianScripts:收集用于印度文字的Unicode字体-孟加拉语,梵文,古吉拉特语,古尔穆克语,卡纳达语,马拉雅拉姆语,泰米尔语和泰卢固语和阿拉伯语

文件大小:133.67MB

文件格式:ZIP

更新时间:2024-04-28 09:07:35

Python

生成用于训练印度文字场景文本OCR的合成文字图像 此仓库提供了一个脚本,我们使用该脚本来生成场景文本样式的合成词图像,以进行工作,从而使印度脚本中的场景文本识别成为可能。 我们还提供了渲染脚本以及为项目编译的字体集合。 最好不要在此存储库中使用渲染脚本来渲染英语/拉丁语。 python脚本调用bash命令(使用os.system() ),通常不建议这样做,并且有多个磁盘I / O操作会使渲染变慢。 我们必须以这种方式进行渲染,因为使用通用工具/库进行渲染会导致印度文字中某些Unicode字形的排序不正确。 我们鼓励您将此脚本用于要使用Unicode字体的非拉丁脚本,尤其是在使用常用的库进行字体渲染时难以正确地重新定义Unicode文本的情况下。 上方显示的是一些我们使用渲染脚本为工作渲染的示例单词图像。 如果使用渲染脚本,请引用以下工作。 @INPROCEEDINGS{ IL-


网友评论