文件名称:FontAdaptor:ECCV2020论文“通过视觉匹配进行自适应文本识别”的数据和实现
文件大小:35KB
文件格式:ZIP
更新时间:2024-05-04 03:31:32
Python
:clipboard: 该存储库包含ECCV2020论文的数据和实现 抽象的 这项工作解决了文档中文本识别的泛化和灵活性问题。 我们引入了一个新模型,该模型利用语言中字符的重复性质,并通过相似图形式的中间表示将视觉解码和语言建模阶段分离。 通过这样做,我们将文本识别变成了视觉匹配问题,从而实现了单次序列识别。 它可以处理传统体系结构如果不进行昂贵的重新培训就无法解决的挑战,其中包括:(i)可以仅通过更改示例来更改类的数量; (ii)只需提供新的字形示例集,就可以将其推广到新颖的语言和字符(不在训练数据中)。 我们还证明了该模型可以推广到看不见的字体,而无需它们的新示例。 入门 克隆此存储库 git clone https://github.com/Chuhanxx/FontAdaptor.git 创建conda虚拟环境并安装要求(此实现需要CUDA和python> 3.7) cd FontAdaptor
【文件预览】:
FontAdaptor-master
----build_venv.sh(253B)
----train.py(11KB)
----utils()
--------utils.py(10KB)
--------img_utils.py(9KB)
--------test_utils.py(745B)
----dataloader.py(29KB)
----test.py(6KB)
----model()
--------model.py(13KB)
--------transformer.py(8KB)
----requirements.txt(346B)
----LICENSE(11KB)
----README.md(5KB)
----.gitignore(54B)
----download_data.sh(453B)