Ruby gem,用于从PDF中提取表作为结构化信息-Ruby开发

时间:2024-06-16 05:39:00
【文件属性】:

文件名称:Ruby gem,用于从PDF中提取表作为结构化信息-Ruby开发

文件大小:15.53MB

文件格式:ZIP

更新时间:2024-06-16 05:39:00

Ruby PDF

Iguvium Iguvium以结构化形式从PDF文件中提取表。 它的工作原理是这样的。 获取此PDF文件:使用此代码:pages = Iguvium.read('filename.pdf')表= pages [1] .extract_tables! csv = table.first.to_a.map(Iguvium Iguvium以结构化形式从PDF文件中提取表。它的工作方式如下。使用此PDF文件:使用此代码:pages = Iguvium.read('filename.pdf')表格= pages [1] .extract_tables!csv = table.first.to_a.map(&:to_csv).join获取此表:功能/局限性:Iguvium将pdf渲染为图像,查找类似表的图形结构并尝试放置字符进入检测到的单元格中,字符提取是通过PDF :: Reader gem完成的。有些PDF太乱了,无法显示


【文件预览】:
iguvium-master
----LICENSE.txt(1KB)
----iguvium.gemspec(1KB)
----lib()
--------iguvium.rb(4KB)
--------iguvium()
----Gemfile(162B)
----spec()
--------iguvium_spec.rb(430B)
--------cv_spec.rb(4KB)
--------page_spec.rb(3KB)
--------table_spec.rb(11KB)
--------spec_helper.rb(363B)
--------files()
----Rakefile(150B)
----.travis.yml(134B)
----README.md(5KB)
----.rspec(53B)
----exe()
--------iguvium(2KB)
----.gitignore(198B)
----bin()
--------console(342B)
--------setup(131B)
----CHANGELOG.md(817B)

网友评论