文件名称:doc_ripper:解析常见文件格式的文本内容
文件大小:213KB
文件格式:ZIP
更新时间:2024-03-21 23:13:31
Ruby
DocRipper 使用1命令从通用文档格式中获取文本。 DocRipper是一种非常轻巧的Ruby包装器,可用于解析常见文件格式(当前为.doc,.docx和.pdf,.sketch)中的文本内容,而无需像OCR库或OpenOffice / LibreOffice这样的大量依赖项。 对于简单的解析,与依赖OpenOffice / LibreOffice进行.doc / .docx转换的解决方案相比,使用DocRipper可能会看到性能上的显着提高。 需要OCR支持或图像中文本解析吗? 看看 。 支持的文件格式 .doc .docx .pdf .txt .sketch 文件格式 支持的? 依存关系 .doc X 反词 .docx X .pdf X Poppler实用程序 。文本 X 。草图 X SQLite3的 快速开始 gem install doc_ripp
【文件预览】:
doc_ripper-master
----LICENSE.txt(1KB)
----lib()
--------doc_ripper()
--------doc_ripper.rb(1KB)
----Gemfile(96B)
----spec()
--------doc_ripper()
--------fixtures()
--------spec_helper.rb(204B)
----Rakefile(125B)
----README.md(2KB)
----doc_ripper.gemspec(1KB)
----.rspec(30B)
----.gitignore(92B)