风越批量文本提取、网页采集器

时间:2013-11-28 02:58:14
【文件属性】:

文件名称:风越批量文本提取、网页采集器

文件大小:10.55MB

文件格式:RAR

更新时间:2013-11-28 02:58:14

批量 文本提取 网页采集 网站下载

批量提取HTML/DOC/RTF/TXT等文件中的文本信息。 支持从其它网站直接提取文本内容,生成所需数据库文件 支持GB2312/UTF-8多种编码 可将提取信息生成文本文件、HTM网页文件、MDB数据库文件。 可设置提取文件的间隔,避免下载网页过快,服务器不响应 提供多种查找、获取信息的方式: 提取文件中全部email邮件地址 提取文件中全部互联网址(无参数) 提取文件中全部互联网址(带参数) 提取HTML文件中body的文本内容 提取HTML文件中title与body的文本内容 提取HTML文件中textarea的文本内容 提取HTML网页的显示文本内容 提取DOC/RTF等文件中全部文本内容 并可自定义正则表达式获取信息


【文件预览】:
Fire_GetTxt
----ReadMe.txt(2KB)
----Interop.ADODB64.dll(439KB)
----Newtonsoft.Json.DLL(72KB)
----office.dll(219KB)
----IKVM.GNU.Classpath.dll(9.13MB)
----FireCodeCreator.exe(2.55MB)
----RegSoft.txt(389B)
----Interop.Microsoft.Office.Core.dll(400KB)
----FontBox-0.1.0-dev.dll(84KB)
----MSWORD9.OLB(536KB)
----MSWORD.OLB(650KB)
----PDFBox-0.7.3.dll(4.44MB)
----config.ini(214B)
----CodeFrameWork()
----favorite()
----Interop.Excel.dll(924KB)
----Interop.Office.DLL(152KB)
----msADOX.dll(196KB)
----tutorial.url(95B)
----FireAsp.mdb(248KB)
----VBE6EXT.OLB(44KB)
----Interop.PowerPoint.dll(212KB)
----Interop.ADOX.DLL(36KB)
----License.txt(4KB)
----LiuNu.Words.dll(3.28MB)
----LiuNu.dll(596KB)
----fyp.ico(8KB)
----help.chm(36KB)
----@无法运行说明.txt(1KB)
----LiuNu.Page.dll(1KB)
----IKVM.Runtime.dll(336KB)
----Microsoft.Vbe.Interop.dll(63KB)
----Microsoft.VisualBasic.dll(656KB)
----Interop.ADODB.dll(616KB)
----Interop.Word.DLL(484KB)
@无法运行说明.txt

网友评论

  • 功能可以实现,但不是自己想要的类型。
  • 很好,就是不太会用
  • 不错 就是应该写个教程详细点的
  • 可以使用。不错