tagsoup:Haskell库,用于从(可能是格式错误的)HTMLXML文档中解析和提取信息

时间:2024-05-29 12:05:56
【文件属性】:

文件名称:tagsoup:Haskell库,用于从(可能是格式错误的)HTMLXML文档中解析和提取信息

文件大小:117KB

文件格式:ZIP

更新时间:2024-05-29 12:05:56

Haskell

标签汤 TagSoup是用于解析HTML / XML的库。 它支持HTML 5规范,可用于解析格式正确的XML或来自网络的非结构化和格式错误HTML。 该库还提供了有用的功能,可从HTML文档中提取信息,非常适合进行屏幕抓取。 该库提供了用于非结构化标签列表的基本数据类型,将HTML转换为该标签类型的解析器,以及用于查找和提取信息的有用函数和组合器。 本文档提供了两个从Web抓取信息的特定示例,而在源存储库的文件中可能还可以找到更多。 我们给出的示例是: 获取Haskell Wiki的最后修改日期 获取西蒙·佩顿·琼斯的最新论文清单 其他示例的简要概述 该库的初始版本是用Javascript编写的,已用于涉及屏幕抓取的各种商业项目。 在示例中,包含了有关屏幕抓取的一般提示,这些提示是从痛苦的经验中学到的。 应该注意的是,如果您依赖于其他人在任何给定时间可能会更改的数据,那么您可能会感


【文件预览】:
tagsoup-master
----PULL_REQUEST_TEMPLATE.md(394B)
----.gitignore(65B)
----Setup.hs(46B)
----.hlint.yaml(3KB)
----src()
--------Text()
----tagsoup.cabal(2KB)
----.travis.yml(198B)
----LICENSE(1KB)
----.weeder.yaml(2KB)
----.ghci(466B)
----.github()
--------workflows()
----README.md(14KB)
----appveyor.yml(173B)
----CHANGES.txt(4KB)
----dead()
--------Parser2.hs(6KB)
--------Options.hs(810B)
--------Parser.hs(12KB)
--------Old()
--------Generated()
--------LazyParse.hs(2KB)
--------parser()
----cmds.bat(899B)
----test()
--------TagSoup()
--------Main.hs(2KB)
----TODO.txt(2KB)

网友评论