文件名称:wikifetch:使用 jQuery 返回*文章的结构化 JSON 表示
文件大小:5KB
文件格式:ZIP
更新时间:2024-07-21 23:27:34
JavaScript
维基获取 作者: 问题 对于我目前正在进行的一些 NLP 研究,我对解析*文章中的结构化信息很感兴趣。 我不想使用功能齐全的 MediaWiki 解析器: 这将是严厉的,我真正想要的是:来自文章、图像和指向其他文章的链接的文本内容。 我希望能够将该方法扩展到其他网站,例如新闻网站。 我想使用基于爬虫的方法,而不是下载海量数据集。 解决方案 WikiFetch 使用 Node.js 和 jQuery 抓取*文章。 它返回页面的结构化 JSON 表示: { "title": "Foobar Article", "links": { "Link_to_another_article: { "text": "Another article.", // the text that was linked. "title": "Another_ar
【文件预览】:
wikifetch-master
----.gitignore(36B)
----README.md(1KB)
----bin()
--------wikifetch.js(540B)
----test()
--------wikifetch-test.js(2KB)
----package.json(765B)
----lib()
--------wikifetch.js(3KB)
--------index.js(53B)