文件名称:Maman:一个确定某些网站类别的网络爬虫
文件大小:206KB
文件格式:ZIP
更新时间:2024-05-20 10:21:49
C
马曼 一个确定某些网站类别的网络搜寻器。 分析每个内容,并为每个网站和每个类别计算分数。 类别在dictionary.json文件中定义。 然后按分数和类别对网站列表进行排序并显示。 要求 模块化 AC库。 浓汤解析器 创建dom的html解析器 卷曲 最后未使用,但出于爬行网站的目的 用法 配置 dictionary.json 此文件用于存储某些单词列表。 { " categorie_1 " : [ [ " WORD_1 " , " TYPE_1 " , " SCORE_1 " ], [ " WORD_2 " , " TYPE_2 " , " SCORE_2 " ] ], " categorie_2 " : [ [ " WORD_1 " , " TYPE_1 " , " SCORE_1 " ],
【文件预览】:
Maman-master
----dictionary.json(1KB)
----.gitignore(51B)
----Makefile(510B)
----libraries()
--------.gitkeep(0B)
----phantom-app()
--------crawler.js(1KB)
--------websites.txt(706KB)
--------sites()
----README.md(3KB)
----includes()
--------curl_session.h(983B)
--------maman.h(1KB)
--------analyser.h(2KB)
--------gumbo_session.h(1KB)
----sources()
--------main.c(1KB)
--------maman.c(7KB)
--------gumbo_session.c(5KB)
--------curl_session.c(3KB)
--------analyser.c(5KB)