【文件属性】:
文件名称:Search-Engine:基于文本的信息检索搜索引擎
文件大小:1.42MB
文件格式:ZIP
更新时间:2021-07-02 14:24:45
搜索引擎
在这个项目中,我们使用如下讨论的方法实现了基于文本的搜索引擎:
1.) 使用 Apache lucene 库索引了超过 25,000 个网页。
2.) 基于词频和逆文档频率的文本搜索。
3.) 实施向量空间模型(使用词频和逆文档频率权重)来对网页进行排名。
4.) 使用邻接矩阵的编码权限/集线器计算机制并返回前 N 个权限和前 N 个集线器。
5.) 在 Java 中设计了 PageRank 算法以返回前 N 个网页。
6.) 在 Java 中编程 K-means 聚类以生成相关网页的聚类。
7.) 从前“N”个网页中提取代码段和标题以将它们显示给用户,以便用户可以选择与其查询更相关的网页。
8.) 编码和应用标量聚类,以便用户在输入查询词时可以获得相关建议。
并且,在实现上述算法之后,我们使用不同算法的不同输入数据集分析了结果。
各种算法的分析请参考《基于文
【文件预览】:
Search-Engine-master
----README.md(1KB)
----Analysis of Algorithm in Text based Search Engine.pdf(1.59MB)