文件名称:Search-Engine:基于文本的信息检索搜索引擎
文件大小:1.42MB
文件格式:ZIP
更新时间:2024-07-22 08:11:25
搜索引擎 在这个项目中,我们使用如下讨论的方法实现了基于文本的搜索引擎: 1.) 使用 Apache lucene 库索引了超过 25,000 个网页。 2.) 基于词频和逆文档频率的文本搜索。 3.) 实施向量空间模型(使用词频和逆文档频率权重)来对网页进行排名。 4.) 使用邻接矩阵的编码权限/集线器计算机制并返回前 N 个权限和前 N 个集线器。 5.) 在 Java 中设计了 PageRank 算法以返回前 N 个网页。 6.) 在 Java 中编程 K-means 聚类以生成相关网页的聚类。 7.) 从前“N”个网页中提取代码段和标题以将它们显示给用户,以便用户可以选择与其查询更相关的网页。 8.) 编码和应用标量聚类,以便用户在输入查询词时可以获得相关建议。 并且,在实现上述算法之后,我们使用不同算法的不同输入数据集分析了结果。 各种算法的分析请参考《基于文
【文件预览】:
Search-Engine-master
----README.md(1KB)
----Analysis of Algorithm in Text based Search Engine.pdf(1.59MB)