Search-Engine

时间:2024-06-02 13:39:16
【文件属性】:

文件名称:Search-Engine

文件大小:33.89MB

文件格式:ZIP

更新时间:2024-06-02 13:39:16

Java

搜索引擎 ###项目标题:用于文档收集的搜索引擎###项目摘要和预先描述:对象:这是一个搜索引擎,您可以基于TREC标准格式的集合获得查询的前500个结果(请参阅背景信息) )。 预先说明:1.设置所有测试查询(请参阅背景中的更多内容)。 2.原始文档是TREC doc和TREC文本两种类型,不用担心格式,我只提取有用的信息(文档ID,文档内容)假设:文档中的每个单词都是独立的,除了“是完整的。 ###描述:有三个功能包。 分析:关于预处理文档: 删除文档中的停用词(请参阅背景中的更多内容) 将每个字改为小写 删除所有守时点,并使用空格将它们分开。 index:是关于建立一个倒排索引来映射集合中的单词。 倒排索引有两种类型:过帐列表,用于存储“术语,文档ID,文档中的术语频率”;“ DictionayTermFile”,用于存储“术语,所有文档中的术语频率”;以及一个辅助文档,称为


【文件预览】:
Search-Engine-master
----docset.trectext(13.18MB)
----.project(364B)
----.DS_Store(12KB)
----output()
--------.DS_Store(6KB)
--------Postingfile.txt(20.21MB)
--------Doc.txt(90KB)
--------DictionaryTermFile.txt(698KB)
----topics.txt(1KB)
----src()
--------.DS_Store(6KB)
--------edu()
----docset.trecweb(12.98MB)
----result.txt(127B)
----.settings()
--------org.eclipse.jdt.core.prefs(587B)
--------org.eclipse.core.resources.prefs(165B)
----README.md(4KB)
----stopword.txt(2KB)
----.classpath(311B)
----bin()
--------.DS_Store(6KB)
--------edu()

网友评论