文件名称:tfid-terrier:使用双项网络扩展 TF-IDF 加权模型
文件大小:22KB
文件格式:ZIP
更新时间:2024-06-18 20:51:33
Java
TF-ID 总体描述 TRECIndexing类执行索引器对象(抽象类 Indexer)的方法 index()。 在这个过程中,调用了两个抽象方法: createDirectIndex( Collections[] ) 接收集合数组 createInvertedIndex() createDirectIndex( C[] )方法访问C中每个集合中的每个文档。 然后对于每一个,它通过TermPipeline对象提取和过滤术语。 开始处理文档时,会创建一个新的DocumenPostingList 。 如上所述,在处理每个文档及其提取的术语后,通过调用方法indexDocument(doc,termsInDoc)对两个实体进行索引。 indexDocument(…)通常是一种受保护的方法,正如其注释所描述的那样:“它将文档添加到直接索引和文档索引中,并将其术语添加到词典中”。 目标 第一
【文件预览】:
tfid-terrier-master
----separate_biterm_docs.py(277B)
----build.xml(1KB)
----log4j.properties(568B)
----src()
--------cl()
--------org()
----.project(371B)
----.classpath(5KB)
----.gitignore(342B)
----README.md(6KB)