文件名称:其他文本检索标引技术-文本挖掘PPT
文件大小:406KB
文件格式:PPT
更新时间:2024-05-15 19:45:06
文本挖掘
其他文本检索标引技术 倒排索引(inverted index) 一种索引结构,包含两个哈希表索引表或两个B+树索引表 找出与给定词集相关的所有文档 找出与指定文档相关的所有词 易实现,但不能处理同义词和多义词问题,posting_list非常长,存储开销大 签名文件(signature file) 文档表(document_table) 词表(term_table) doc_ID posting_list term_ID posting_list Doc_1 t1_1, ... ,t1_n Term_1 doc_1, ... , doc_i Doc_2 t2_1, ... ,t2_n Term_2 doc_1, ... , doc_ j ┇ ┇ ┇ ┇ Doc_n tn_1, ... ,tn_n Term_n doc_1, ... , doc_n