文件名称:C++中文分词+自动标引范例
文件大小:934KB
文件格式:RAR
更新时间:2012-12-30 07:27:47
C++中文分词 自动标引
1、合并使用停用词表和关键词表作为分词词表,应用逆向最长匹配法对所有篇名分词,给出每条篇名对应的分词结果。在屏幕上显示篇名序号、篇名、分词结果。 2、去除停用词(显示在屏幕上)。 3、利用tfx词频加权公式,计算各词的权重,在屏幕上显示每条篇名中各词的权重。 4、根据输入的阈值,确定标引词,并在屏幕上显示标引词。 5、根据输入的标引深度,确定标引词,并在屏幕上显示标引词。
【文件预览】:
IRSystemMini
----Doc()
--------类图.jpg(257KB)
--------Readme.doc(472KB)
----IRSystemMini()
--------SettingDlg.h(632B)
--------SettingDlg.cpp(373B)
--------resource.h(1KB)
--------IRSystem.h(362B)
--------Title.cpp(1KB)
--------stdafx.h(2KB)
--------iDataTypeConvertor.h(360B)
--------IRSystemMini.vcproj(5KB)
--------IRSystem.rc(8KB)
--------targetver.h(1KB)
--------EncaADO.h(2KB)
--------Participle.h(1KB)
--------IRSystem.aps(269KB)
--------stdafx.cpp(209B)
--------IRSystemDlg.cpp(8KB)
--------Participle.cpp(3KB)
--------切词数据库.mdb(272KB)
--------IRSystemMini.vcproj.WIN-RFB63LZO29D.xutao nastia.user(1KB)
--------res()
--------IRSystem.cpp(1KB)
--------EncaADO.cpp(6KB)
--------IRSystemDlg.h(2KB)
--------Title.h(1KB)
--------iDataTypeConvertor.cpp(385B)
----Release()
--------IRSystemMini.exe(292KB)
----IRSystemMini.suo(16KB)
----IRSystemMini.sln(902B)