文件名称:词典正文-origin 9.0 科技绘图与数据分析超级学习手册,完整扫描版
文件大小:480KB
文件格式:PDF
更新时间:2024-06-23 14:06:39
隐马尔科夫 股票
(2) 词索引表 对于词典正文中的每一个词在词索引表中都有唯一的一项 与其对应 ,词索引表中每一项的结构如下 : W P2 P3 P4 P5 P6 P7 L flag W代表该词 ; Pi 代表以该词前 i个汉字组成的词在词典正 文中第一次出现的位置 ,其中 i从 2到 7; L代表以该词为前缀 的词条数目 ; flag代表以该词为前缀的词条是否只有该词的 标志。 (3) 词典正文 词典正文是以词为单位的有序表。 2. 5 文本分类器的实现 C la ssif ier类 Classifier类实现文本分类器的作用 :通过页面分析器得到 一个网页文件的中文文本后 ,对该中文文本按农村信息化主题 词典进行分词处理 ,得到单词串 ;对整个中文文本中提取出的单 词进行统计 ,统计每个单词的出现次数 ,把出现频率最高的 5个 中文单词作为该网页的主题词 [ 2 ]。 该类的主要成员函数如下 : Public string[ ]DevideWord ( string strMatter) 该函数实现全二分最大匹配分词算法 ,其基本思想为 :对汉 字串 strMatter(设 L为汉字的个数 )进行切分 ,首先通过首字索 引表查看 strMatter[ 0 ]是不是存在 ,是不是只有单字词 ,如果不 存在或者是只有单字词 ,则 strMatter[ 0 ]成词 ,再对 strMatter[ 1 ] ⋯strMatter[L - 1 ]进行切分 ;如果不是只有单字词 ,可以从词索 引表中取出以 strMatter[ 0 ]为前缀可能出现所有词的起始位置 和结束位置 ,在这段区域对 strMatte [ 0 ] [ 1 ]进行前两个字匹配 , 如果不能匹配 ,则 strMatter[ 0 ]成词 ,再对 strMatter[ 1 ]⋯strMat2 ter[L - 1 ]进行切分 ;如果匹配到了长度相等并且 strMatter[ 0 ] [ 1 ]索引项的标志为 1,则 strMatte [ 0 ] [ 1 ]成词 ,再对 strMatter [ 2 ]⋯strMatter[L - 1 ]进行切分 ;否则从词索引表中取出以 str2 Matter[ 0 ] [ 1 ]为前缀可能出现所有词的起始位置和结束位置 , 对 strMatte[ 0 ] [ 1 ] [ 2 ]进行上述类似匹配操作。最终按照词库 的最大匹配原则切分出所选字段。 Public bool UpdataBase ( string[ ] strWords, string strMatter, string strU rl) 该函数对分词后的每个单词的出现次数进行统计 ,把该网 页出现频率最高的 5个中文单词作为该网页的主题词 ,建立索 引写入数据库。 农村信息化综合网站信息采集平台以网站栏目为种子站点 开始采集 ,其界面如图 4所示。 图 4 农村信息化综合网站信息采集平台 3 总 结 本文根据主题搜索信息采集策略 ,把人工预选策略、网页结 构分析、面向主题词典的分词技术结合起来 ,设计了面向农业主 题的采集平台 ,对互联网上的涉农信息资源做到集中管理、共享 访问。同时更新周期大大缩短 , 通常能在 1 - 2天内提供更新 的网上专业领域信息查询 ,甚至能在数小时内更新查询信息 ,保 证了对该领域信息的较完全收录与及时更新。通过及时集中提 供农业资源查询 ,提高了查询效率 ,在查全率和查准率方面远高 于综合搜索引擎。 参 考 文 献 [ 1 ] 陶蒙华. IPTV业务运营平台的接口及发展趋势 [ J ]. 电信科学 , 2006 (3) : 36 - 39. [ 2 ] 许宝文 ,张卫丰. 搜索引擎与信息获取技术 [M ]. 清华大学出版社 , 2003: 95 - 119, 222 - 226. [ 3 ] 刘辉林 ,郭来德 ,等. 中文农业主题搜索引擎的设计与实现 [ J ]. 郑 州大学学报 :理学版 , 2007, 39 (2) : 74 - 77. [ 4 ] 曹 红 ,袁津生. 林业主题搜索引擎研究 [ J ]. 计算机应用 , 2004, 24 (12) : 321 - 323. [ 5 ] 李振星 ,徐泽平 ,唐卫清. 全二分最大匹配快速分词算法 [ J ]. 计算 机工程与应用 , 2002, 38 (11) : 106 - 109.