文件名称:论文研究-Deep Web下基于中文分词的聚类算法.pdf
文件大小:654KB
文件格式:PDF
更新时间:2022-09-28 06:53:21
论文研究
随着Deep Web飞速的发展,使用商业网站上所提供的查询接口从Web数据库中获取高质量数据并对这些数据进行分析加工处理显得尤为重要。通过动态提交关键词,利用查询接口得到检索页面,对检索页面中的中文信息进行抽取并进行分词处理,对分词的结果进行统计分析,通过引入DF进行降维得到特征项,使用TF/IDF计算得到特征项的权重向量矩阵,对权重矩阵进行聚类从而实现文档的分类。通过仿真实验检验了本算法的合理性和可行性。