文件名称:论文研究-DeepWeb入口探测与分类方法研究.pdf
文件大小:793KB
文件格式:PDF
更新时间:2022-08-11 15:33:42
Deep Web,网络爬虫,结构特征,维归约,双层分类模型
传统的使用语料库对入口标签字符串进行匹配的方法受限于语料库的完整性和匹配算法的灵活性。为突破这种局限,引入了基于表单元件统计特征的Deep Web入口探测方法和使用文本分类方法对其进行分类的双层分类模型,并提出了两种特征权重计算方法用于特征选取。在TEL-8 Query Interfaces数据集上,测试结果体现了双层分类模型的优越性和特征向量维归约的必要性。