文件名称:论文研究-基于主题词表和FCA的网页语义概念树构建研究.pdf
文件大小:1.17MB
文件格式:PDF
更新时间:2022-08-11 17:04:15
本体,语义概念树,形式概念分析,主题词表,词语相似度
针对用户使用网站效率低和网站质量差的问题,提出了利用形式概念分析(FCA)来构建网页语义概念树的方法。该方法首先利用信息抽取、自然语言处理等技术对网页集进行文本抽取、分词,提取出描述文本语义的特征词;再以主题词表为参照,设计基于搜索引擎的词语相似度算法,将抽取的特征词全部转换成主题词表中主题词,对将抽取的语义信息转换成形式背景,利用规则、聚类等技术对形式背景进行约简。最后通过设计的建格算法构建概念格,实现概念树构建。实验结果表明,利用该方法构建的概念树可以作为网站本体模型的基础,对语义评估具有积极的意义,具有一定的应用价值和借鉴意义。