基于自扩展与最大熵的领域实体关系自动抽取 (2010年)

时间:2024-06-12 14:06:31
【文件属性】:

文件名称:基于自扩展与最大熵的领域实体关系自动抽取 (2010年)

文件大小:364KB

文件格式:PDF

更新时间:2024-06-12 14:06:31

工程技术 论文

实体关系自动获取是信息抽取的难题之一。本文提出自扩展算法和最大熵机器学习算法相结合的方法,以旅游领域为研究对象进行实体关系的自动抽取。首先利用自扩展算法自动获取能体现实体对间大类关系的语义词汇,该词汇作为特征加入最大熵机器学习算法的特征集,并设定闽值实现训练语料的自动标注;然后使用最大熵机器学习算法对训练语料进行学习,构建实体关系抽取的分类器,实现实体关系的自动获取。在收集600篇旅游领域语料的基础上进行实验,4大类实体关系的抽取获得了较好的结果,其中地理位置关系和时节关系的F值分别为82.56%和81.


网友评论