文件名称:中文财经文本中公司名简称的自动识别 (2011年)
文件大小:417KB
文件格式:PDF
更新时间:2024-07-05 01:51:47
自然科学 论文
命名实体识别是当前自然语言处理的热点问题之一,对信息检索、信息抽取等具有重要意义.然而,目前多数研究都集中在对命名实体全称的识别上.本文以财经为领域背景,对从文本中识别简称,并将其映射成全称问题进行了研究,提出了一个启发式算法用于解决该问题.所提出的算法首先提取文本中每个N元组(N-gram)作为候选的公司名简称,然后建立n元组与全称表中每个全称的最优对齐关系,最后对每对“N元组一全称”对齐关系进行评价和筛选,识别出文本中的简称及每个简称对应的全称.在随机获取的网页文本集上对所提出的算法进行了实验测试,算