情感对象抽取【opinion mining】

时间:2022-09-05 15:20:54

      观点挖掘与情感分析在近十年得到快速发展,研究也因为应用的需求从最初的情感分类[1,2]发展到现在的各种研究方向如情感对象抽取、情感极性判断、情感持有者抽取、情感主体抽取等[3]。因为产品评论中存在着重要的商业情报(如产品的哪些特征具有什么优缺点,消费者是否喜欢,和其他竞争品比较怎么样),对其进行观点挖掘很有意义。这显然不仅需要抽取观点极性,还需要确定观点的对象。这就涉及到细粒度情感挖掘。对于情感对象的抽取,最初由Bing Liu[4,5]等提出。这迅速得到相关研究者的关注并在接下来几年成为情感挖掘领域的一大研究热点。之后又有研究者将情感对象抽取应用到新闻文章及评论中,但是因为文本源的不同使得方法、效果都有所不同。下面我简要总结一些情感对象抽取的工作。

     产品评论中情感属性抽取

     最初由Hu和Liu等[4]在2004年提出抽取情感属性。他们的方法根据的主要特征是:1)评论主要是属性,一般为名词;2)评论中基本上评论的是产品的属性(特征),而产品是有有限量的特定的属性,并且这些属性会被频繁评论;3)情感词一般是形容词,而形容词用来修饰名词(属性),它们距离近。于是它们的方法可以:从名词中找到频繁名词是产品属性(利用频繁集);非频繁集则可以通过情感词(形容词)来找,离形容词近。实验结果表明准确率可以达到接近80%。

     后来的产品特征抽取多是在该工作的基础上进行改进。主要改进方向有:

1)    文献[6]先给定一些已知的产品属性,然后对未知的属性通过查找网页计算其与已知的属性的PMI来决定是否是;

2)    文献[7]则认为产品特征在产品评论中比在一般的语料中出现的更频繁;

3)    文献[8]则针对的是博客中写的产品评论抽取情感对象和极性对,利用的是通过模式挖掘抽取的句法模式;

4)    [9]把对象抽取作为一个主题指代消解问题,将有相同对象的情感聚类,然后用来判断是否是针对相同的对象(分类)。另外还有一些利用双层网络关系(情感词为一层、情感对象为一层,情感词和情感对象组成层间关系)的关联关系来抽取对象[10]。

5)    利用句法依赖关系。因为评论中形容词主要为情感词,它和情感对象的句法依赖关系模式比较单一,然后通过迭代来不断找到情感词和情感对象[11]。

     新闻及评论的情感抽取

       产品评论中情感对象抽取因为评论的一些特征而使得问题更为清晰点,抽取工作也就能够达到比较好的效果。但是在其他文本中,效果并不佳。例如在新闻中抽取情感对象,主要通过主观动词(认为、相信)来找。在NCTIR中即有情感对象的抽取[12]。这主要在于这些文本中评论对象很杂,另外情感词也多样化。

      Ma和Wan[13]提出在中文新闻评论中抽取情感对象的方法。该方法找句子的中心词,将其作为情感对象。如果没有,则通过找前一句的候选集或计算句子和文章中的频繁命名实体的关联关系来找隐性对象。该方法对一句话只能抽取一情感对象,并且因为没有考虑情感,所以抽取的对象未必是情感对象。

      其实情感对象很有必要根据情感词来找。但是在事件评论中,情感词可以是名词(如垃圾)、动词(欺骗、陷害)、形容词等,使得根据情感词找情感对象变得复杂化。但是因为情感词是用来修饰情感对象的,因而不管什么情感其实情感词和情感对象在句法层次上还是有一定的关联关系的,因而我们可以利用句法依赖关系来分析找到。一种可行的办法[14]是通过先抽取情感词所在的子句(减少句子的复杂度),再在子句中根据各种特征预测情感对象的位置(如在子句的主语、宾语或是在子句外句子中或是都不在),然后再从相应位置抽取。这种方法有一点弱势就是需要先标记一些数据。

      其实,抽取情感对象可以根据情感词来启发式获取。比如形容词的情感词一般和情感对象关系紧密,比较好抽取;名词可能充当定语或者表语,因而也可以找到修饰词或者主语来确定对象;主要在于动词。有的动词的情感对象可能是主语,而有的可能是宾语。比如“支持**”则是宾语,而“**诬陷**”则对主语是正向,对宾语反而是同情。所以可以构建这样一个情感语料,将情感动词分成几种类型然后再用来抽取情感对象。这个工作目前(2012-4-20)还没有看到相关工作。这种方法需要功夫,也有一般情感词典的弱势,但估计在中文评论中抽取对象效果应该还是会不错的,希望有兴趣的朋友可以尝试。


[1]     B. Pang, L.Lee, and S. Vaithyanathan, "Thumbs up?: Sentiment Classification usingMachine Learning Techniques,"in EMNLP'02,2002, pp. 79-86.

[2]    P. D. Turney, "Thumbs up or Thumbsdown?: Semantic Orientation Applied to Unsupervised Classification of Reviews,"in ACL'02, 2002, pp. 417-424.

[3]    B. Pang and L. Lee, "Opinion miningand sentiment analysis," Foundationsand Trends in Information Retrieval,vol. 2, pp. 1-135, 2008.

[4]    M. Hu and B. Liu, "Mining opinionfeatures in customer reviews," presented at the Proceedings of the 19thnational conference on Artifical intelligence,San Jose, California, 2004.

[5]    M. Hu and B. Liu, "Mining andSummarizing Customer Reviews," in SIGKDD'04,Seattle, WA, USA, 2004, pp. 168-177.

[6]    A.-M. Popescu and O. Etzioni,"Extracting Product Features and Opinions From Reviews," in HLT/EMNLP'05, Vancouver, BritishColumbia, Canada,2005, pp. 339-346.

[7]    C. Scaffidi, K. Bierhoff, E. Chang, M.Felker, et al., "Red Opal:product feature scoring from reviews,"in Proceedings of the 8th ACM conference on Electronic commerce, 2007,pp. 182-191.

[8]    N. Kobayashi, K. Inui, and Y. Matsumoto,"Extracting Aspect-Evaluation and Aspect-of Relations in OpinionMining," in EMNLP'07, 2007, pp.1065-1074.

[9]    V. Stoyanov and C. Cardie, "Topicidentification for fine-grained opinion analysis," in COLING '08, 2008, pp. 817-824.

[10] Q.Su, X. Xu, H. Guo, Z. Guo, et al.,"Hidden sentiment association in chinese web opinion mining,"presented at the Proceeding of the 17th international conference on World WideWeb, Beijing, China, 2008.

[11] G.Qiu, B. Liu, J. Bu, and C. Chen, "Opinion Word Expansion and TargetExtraction through Double Propagation," Computational Linguistics, vol. 37, pp. 9-27, 2011.

[12] Y.Seki, D. K. Evans, L. W. Ku, H. H. Chen,et al., "Overview of opinion analysis pilot task at NTCIR-6," in NTCIR workshop, 2007, pp. 265-278.

[13] T.Ma and X. Wan, "Opinion Target Extraction in Chinese News Comments,"in COLING'10: Posters, Beijing,China, 2010, pp. 782-790.

[14] Z.Tan, W. Mao, D. Zeng, and X. Li, "Acquiring Netizen Group's Opinions forModeling Food Safety Events," in 2012IEEE International Conference on Intelligence and Security Informatics (ISI2012), Washington D.C., 2012.



来源:twenz for higher