1.情绪分析的一般实用技巧
分词
介绍了三种分词:
Whitespace tokenizer, 就是空格分词。
Treebank tokenizer, 斯坦福大学的树状分词。
Sentiment-aware tokenizer, 情感感知分词器,隔离表情符号,使用基础标记,在看起来有意义的地方保留大写... ...(A good start: nltk.tokenize.casual.TweetTokenizer)
比较:
词干化
The dangers of stemming:
词干会使不同的词形崩溃;
在情感背景下的三种常见词干算法:the Porter stemmer, the Lancaster stemmer, the WordNet stemmer;
Porter and Lancaster破坏了太多的情感差异;WordNet词干分析器几乎没有这么严重的问题,但通常它带来的价值不足以值得运行它所需的资源。
WordNet词干分析器(NLTK)是高精度的。 它需要单词-POS对。 唯一的普遍情绪问题是它消除了比较形态。
词性标注
词性标注的作用是能够根据词性的区别来辅助判断情绪,比如'fine'作为形容词时候一般表示的情绪就是积极的,但是作为名词一般就是消极的。但是词性标注的风险在于,同一单词同一词性也有可能是不一样的情感,比如'mean'作为形容词,形容人是消极的情绪,形容苹果派就是积极的了。
简单的否定标记
The method (Das & Chen 2001; Pang et al. 2002) 在否定和子句级标点符号之间出现的每个单词后面加上一个_NEG后缀。
2.The Stanford Sentiment Treebank (SST)
这里因为我对树状模型不太了解所以就简单记录一下:
SST使用方法:
3.Methods: hyperparameters and classifier comparison
超参数搜索:基本原理
- 模型的参数是那些在优化模型本身的过程中获悉的值。
- 超参数优化对于建立有说服力的论点至关重要:每个模型都必须处于最佳状态!
- 否则,一个人似乎有证据表明,仅通过策略性地选择有利于结果的超参数,一个模型就比其他模型更好。
分类器比较:基本原理
- 假设您已经评估了基准模型B和您偏爱的模型M,并且您选择的评估指标偏爱了M。M真的更好吗?
- 如果B和M之间的区别显然具有实际意义,那么除了显示数字之外,您可能不需要执行任何其他操作。 但是,B或M的表现是否有所不同?
- Demsar (2006) advises the Wilcoxon signed-rank test for situations in which you can afford to repeatedly assess B and M on different train/test splits.
- 对于无法重复评估B和M的情况,McNemar的测试是一种合理的选择。 它对两个模型产生的混淆矩阵进行操作,检验了两个模型具有相同错误率的原假设。