《商业WEB挖掘关键技术研究》是2011年川大博士张磊的博士学位论文,除去一堆看起来高深的知识点,我比较感兴趣的是里面提出的很多基于语义的特征模板。模板没有复杂的算法,但因想面面俱全,使得整体模板看起来较为庞大。按照层次分类,在实际应用中取其所需,想来也不错。现将模板构造方法关键点总结如下:
1. 基本模板:
F1:目标词左右1、2个词的词性
Eg:P(FW+1),特征词右边第一个词的词性。
P(SW-2),情感词左边第二个词的词性。
F2:目标词左右1、2个词。(没用)
F3:目标词左边第一个词为“的” DE
F4:目标词为字母或数字 ALP
F5:目标词为字母 CAP
F6:情感词之前为程度副词 DEG
F7:情感词之前为否定副词 NEG
2. 复合模板:
特征词复合模板,用到F1~F5
情感词复合模板,用到F1、F2、F6、F7
Eg:整个 车 的 内饰 非常 糟糕 。
B n u n d a wp
针对特征词“内饰”,可以发现匹配复合模板F1F2F3
P(FW-1)=”u”&P(FW-2)=”n”&P(FW+1)=”d”&P(FW+2)=”a”&DE=TRUE
针对情感词“糟糕”,可以发现匹配复合模板F1F2F6
P(SW-1)=”d”&P(SW-2)=”n”&P(SW+1)=”wp” &DEG=”非常”
基于依存关系的特征-情感对的分类
1. 依存关系标记(24个):
定中关系ATT;数量关系QUN;并列关系COO;同位关系APP;前附加关系LAD; 后附加关系RAD;动宾关系VOB;介宾关系POB;主谓关系SBV;比拟关系SIM;核心HED;连动结构VV;关联结构CNJ;语态结构MT;动补结构CMP;“的”字机构DE;“地”字结构DI;“得”字结构DEI;“把”字结构BA;“被”字结构BEI;独立分句IC;依存分句DC
2. 依存关系结构模板:
一个依存关系是一个非对称的二分关系,其中一个词作为首词,另外一个词称为依存词。(依存词在首词前面)
一个依存关系可以简写成:(首词,依存词)
Ge:诺基亚 手机 的 外观 很 漂亮
主要的依存关系有:ATT(手机,诺基亚) SBV(漂亮,外观)
ADV(漂亮,很)
依存关系基本模板:
F(in) :特征词作为依存词
F(out) :特征词作为首词
S(in) :情感词作为依存词
S(out) :情感词作为首词
3. 依存关系距离模板:
D(FS):特征词与情感词之间的距离,即两者之间的词的个数
O(FS):特征词与情感词的前后顺序,特征词在情感词前面取“1”
反之,取“0”
N1 :特征词与情感词之间,其它特征词个数
N2 :特征词与情感词之间,其它情感词个数
4. 依存关系距离模板:
1)P(child):儿子关系,情感词到特征词的路径
说明:特征词为情感词的“儿子”
Eg:我喜欢这个相机
VOB(喜欢,相机)
2)P(parent):父亲关系,特征词到情感词的路径
说明:特征词为情感词的“父亲”
Eg:这款手机的独特外观使得用户很惊讶
ATT(外观,独特)
3)P(sibling):兄弟关系,共同祖先到特征词和情感词的路径
说明:特征词和情感词是同一个祖先词的“儿子”
Eg:照片质量有时会模糊
依存关系是:(质量,模糊),他们有一个共同的祖先,“会”
4)P(grandchild):子孙关系,情感词经过中间词到特征词的路径
说明:特征词为情感词的“子孙”,中间依赖于若干个词作为关系的传递。
Eg:即使使用LCD和FLASH,电池的性能也很好
依存关系(好,LCD),依赖于一个中间词“使用”
5)P(grandfather):祖父关系,特征词经过中间词到情感词的路径
说明:特征词为情感词的“祖父”,中间依赖于若干个词作为关系的传递。
Eg:专业的图像处理器,操控性好
依存关系(处理器,专业),依赖于一个中间词“的”
说明:目标词(包括特征词和情感词)