转载请注明:电子科技大学EClab——落叶花开http://www.cnblogs.com/nlp-yekai/p/3816532.html
困惑度一般在自然语言处理中用来衡量训练出的语言模型的好坏。在用LDA做主题和词聚类时,原作者D.Blei就是采用了困惑度来确定主题数量。文章中的公式为:
perplexity=exp^{ - (∑log(p(w))) / (N) }
其中,P(W)是指的测试集中出现的每一个词的概率,具体到LDA的模型中就是P(w)=∑z p(z|d)*p(w|z)【z,d分别指训练过的主题和测试集的各篇文档】。分母的N是测试集中出现的所有词,或者说是测试集的总长度,不排重。
因而python程序代码块需要包括几个方面:
1.对训练的LDA模型,将Topic-word分布文档转换成字典,方便查询概率,即计算perplexity的分子
2.统计测试集长度,即计算perplexity的分母
3.计算困惑度
4.对于不同的Topic数量的模型,计算的困惑度,画折线图。
python代码如下:
# -*- coding: UTF-8-*-
import numpy
import math
import string
import matplotlib.pyplot as plt
import re def dictionary_found(wordlist): #对模型训练出来的词转换成一个词为KEY,概率为值的字典。
word_dictionary1={}
for i in xrange(len(wordlist)):
if i%2==0:
if word_dictionary1.has_key(wordlist[i])==True:
word_probability=word_dictionary1.get(wordlist[i])
word_probability=float(word_probability)+float(wordlist[i+1])
word_dictionary1.update({wordlist[i]:word_probability})
else:
word_dictionary1.update({wordlist[i]:wordlist[i+1]})
else:
pass
return word_dictionary1 def look_into_dic(dictionary,testset): #对于测试集的每一个词,在字典中查找其概率。
'''Calculates the TF-list for perplexity'''
frequency=[]
letter_list=[]
a=0.0
for letter in testset.split():
if letter not in letter_list:
letter_list.append(letter)
letter_frequency=(dictionary.get(letter))
frequency.append(letter_frequency)
else:
pass
for each in frequency:
if each!=None:
a+=float(each)
else:
pass
return a def f_testset_word_count(testset): #测试集的词数统计
'''reture the sum of words in testset which is the denominator of the formula of Perplexity'''
testset_clean=testset.split()
return (len(testset_clean)-testset.count("\n")) def f_perplexity(word_frequency,word_count): #计算困惑度
'''Search the probability of each word in dictionary
Calculates the perplexity of the LDA model for every parameter T'''
duishu=-math.log(word_frequency)
kuohaoli=duishu/word_count
perplexity=math.exp(kuohaoli)
return perplexity def graph_draw(topic,perplexity): #做主题数与困惑度的折线图
x=topic
y=perplexity
plt.plot(x,y,color="red",linewidth=2)
plt.xlabel("Number of Topic")
plt.ylabel("Perplexity")
plt.show() topic=[]
perplexity_list=[]
f1=open('/home/alber/lda/GibbsLDA/jd/test.txt','r') #测试集目录
testset=f1.read()
testset_word_count=f_testset_word_count(testset) #call the function to count the sum-words in testset
for i in xrange(14):
dictionary={}
topic.append(5*(3i+1)) #模型文件名的迭代公式
trace="/home/alber/lda/GibbsLDA/jd/stats/model-final-"+str(5*(i+1))+".txt" #模型目录
f=open(trace,'r')
text=f.readlines()
word_list=[]
for line in text:
if "Topic" not in line:
line_clean=line.split()
word_list.extend(line_clean)
else:
pass
word_dictionary=dictionary_found(word_list)
frequency=look_into_dic(word_dictionary,testset)
perplexity=f_perplexity(frequency,testset_word_count)
perplexity_list.append(perplexity)
graph_draw(topic,perplexity_list)
下面是画出的折线图,在拐点附近再调整参数(当然与测试集有关,有图为证~~),寻找最优的主题数。实验证明,只要Topic选取数量在其附近,主题抽取一般比较理想。
本人也是新手开始作研究~程序或者其他地方有错误的,希望大家指正。