1、信息熵
信息熵是度量样本集的纯合度的一种常用的指标,熵值越大,随机变量的不确定性越高。
比如:
- {0,0,01,1,1,1}
- {1,2,3,4,5,6,7}
在这两组数据中,上面的数据的不确定性要小,只有两种可能性,抽中的数字2的概率为1/2。所以其熵值就低
下面的那组数据的不确定性就要大,每个数字抽中的概率都要小。所以其熵值要高,不确定性就越大。
信息熵公式:
计算信息熵实例:
数据如下图
计算嫁与不嫁的信息熵:可以看出不嫁的概率为:1/2,嫁的概率也为1/2。
由信息熵的公式计算得到:-1/2log1/2-1/2log1/2 = -log1/2=0.301。
2、条件熵
条件熵就是在某一条件下,随机变量的不确定(复杂)的程度。
条件熵公式:
计算实例:
由上图的数据可知,身高这个特征的值有(高,中,矮);
其中矮一共有7个,其中嫁有1个,不嫁有6个
中的有2个,其中嫁有2个,不嫁0个
高的有三个,其中嫁的有3个,不嫁0个
由条件熵的公式可得:矮:H(嫁不嫁|矮)=-1/7log1/7-6/7log6/7=0.178;
中:H(嫁不嫁|中)=-1log1-0 = 0;
高 :H(嫁不嫁|高)=-1log1-0 = 0;
所以可得出条件熵为:7/12*0.178+2/12*0+3/12*0=0.103;
3、信息增益
信息增益=信息熵-条件熵。也就是说信息增益就是在某一条件下,信息熵(条件的复杂度)减少的程度。
所以有上面计算的结果得知:0.301-0.1.3=0.198。得知身高后的信息增益为0.198.
4、总结
由上面计算的数据的推出的结论,女嘉宾在不知道任何信息的条件的会选择嫁给男嘉宾的不确定性为0.301,在得知了男嘉宾的身高之后会选择嫁给男嘉宾的不确定性为0.103,比在得知男嘉宾的身高之前不确定下降了0.198.