《数据挖掘概念与技术》(第二版) 习题5.1(d)答案

时间:2023-02-27 14:32:28

证明:apriori 的一种变形将事务数据库D中的事务划分成n个不重叠的部分,那么在D中是频繁的任何项集至少在D的一个部分中是频繁的。

 

证明:采用反证法。

      假设D中的每个部分均不含有频繁项集

      令FD中一个频繁项集,D为为数据库中一系列的事务,CD中事务的总数,AD中包含F项集的事务的总数,min_sup为最小支持度。

     因为F是频繁项集,即有A=C*min_sup

     我们将D划分成n个不重叠的部分,分别为d1,d2,d3,…..dn,因此有D=d1d2d3…dn

     设d1,d2,d3,…dn中的事务总数分别为c1,c2,c3,…cn

     设a1,a2,a3,…and1,d2,d3,...dn中分别包含项集F的事务数量,因此有A=a1+a2+a3+…+an

     由A=C*min_sup得(a1+a2+a3+…+an=c1+c2+c3+…+cn*min_sup。由假设条件可知,FD中的每一部分都是非频繁的,也就意味着

     a1<c1*min_sup;

     a2<c2*min_sup;

     a3<c3*min_sup;

             …

     an<cn*min_sup

        将上述不等式相加得到(a1+a2+a3+…+an<c1+c2+c3+…+cn*min_sup,或者简记为A<C*min_sup,也就是说F为非频繁项集,这与假设条件相反,故假设不成立,故有D中的任一频繁项集至少在D的一个部分中是频繁的。