证明:apriori 的一种变形将事务数据库D中的事务划分成n个不重叠的部分,那么在D中是频繁的任何项集至少在D的一个部分中是频繁的。
证明:采用反证法。
假设D中的每个部分均不含有频繁项集
令F为D中一个频繁项集,D为为数据库中一系列的事务,C为D中事务的总数,A为D中包含F项集的事务的总数,min_sup为最小支持度。
因为F是频繁项集,即有A=C*min_sup
我们将D划分成n个不重叠的部分,分别为d1,d2,d3,…..dn,因此有D=d1d2d3…dn
设d1,d2,d3,…dn中的事务总数分别为c1,c2,c3,…cn
设a1,a2,a3,…an为d1,d2,d3,...dn中分别包含项集F的事务数量,因此有A=a1+a2+a3+…+an
由A=C*min_sup得(a1+a2+a3+…+an)=(c1+c2+c3+…+cn)*min_sup。由假设条件可知,F在D中的每一部分都是非频繁的,也就意味着
a1<c1*min_sup;
a2<c2*min_sup;
a3<c3*min_sup;
…
an<cn*min_sup
将上述不等式相加得到(a1+a2+a3+…+an)<(c1+c2+c3+…+cn)*min_sup,或者简记为A<C*min_sup,也就是说F为非频繁项集,这与假设条件相反,故假设不成立,故有D中的任一频繁项集至少在D的一个部分中是频繁的。