用户行为分析算法-coffee break python

时间:2021-06-27 06:11:07
【文件属性】:
文件名称:用户行为分析算法-coffee break python
文件大小:6.69MB
文件格式:PDF
更新时间:2021-06-27 06:11:07
深圳杯 数学建模 3.1用户行为分析算法 用户的大量上网记录被分割成了一个个的网页合,其中每个网页集合中网页 的主题都是大致相似的,不同网页集合的主题是不同的,并且相互独立的。这些 拥有不同主题的网页集合就代表了用户上网的兴趣点所在,但是有些网页是用户 闲暇之余随意浏览的,例如新闻网页,这些网页是没有任何价值的,只有找出用 户最有价值的兴趣点才可能在用户身上获得效益,用户行为分析算法能提取出用 户最有价值的上网兴趣点。 用户行为分析算法通过对网页集合的属性进行分析,进而计算出用户的兴趣 价值,该算法在年由浙江大学提出。网页集合的属性主要包括网页的访问时间、 网页的数量等,其中最重要的是网页访问时间。对用户兴趣价值衡量的指标主要 有特征新鲜度和特征离散度,它们通过分析网页访问时间的规律,进而得出兴趣 价值高低。 3.1.1特征新鲜度 特征新鲜度是网页集合中网页访问时间的新鲜程度值,即为网页集合中归一 化后的网页平均访问时间。如果这个网页集合中的网页是最近访问的,则它们的 重要性就越大,而这个网页集合的新鲜程度值就越高,该网页集合所代表的用户 兴趣点的价值就越高。网页平均访问时间的具体计算方法如下: 其中:E(t)为网页集合的平均访问时间,ti为网页集合中网页 di的访问时间。 3.1.2特征离散度 特征离散度是网页集合中网页访问时间分布的离散程度,即网页集合中网页 访问时间的均方差。如果在一个网页集合中,网页的访问时间很分散,那么这个 网页集合代表的可能是用户长期坚持的一个兴趣特征。例如某用户每天晚上都在 网上看比赛,那么该用户极有可能是一个篮球爱好者,因此可以根据用户的这个 兴趣特征向用户推送相关广告。计算网页访问时间均方差的方法如下:

网友评论