最近突然对网站的用户关系感起了兴趣。当然了,万事万物都是有原因的,只是有的是直接原因,有的是间接原因;有的原因很明显,有的原因不明显;有的原因很容易说清楚,有的原因说不明白。总之一句话,肯定是原因的。
引发这个系列话题的原因是,在我收到的人人或者是校内发送的的推荐关注邮件中,或者是各大微博、SNS社区中的推荐关注与推荐话题中,发现大多和我没有关系,推荐的准确率不是很高,甚至可以说的比较低,更有甚者,还有一些毫无相关的人和内容推荐过来,我就不明白了,既然没有就算了吧,为什么非要有呢?
但是转念一想,原因可能有以下几点:
- 有和没有其实也是需要有个标准的,对于这种标准,又是大家各说各的理,没有定论,所以结果可想而知了。
- 不好意思没有东西,显得网站没有水平。
- 网站确实没有尽心尽力,计算出来的东西就没有那么精准了。
关于精准其实也是有争议的,精准的标准是什么?大家的理解又不一样了。还有就是成本和产出比如何控制,想要精准也行,可是网站当前可能没有那么多成本去做这件事,或者说做这件事的产出相对成本来说有点低,所以失去了做的意义。
当然了,有一些精准也确实在当前的条件下是不可能实现的。
这件事引发了这个系列,也引发了我对于数据分析的兴趣,准确的说是数据分析中的用户关系分析,也就是在大量信息中发现用户的相关性。
以前没有做过数据分析的工作,技术的积累也不够,但是感兴趣之后,就开始关注这方面的信息,技术,和文章,做了一些简单的思考,得出了一些简单的结论。从今天开始会和大家分享一下我的理解,肯定有不当的地方,或者是比较粗浅的地方,希望大家指出,或者给一些好的资源,也让我进步进步。
用户关系分析的好,有很多的应用场景。SNS、微博可以做社会化推荐,电商可以做商品推荐,任何网站都可以利用用户关系来增加用户的黏度,增加用户的忠诚度,做大做强自己的网站,提供更好、更合理的使用体验,以便于更好的为用户服务。
今天先说一些简单的用户相关性理论和如何确定用户相关性?
用户相关性,就是用户关系的强弱,也可以量化为数值的形式。如果说0是无相关,10是相关性最高的话,1-3属于若相关,4-7属于中等相关,8-10属于强相关。
那么如何得出两个用户之间的相关性呢?最简单的莫过于利用用户的基本信息,身高,体重,年龄,爱好等等结构化的数据对两个用户之间的相关性进行计算,得出结果。
举例来说,用户A的年龄是20,用户B的年龄是20,在年龄这个维度上面他们的相关性就是10,当然了,这个10在最终的相关性结果中占多大的比例,还需要为年龄维度设计一个加权值,在综合各维度的时候使用,不是简单的加和平均。同样是年龄,除了直接比较意外,还有一些是需要通过计算其他信息的,例如用户B没有年龄,但是有小学毕业时间,根据这个时间也可以推算年龄,然后进入年龄维度的比较。
首先会设计很多的维度,每一种维度的权重以及加权值,然后通过采集用户的信息,进行分析计算。
在实际的应用中,结构化数据毕竟是有限的,很多信息用户会由于某些原因,不想填写,大量信息的空白,给结构化数据的分析带来困难,强制填与不填之间,网站也很会纠结一番。
就需要大量利用非结构化数据进行分析计算,包括用户的留言,话题,回复,喜好,收藏,购买历史,在这些大量数据的基础之上使用各种分析手段,使这些数据反映出结构化的结果。
常用的就包括map/reduce这种进来很流行的东西,在分析的过程中还可能会用到语义学的知识,甚至是心理学。
尤其是社会心理学,我认为会起到很重要的作用,而且我认为大多数的SNS和微博在社会心理学方面的研究和应用做的都不太够,深度不够才导致推荐的结果差之千里。不过,想要应用的好,也需要下一番功力的,需要专业的知识,还需要将这些专业的知识转化为技术。
今天就聊到这里吧,在以后的日子里,我会继续好奇这方面的信息,继续和大家分享我的认识,希望大家踊跃拍砖!!!
本文出自 “突破中的IT结构师” 博客,请务必保留此出处http://virusswb.blog.51cto.com/115214/781267