数据分析-用户关系-开篇

最近突然对网站的用户关系感起了兴趣。当然了，万事万物都是有原因的，只是有的是直接原因，有的是间接原因；有的原因很明显，有的原因不明显；有的原因很容易说清楚，有的原因说不明白。总之一句话，肯定是原因的。

引发这个系列话题的原因是，在我收到的人人或者是校内发送的的推荐关注邮件中，或者是各大微博、SNS社区中的推荐关注与推荐话题中，发现大多和我没有关系，推荐的准确率不是很高，甚至可以说的比较低，更有甚者，还有一些毫无相关的人和内容推荐过来，我就不明白了，既然没有就算了吧，为什么非要有呢？

但是转念一想，原因可能有以下几点：

有和没有其实也是需要有个标准的，对于这种标准，又是大家各说各的理，没有定论，所以结果可想而知了。
不好意思没有东西，显得网站没有水平。
网站确实没有尽心尽力，计算出来的东西就没有那么精准了。

关于精准其实也是有争议的，精准的标准是什么？大家的理解又不一样了。还有就是成本和产出比如何控制，想要精准也行，可是网站当前可能没有那么多成本去做这件事，或者说做这件事的产出相对成本来说有点低，所以失去了做的意义。

当然了，有一些精准也确实在当前的条件下是不可能实现的。

这件事引发了这个系列，也引发了我对于数据分析的兴趣，准确的说是数据分析中的用户关系分析，也就是在大量信息中发现用户的相关性。

以前没有做过数据分析的工作，技术的积累也不够，但是感兴趣之后，就开始关注这方面的信息，技术，和文章，做了一些简单的思考，得出了一些简单的结论。从今天开始会和大家分享一下我的理解，肯定有不当的地方，或者是比较粗浅的地方，希望大家指出，或者给一些好的资源，也让我进步进步。

用户关系分析的好，有很多的应用场景。SNS、微博可以做社会化推荐，电商可以做商品推荐，任何网站都可以利用用户关系来增加用户的黏度，增加用户的忠诚度，做大做强自己的网站，提供更好、更合理的使用体验，以便于更好的为用户服务。

今天先说一些简单的用户相关性理论和如何确定用户相关性？

用户相关性，就是用户关系的强弱，也可以量化为数值的形式。如果说0是无相关，10是相关性最高的话，1-3属于若相关，4-7属于中等相关，8-10属于强相关。

那么如何得出两个用户之间的相关性呢？最简单的莫过于利用用户的基本信息，身高，体重，年龄，爱好等等结构化的数据对两个用户之间的相关性进行计算，得出结果。

举例来说，用户A的年龄是20，用户B的年龄是20，在年龄这个维度上面他们的相关性就是10，当然了，这个10在最终的相关性结果中占多大的比例，还需要为年龄维度设计一个加权值，在综合各维度的时候使用，不是简单的加和平均。同样是年龄，除了直接比较意外，还有一些是需要通过计算其他信息的，例如用户B没有年龄，但是有小学毕业时间，根据这个时间也可以推算年龄，然后进入年龄维度的比较。

首先会设计很多的维度，每一种维度的权重以及加权值，然后通过采集用户的信息，进行分析计算。

在实际的应用中，结构化数据毕竟是有限的，很多信息用户会由于某些原因，不想填写，大量信息的空白，给结构化数据的分析带来困难，强制填与不填之间，网站也很会纠结一番。

就需要大量利用非结构化数据进行分析计算，包括用户的留言，话题，回复，喜好，收藏，购买历史，在这些大量数据的基础之上使用各种分析手段，使这些数据反映出结构化的结果。

常用的就包括map/reduce这种进来很流行的东西，在分析的过程中还可能会用到语义学的知识，甚至是心理学。

尤其是社会心理学，我认为会起到很重要的作用，而且我认为大多数的SNS和微博在社会心理学方面的研究和应用做的都不太够，深度不够才导致推荐的结果差之千里。不过，想要应用的好，也需要下一番功力的，需要专业的知识，还需要将这些专业的知识转化为技术。

今天就聊到这里吧，在以后的日子里，我会继续好奇这方面的信息，继续和大家分享我的认识，希望大家踊跃拍砖！！！

本文出自 “突破中的IT结构师” 博客，请务必保留此出处http://virusswb.blog.51cto.com/115214/781267

秒客网

数据分析-用户关系-开篇

相关文章