论文笔记-Mining latent relations in peer-production environments

时间:2021-05-01 09:49:04

背景

  • 用户合作产生内容的网站越来越多,有许多隐藏的信息可以去挖掘
  • wiki上保存了贡献者的编辑记录,提供了非常多的有用的信息
  • 研究发现,大部分的贡献者仅仅会参与编辑很小数量的文章,修改的版本也有限制,通常也只在某几个特定的领域/话题中
  • 含有某个主题的文章通常指吸引特定一部分的读者和编辑者

论文关注点

  • 提出一个新的相似度计算方法 expert-based similarity 应用于维基上有争论性的文章集,从而达到更好的聚类效果
  • 维基上争论性的文章的缘由是和自身的特定主题相关的,而不是相关编辑参与者

论文实验方法

  • 比较已有的三种相似度方法:cosine similarity;SimRank;P-Rank
  • expert-based similarity的理论假设:如果两篇文章被同一个人编辑过,我们则认为该两篇文章是相似的
  • 使用了下面三种方法来检测维基上文章的相关性
Relevance aspect Similarity Relation type
Content Cosine similarity Explicit
Hyperlink P-Rank and SimRank similarities Implicit
Co-editorship Expert-based similarity Implicit
  • 文章一共进行了三次实验来评价以上相似度方法,并验证了方法在大量数据上的一般性
    1. 第一次实验使用了compactness指标来评价聚类效果,聚类算法使用了K-Medoids,相似度算法使用了SimRank和P-Rank,同时为了避免选择K时带来的干扰,使用了DBScan方法避免预先指定聚类的个数K

      expert-based方法结果最稳定,有较高的性能和鲁棒性
      SimRank方法的结果最坏
      通过人工方法的评测发现,expert-based方法对于发现维基中语义相关的文章非常有用

    2. 第二次实验利用了分类标签,用purity和entropy来评价聚类效果,聚类使用了K-Medoids和AHC,相似度使用了上述4种方法

      总的来说,expert-based方法在量化wiki文章的相关性上是一种有效的措施

    3. 第三次实验是在大规模的文档集上评价了expert-based similarity
  • 数据的准备:选用了宗教主题相关的文章,考虑到里面争论性的比例比较大;选取的文章保证有5个以上的编辑者;对于基于内容的相似度方法,通常选取最近的5个版本;对于基于超链接的选择最近的3到5个含有链接的版本
  • expert-based方法的优势在于对于破坏性的大量的编辑有较好的防范性,原因在于它采用了类似IDF的计算方法
  • 第五章验证了导致争论的主要原因
  • 如果两个用户之间有互相删除内容的行为,我们认为这两个用户是在争论
  • 通过对贡献者、concept等方面入手,比较争论性形成的原因,得到结论:特定的争论性的主题是维基争论性文章的主要缘由

文章结论

  • expert-based similarity方法是一种高效有用的度量文章相关度的方法

如若感兴趣,可自行google下载,提供参考链接

论文笔记-Mining latent relations in peer-production environments的更多相关文章

  1. 论文笔记:Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments

    Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments 2017-10-25  16:38:23   [Proj ...

  2. Face Aging with Conditional Generative Adversarial Network 论文笔记

    Face Aging with Conditional Generative Adversarial Network 论文笔记 2017.02.28  Motivation: 本文是要根据最新的条件产 ...

  3. 【论文笔记】Learning Fashion Compatibility with Bidirectional LSTMs

    论文:<Learning Fashion Compatibility with Bidirectional LSTMs> 论文地址:https://arxiv.org/abs/1707.0 ...

  4. Deep Learning论文笔记之(四)CNN卷积神经网络推导和实现(转)

    Deep Learning论文笔记之(四)CNN卷积神经网络推导和实现 zouxy09@qq.com http://blog.csdn.net/zouxy09          自己平时看了一些论文, ...

  5. 论文笔记之:Visual Tracking with Fully Convolutional Networks

    论文笔记之:Visual Tracking with Fully Convolutional Networks ICCV 2015  CUHK 本文利用 FCN 来做跟踪问题,但开篇就提到并非将其看做 ...

  6. Deep Learning论文笔记之(八)Deep Learning最新综述

    Deep Learning论文笔记之(八)Deep Learning最新综述 zouxy09@qq.com http://blog.csdn.net/zouxy09 自己平时看了一些论文,但老感觉看完 ...

  7. Twitter 新一代流处理利器——Heron 论文笔记之Heron架构

    Twitter 新一代流处理利器--Heron 论文笔记之Heron架构 标签(空格分隔): Streaming-process realtime-process Heron Architecture ...

  8. Deep Learning论文笔记之(六)Multi-Stage多级架构分析

    Deep Learning论文笔记之(六)Multi-Stage多级架构分析 zouxy09@qq.com http://blog.csdn.net/zouxy09          自己平时看了一些 ...

  9. Multimodal —— 看图说话(Image Caption)任务的论文笔记(一)评价指标和NIC模型

    看图说话(Image Caption)任务是结合CV和NLP两个领域的一种比较综合的任务,Image Caption模型的输入是一幅图像,输出是对该幅图像进行描述的一段文字.这项任务要求模型可以识别图 ...

随机推荐

  1. XCode设置自己windows习惯的快捷键&lpar;比如Home、End键&rpar;

    Xcode的preference(command+,)中可以设置Key Bindings.绑定自己习惯的快捷键.实测系统快捷键设置同样名字也可以生效,但操作比较繁琐这里就不介绍了. 1.打开Xcode ...

  2. Oracle Minus关键字

    Oracle Minus关键字 SQL中的MINUS关键字 SQL中有一个MINUS关键字,它运用在两个SQL语句上,它先找出第一条SQL语句所产生的结果,然后看这些结果有没有在第二个SQL语句的结果 ...

  3. 《CSS 设计指南》学习笔记 一

    本篇文章是对这几天看完 Charles Wyke-Smit 的 <CSS 设计指南> 后的一些学习笔记与心得,笔者好像是大一的时候开始接触网页设计,由于并不是计算机专业的,所以所有都是自己 ...

  4. weblogic解密工具

    import org.bouncycastle.jce.provider.BouncyCastleProvider; import sun.misc.BASE64Decoder; import jav ...

  5. Erlang分布式在linux和windows上的注意事项

    没事做,就在两台机器间测试下Erlang分布式的例子,一个台是windowsXP,一台装的redHat9,没有详细的文档,自己摸索着搞成功了,记录下. 1.首先,分布式Erlang的实现提供了自有的安 ...

  6. Phonegap 3&period;0 设置APP是否全屏

    Phonegap 3.0 默认是全屏,如需要取消全屏,可手动修改config, 在APP/res/xml/config.xml文件可设置preference: <?xml version='1. ...

  7. &lbrack;原&rsqb;ubuntu下制作openstack-havana源

    ubuntu下可以用apt-mirror下载openstack的源: 1.安装apt-mirror: apt-get install apt-mirror 2.配置/etc/apt/mirror.li ...

  8. java文件上传Demo

    说到文件上传我们要做到: 1.引入两个包:commons-fileupload-1.2.1.jar和commons-io-1.3.2.jar 2.将form改为上传文件模式:enctype=&quot ...

  9. MariaDB的安装与启动

    MariaDB的安装与启动 1.安装前需要删除系统已存在的mysql及mariadb [root@vm172--- ~]# rpm -qa|grep mysql [root@vm172--- ~]# ...

  10. 有关于并发中的死锁&lpar;Deadlock&rpar;、饥饿&lpar;Starvation&rpar;、活锁&lpar;Livelock&rpar;

    最近在看<实战Java高并发程序设计>,发现了之前没有接触过的几个名词. 死锁:之前在接触多线程的时候,接触过死锁的情况.死锁是线程中最糟糕的情况,如下面的图中的四辆车子一样,如果没有一辆 ...