文件名称:大数据:新兴领域的陷阱,方法和概念-研究论文
文件大小:547KB
文件格式:PDF
更新时间:2024-06-09 00:38:54
big data social science Twitter
大数据是包含在线和社交媒体活动印记的大规模综合数据库,已引起科学和政策关注。 但是,由于对方法论和概念问题的关注不足,这一新兴领域受到了挑战。 我回顾了主要的方法和概念挑战,包括:1)对最常用于生成数据集的平台的隐式和显式结构偏差的关注不足(模型有机体问题)。 2)选择因变量而没有相应注意该路径复杂性的常见做法。 3)关于采样,宇宙和代表性(分母问题)缺乏明确性。 4)大多数大数据分析来自单个平台(因此缺少信息流的生态)。 本文回顾的概念性问题包括:1)需要更多的研究来解释聚合介导的相互作用。 点击,状态更新,链接,转发等都是复杂的社交互动。 2)需要仔细考虑从其他领域导入的网络方法,以评估用于分析人类社交媒体印记的适当性。 3)大多数大数据集仅包含有关“节点到节点”交互的信息。 但是,“现场”效应(通过共享经验或通过广播媒体以整体方式影响社会或群体的事件)是人类社会文化体验的重要组成部分。 4.需要假设人类具有反身性,即人类将改变度量标准周围的行为,并将其内置到分析中。 5)假定可加性并计算交互次数,以至于每个新交互都被视为(n 1),而与语义或上下文无关,可能会产生误导。 6)网络结构与其他属性之间的关系是复杂且多方面的。