文件名称:基于MapReduce架构的网络热点话题发现 (2012年)
文件大小:501KB
文件格式:PDF
更新时间:2024-07-02 10:49:09
自然科学 论文
提出了一种基于开源云计算平台Hadoop的网络热点话题发现方案。该方案采用MapReduce分布式并行计算架构处理海量、复杂数据,通过将命名实体词作为文本的特征项,并采用标题和正文的双向量表示文本。实验结果表明:随着参与并行计算节点数的增加,话题聚类所有的时间显著下降,因而网络热点话题发现的速度得到明显提高。
文件名称:基于MapReduce架构的网络热点话题发现 (2012年)
文件大小:501KB
文件格式:PDF
更新时间:2024-07-02 10:49:09
自然科学 论文
提出了一种基于开源云计算平台Hadoop的网络热点话题发现方案。该方案采用MapReduce分布式并行计算架构处理海量、复杂数据,通过将命名实体词作为文本的特征项,并采用标题和正文的双向量表示文本。实验结果表明:随着参与并行计算节点数的增加,话题聚类所有的时间显著下降,因而网络热点话题发现的速度得到明显提高。