文件名称:MapReduce中联接算法的比较研究-研究论文
文件大小:706KB
文件格式:PDF
更新时间:2024-06-08 09:44:16
MapReduce Joins Optimization Bloom Filter
为了分析大量数据,IT社区中提供了一组技术,包括MapReduce范例,并行RDBMS,列存储以及这些技术的组合。 MapReduce是Google引入的并行编程模型,它可以轻松实现任务并行化,同时可以在大量计算机上的大型数据集上隐藏并行计算的细节和复杂性。 我们的研究将关注MapReduce数据分析,在MapReduce中最重要的数据分析处理是对Logs文件的处理,就像在Web应用程序中一样,可以采取选择操作,聚合或过滤的形式,最有用且最昂贵的操作是联接操作,通常需要将日志文件与一个或多个表引用联接,但是MapReduce范例并非旨在处理多个输入。 尽管通常需要处理关系数据,但是当将MapReduce应用于诸如联接之类的关系操作时,此限制会导致困难和效率低下。 本文的目的是比较MapReduce中许多著名的联接策略,从使用的I / O和CPU角度分析与MapReduce程序相关的成本,并提出一些相关工作中的优化技术。