文件名称:论文研究-基于分布式数据仓库的分类分析研究.pdf
文件大小:1.19MB
文件格式:PDF
更新时间:2022-08-11 17:11:45
数据挖掘,分布式数据仓库,分类分析,GAC-RDB,Hadoop,HBase,Hive
针对GAC-RDB分类算法只能应用于单机版数据仓库的局限性, 为了能够更方便、快捷地在云计算平台上开展数据挖掘工作, 基于分布式数据仓库HBase, 结合GAC-RDB分类算法的实现机理, 制定适合分布式平台的运行策略, 使用原生HiveQL语言提出了一种分布式GAC-RDB分类算法。实验显示, 随着集群中节点的不断增加, 算法的运行时间稳步下降。结果表明, 在保证算法准确率的前提下, 分布式数据仓库能够有效提高GAC-RDB分类算法的扩展性和运行效率, 相对于MapReduce框架, HiveQL语言降低了对数据挖掘从业人员的技术要求, 更大程度地减少了算法的开发时间, 为挖掘海量数据提供了新的解决方案。