大数据技术的文本挖掘迭代模型-研究论文

时间:2024-06-08 15:47:41
【文件属性】:

文件名称:大数据技术的文本挖掘迭代模型-研究论文

文件大小:1.13MB

文件格式:PDF

更新时间:2024-06-08 15:47:41

Big Data Hadoop Map Reduce

大数据是一个术语,用于表示大量的结构化,非结构化数据或两者的组合,以至于在关系数据库管理系统或旧版软件系统中处理它们变得非常困难和复杂。 在企业布局中,设置的数据量太大和/或数据移动太快和/或超出了当前的处理能力。 大数据的计算始于未集群的原始数据,通常是不可能将其缓存在单台计算机的内存中的。 存储和检索数据是大数据中最繁琐的挑战。 大数据的某些应用领域是银行,医疗保健,文本挖掘,教育等。当数据为文本格式时,手动分组数据会带来很大的复杂性。 因此,对于文本文章的适当分组,文档聚类的责任非常强烈,以便可以揭示作者的正确情感。 它涉及数据挖掘,机器学习,统计和自然语言处理的算法,试图从文本数据中提取高质量的有用信息。 在本文中,我们提出了一种文本挖掘模型,该模型将使大量文本挖掘过程变得容易且熟练。 集群和大数据技术是该模型的主要工作。 它将消除不相关的上下文(停止词),并以定量形式表示文档。 通过遵循迭代分析方法,可以提高模型的准确性。 最终,该模型的名称被称为“高级文本挖掘模型”。


网友评论