文件名称:社交媒体和股市预测:大数据方法-研究论文
文件大小:750KB
文件格式:PDF
更新时间:2024-06-30 03:08:03
Big Data; Analytics; Artificial
大数据是来自传统和数字来源的大型数据集的集合,用于识别趋势和模式。 出于多种原因,计算机数据的数量和种类呈指数增长。 例如,零售商正在建立庞大的客户销售活动数据库。 组织正在致力于物流金融服务,公共社交媒体正在分享大量与销售价格和产品相关的情绪。 大数据的挑战包括结构化和非结构化数据的数量和多样性。 在本文中,我们使用 PySpark 通过 Spark MLlib 实现了几种机器学习模型,PySpark 具有可扩展性、速度快、易于与其他工具集成,并且比传统模型具有更好的性能。 我们用线性回归、广义线性回归、随机森林和决策树等MLlib模型研究了10家*公司的股票,其数据包括历史股价。 我们实现了朴素贝叶斯和逻辑回归分类模型。 实验结果表明,线性回归、随机森林和广义线性回归提供了 80%–98% 的准确率。 决策树的实验结果并不能很好地预测股市的股价走势。