文件名称:东方财富的java笔试题-STOCK_PRICE_FINBERT:对于中文评论,使用Finbert模型进行极性分析并预测股价上涨
文件大小:8.98MB
文件格式:ZIP
更新时间:2024-07-07 10:00:02
系统开源
东方财富的java笔试题STOCK_PRICE_FINBERT 以guba的评论为初始语料,利用Finbert模型分析中文评论的极性,预测股价上涨。 项目性质 该项目主要由爬虫、Finbert模型和假设检验组成。 爬虫技术使用Xpath和Json技术在东方财富网的股票吧论坛上爬取了20W的评论。 Finbert 模型支持逐层解冻和梯度累积。 同时,每个epoch对数据集进行随机分割,不仅增加了模型训练的随机性,降低了过拟合的风险,而且可以在一定程度上缓解小样本的问题。 最后封装了bert模型,方便以后的模型扩展,给Finbert赋予了Sklearn接口。 假设检验用于评估一定时期内极性与股票收益的相关程度。 代码的使用 单击下面的链接下载预训练的 bert 模型并将其放置在 /models/language_model/ 中。 待解决的问题 社会评论话题分散,大量脏数据难以清理,严重影响模型性能。
【文件预览】:
STOCK_PRICE_FINBERT-master
----models()
--------classifier_model()
--------language_model()
----finbert()
--------finbert.py(17KB)
--------spider.py(3KB)
--------figure.py(5KB)
--------__init__.py(737B)
----data()
--------lexicon()
--------dataset()
--------corpus()
----notebook()
--------main.ipynb(594KB)
--------test.ipynb(441KB)
----LICENSE(1KB)
----.gitignore(2KB)
----README.md(1KB)
----.gitattributes(66B)