投资分析中的人工智能:大模型用于股票评级

时间:2024-11-12 16:45:37

AI in Investment Analysis: LLMs for Equity Stock Ratings

投资分析是金融服务行业的基础,金融分析师通过评估财务数据、发布股票评级等,帮助投资决策和市场趋势。

本研究利用LLMs提高股票评级的准确性和一致性,评估不同数据模态的有效性。结果显示,LLM在短期预测中表现较好,分析师预测在长期预测中表现更佳。

img

论文地址:https://arxiv.org/pdf/2411.00856

摘要

投资分析是金融服务行业的基石,LLMs(大型语言模型)在股票评级过程中提供了提升机会。传统股票评级方法依赖分析师,面临数据过载、文件不一致和市场反应滞后等挑战。

本研究利用LLMs提高股票评级的准确性和一致性,评估不同数据模态的有效性。使用2022年1月至2024年6月的多种数据集,结果显示基准方法在前向收益评估中优于传统方法。融合财务基本面数据提升评级准确性,新闻数据改善短期表现,但用情感分数替代详细新闻摘要可减少token使用且不影响表现。在某些情况下,完全省略新闻数据可通过减少偏差提升表现。研究表明LLMs能有效利用大量多模态金融数据,提供一致准确的股票评级框架。

简介

投资分析是金融服务行业的基础,金融分析师通过评估财务数据、发布股票评级等,帮助投资决策和市场趋势。股票评级基于公司未来表现的前瞻性预测,影响市场认知。

近年来,深度学习和大型语言模型(LLMs)增强了金融分析的能力,能够处理大量非结构化数据,提升股票评级生成过程。LLMs在预测股票评级方面的优势包括:高效处理复杂数据、按需生成预测、整合多种数据源以减少偏见。

本研究使用GPT-4-32k模型,探索LLMs在股票评级预测中的应用,避免信息泄露,展示其在前向收益评估中的优越性。

相关工作

大模型在金融领域应用

LLM技术在金融领域广泛应用,包括情感分析、摘要生成和复杂问答。研究显示,LLM在股票预测、风险管理和量化交易等任务中表现出色。使用多样化数据集和多阶段LLM应用提升了预测的可解释性。

GPT通过新闻标题情感分数预测股市回报,表现优于传统模型。结合财务新闻、基本面、股价和宏观经济因素进行股票预测。Chain-of-Thought提示和In-Context Learning用于生成信号并优化策略。LLM分析财务风险,整合财报、市场数据和新闻信息。量化交易研究中,使用记忆模块和知识库提升模型自适应能力。LLM自主交易代理利用分层记忆和知识库进行自我改进。

分析师股票评级

分析师股票评级预测股票表现,通常在季度财报、电话会议或重大事件后发布。评级分为五类:强买/买、适度买、持有、适度卖、强卖/卖。不同机构使用不同的评级系统,可能基于风险调整表现或综合多个研究提供者的评分。分析师依据公司表现的定性和定量信息进行评级,帮助投资者决策。常用数据包括:基本面和技术分析、公司及行业新闻、市场和行业表现。

股票评级的重要性

股票评级是未来股票表现的重要指标,投资者利用其进行投资决策。研究表明,股票评级对市场有显著影响,投资者会根据评级调整策略。一项研究分析了20年S&P500交易数据,开发的分类器在预测价格变化方面表现出高准确率,评级是重要特征。G7国家的研究发现,分析师推荐的修订对股价反应显著,尤其在美国。分析师的推荐变化与股票波动性和盈利预测的显著变化相关。在波兰市场的研究显示,基于分析师推荐的投资策略能获得显著的超额收益。

方法

利用大型语言模型(LLMs)分析金融数据并生成股票评级。LLMs能处理大量信息、识别复杂模式并适应新数据。能高效整合多种数据源,提供传统方法难以捕捉的深入见解。提供与分析师相同的信息,包括财务基本面、股价变动、新闻摘要和情绪等。评估LLMs在投资分析中的可行性,识别提升其表现的技术和信息。

提示结构

使用GPT-4-32k模型,具有32,000个token的上下文窗口,训练数据截止到2021年9月,防止信息泄露。通过系统提示让LLM扮演金融分析师角色,提供清晰的功能框架。定义股票评级的规模和术语,提供财务基本面的详细描述。采用Chain-of-Thought和few-shot提示方法,鼓励LLM进行推理并提供输出示例。以结构化格式提供公司特定输入数据,文本信息在前,数值数据在表格中。进行基本的CoVE(验证链)以确保预测日期的正确性。

问题建模

公司评级 ???? (????, ????) 预测未来 ???? 个月的表现,评级值为 {-2, -1, 0, 1, 2},分别代表强卖、适度卖、持有、适度买、强买。

img

评级准确性通过评估公司股票的未来回报来判断,常用方法包括分析评级发布后股票表现和不同评级水平的公司回报。计算公司回报 ???? ???? (????, ????) 和行业相对回报 ???? ???? , ???? (????, ????),并将公司回报分为五个分位数。通过比较公司回报的分位数与评级进行正确性判断,定义指标函数来评估评级的准确性。

img

img

img

img

img

实验

数据

分析对象为2022年1月至2024年6月的美国标准普尔500指数成分股。

img

分析师股票评级。 收集了126家公司的45,000条分析师评级数据。评级分布:维持(75.90%)、重申(7.25%)、下调(6.27%)、上调(5.68%)、启动(4.89%)。前五大评级公司(摩根士丹利、巴克莱、富国银行、花旗、RBC资本)占总评级的31.61%。数据包括评级公司、评级日期和评级内容,但缺少目标日期和目标价格。

财经新闻摘要。 收集S&P500公司新闻,使用命名实体识别(NER)过滤无关内容,平均每月每只股票有39.63篇文章,187K字符,40K词,74.70个URL,34.40篇缺失文章。使用GPT-4-32k生成公司和行业的新闻摘要,突出关键事件和趋势,设计了两种用户提示。利用GPT-4-32k对新闻摘要进行情感分析,评分范围为-5到5,分为公司和行业两种评分模板。收集S&P500公司每日股价,计算技术指标,包括当前价格、52周价格区间、90天波动率及1、3、12个月的表现指标。

财务基本面。 从2022年1月到2024年3月,使用finagg API聚合公司季度财务数据(10-Q和10-K文件)。每个预测日期使用过去4个季度的财务数据。这些文件由公司提交给美国证券交易委员会(SEC),包含资产负债表、损益表和现金流量表的详细信息。

实验设置

使用GPT-4-32k模型进行实验,生成2022年1月至2024年6月间S&P500公司股票评级。每月初为每家公司预测未来1、3、6、12、18个月的评级,评级选项包括强卖、适度卖、持有、适度买和强买。实验涉及约5个时间范围、30个起始日期和500家公司,旨在评估模型在不同时间段的预测表现。

采用五种方法:Vanilla、News、Sentiment、Fundamentals、Fundamentals + Sentiment,输入数据有所不同。Vanilla方法提供公司历史数据(过去1、3、12个月的收益、当前股价、52周价格范围和90天波动率),共13个数据点,作为基线。

新闻。 通过包含新闻数据增强Vanilla方法,提供上月公司和行业新闻摘要,LLM需评估情感(正面、负面、中性或混合),并在技术指标前提供摘要以提高性能。

情感分析。 与Vanilla方法相似,但提供公司和行业新闻的预计算情感分数(-5到5),用于指导LLM的预测。

基本面数据。 在Vanilla提示中增加季度财务基本面数据,提供详细指标描述,LLM需分析这些数据。

基本面+情感。 在基本面方法基础上,加入情感分数,LLM需结合基本面数据和情感分数进行推荐。

评估

评估评级基于1、3、6、12和18个月的前向收益,包括市场相对和行业相对收益。评级被视为正确,如果真实前向收益的分位数与评级的排名一致。例如,若某公司被评为“强买入”,但其6个月前向收益在底部分位,则评级显著错误。计算平均绝对误差(MAE),考虑市场相对和行业相对收益,适合序数分类。MAE惩罚离真实值更远的评级,准确率则对所有错误一视同仁。计算复合误差,平均市场相对收益的MAE,关注3、6、12个月的时间段。分析师评级来自华尔街的真实评级,与LLM预测进行比较。

结果

研究了市场相对MAE和行业相对MAE的月度数据。

传统分析师 vs 大模型

分析师的买入评级占比高于95%,卖出评级不足5%。大模型方法的MAE为1.447,优于分析师预测的1.570,表明LLM预测更准确。大模型方法的标准差为0.745,高于分析师的0.637,显示出一致性较差。行业回报的MAE和标准差趋势与上述相同。随着前瞻期增加,分析师预测的误差减少,18个月期表现稍好;而大模型实验的误差则增加。

img

img

新闻:总结 vs 情绪

新闻总结实验的 Return MAE 为 1.491,标准差 0.738,表现优于其他实验。新闻情绪实验的 Return MAE 为 1.496,标准差 0.752,未显著提升性能。两者均未超越大模型实验,且包含摘要与仅包含情感评分的表现相似。Sector Relative Return MAE 的趋势与 Return MAE 一致。新闻情绪在1个月内表现最佳,可能因提供了更清晰的公司近期表现。

img

基本面 vs 基本面+情绪

基本面+情绪实验的Return MAE为1.417,预测最准确;基本面实验的Return MAE为1.421,标准差为0.732,预测更一致。两个实验在3、6、12个月期间表现最佳,特别是短期内,结合基本面和情绪得分有效。在18个月期间,基本面+情绪实验的MAE较高,表明长期可能出现信号冲突。两个模型均优于大模型实验和分析师预测,强调基本面的重要性。包含公司和行业情绪而不使用新闻摘要数据,提高了预测准确性,减少了复杂性和噪音。

结果总结

LLM在短期预测中表现较好,长期预测误差增加。新闻相关实验(尤其是新闻摘要)在短期内表现最佳,因新闻的即时影响。新闻情感分析实验与新闻摘要实验表现相似,情感分析未显著提升性能。基本面和基本面+情感实验在中期表现良好。分析师预测在长期预测中表现最佳。

新闻的功效

通过计算Spearman相关性和生成热图,分析新闻摘要与新闻情感对结果的影响。在新闻实验中,LLM对公司和行业新闻摘要进行评分,然后预测股票评级。在情感实验中,使用情感评分替代新闻摘要进行推理。新闻摘要在不同月份间存在相关性,尤其是接近评级的时期。

img

LLM评级与前期预测相关,使用新闻数据导致模型偏向于更积极的评级。LLM评级与新闻摘要的情感评分呈强正相关,积极情感导致更有利的评级。情感影响导致评级分布中积极评级增加,降低了准确性。

挑战和限制

研究评估方法基于固定时期的前向收益和收益分位数,可能受市场条件影响。评估准确性还受市场情绪、公司新闻和经济指标等定性因素影响。缺乏具体评级目标日期,导致评估时间跨度不一。未考虑分析师评估中的重要因素,如未来表现预测、财报、投资者情绪等。模型未测试处理大量信息的能力,而分析师通常会审查这些信息。

总结

本研究探讨大型语言模型(LLMs)在预测股票评级中的潜力。整合多种信息源,包括基本财务指标、技术指标、财经新闻摘要、新闻情感及财务基本面。评估LLMs在该任务中的表现,分析不同数据源对预测能力的影响。

如何学习AI大模型?

作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传****,朋友们如果需要可以微信扫描下方****官方认证二维码免费领取【保证100%免费

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

img

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

img

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

img

四、AI大模型商业化落地方案

img

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。