我们研究了一种大型语言模型(LLM)是否能够像专业人类分析师一样成功地进行财务报表分析。我们向GPT-4提供标准化且匿名的财务报表,并指示模型分析这些报表以预测未来的收益变化方向。即使在没有任何叙述性或行业特定信息的情况下,LLM在预测收益变化方面的表现优于财务分析师。LLM在分析师通常表现不佳的情况下表现出相对优势。此外,我们发现LLM的预测准确性与经过专门训练的最先进机器学习模型的表现相当。LLM的预测并非来自其训练数据的记忆。相反,我们发现LLM生成了关于公司未来表现的有用见解。最后,基于GPT预测的交易策略比基于其他模型的策略产生了更高的夏普比率和阿尔法。综上所述,我们的研究结果表明,LLM可能在决策过程中发挥重要作用。
本文探讨了大语言模型(LLM),特别是GPT-4,在财务报表分析中的能力。财务报表分析是一项需要批判性思维、推理和判断的传统定量任务。
数据与模型:
实验设计:
主要发现
实践意义
结论
GPT展示了在财务报表分析中的卓越能力,达到了甚至超越了专业机器学习模型的表现。这表明LLMs在金融领域具有很大的应用潜力,值得投资者和监管者关注。未来的研究应进一步探讨AI在实际金融决策中的影响。

该图描述了论文中使用的baseline模型及预测方法

基于上一年财务报表发布后第一个月的预测,分析师的准确率为 52.71%,F1 分数为 54.48%,这在预测一年后的收益变化方向时优于基于简单模型的预测(准确率 = 49.11%,F1 分数 = 53.02%)。然而,这些结果也重申了一个观点,即收益变化非常难以预测,即使是对复杂的金融分析师也是如此。
正如预期的那样,分析师的预测准确率在 t+1 年内随着时间的推移有所提高,分别在第三个月和第六个月的预测中达到了 55.95% 和 56.58%。转向 GPT 的预测,我们观察到以下几点:
使用简单的提示指示 GPT 分析财务报表并预测未来收益方向时,模型的准确率为 52.33%,F1 分数为 54.52%。因此,在没有 CoT 推理的情况下,模型的性能与财务报表发布后第一个月的分析师共识预测相当。然而,当我们利用基于 CoT 的 GPT 预测时,性能显著提高。通过链式思维提示,GPT 达到 60.35% 的准确率,相比财务报表发布后一个月的分析师预测提高了 7 个百分点。这个差异在 1% 的水平上具有统计显著性。
因为我们没有向语言模型提供任何分析师可获得的叙述性或背景信息,除了资产负债表和损益表。综上所述,我们的结果表明,即使没有任何特定的叙述性背景,GPT 也可以通过财务报表分析超过人类分析师。我们的结果还强调了类似人类的逐步分析的重要性,这使得模型能够遵循人类分析师通常执行的步骤。相比之下,仅仅指示模型分析复杂的财务报表并不会产生强有力的预测结果。
I ( i n c o r r e c t = 1 ) i t = β X i t + δ y e a r + δ i n d + ϵ i t I(incorrect = 1)_{it} = \beta X_{it} +\delta_{year}+\delta_{ind}+ \epsilon_{it} I(incorrect=1)it=βXit+δyear+δind+ϵit


调整后的R平方值从仅包含GPT预测时的0.070增加到包含两个预测时的0.089。这表明组合预测模型能够解释更多的未来收益变化,进一步证明了GPT和分析师预测之间的互补性。

先验偏差:为了估计分析师预测中的先验偏差(效率低下),我们运行了分析师预测误差(预测EPS与实际EPS的差值)与与方程2中相同的公司特征的横截面回归。然后,我们取这个回归的拟合值的绝对值。与先前的文献一致,预测误差被定义为实际每股收益(EPS)与预测 EPS 的差值,并按上一财政年末的股票价格进行缩放。
将预测误差按上一财政年末的股票价格进行缩放的原因如下:
分歧:我们使用分析师预测的 EPS 值的标准差,并按上一财政年末的股票价格进行缩放。根据分析师偏差的四分位数值对样本进行分区。

我们观察到使用 ANN 模型可以获得更高的预测准确率。该模型实现了 60.45% 的准确率和 61.62% 的 F1 分数。这个结果突显了财务变量之间的非线性和相互作用对于数值信息的预测能力的重要性。与分析师样本中的结果一致,我们基于 CoT 的 GPT 预测实现了 60.31% 的准确率,与专门的 ANN 模型相当。
事实上,就 F1 分数而言,GPT 实现了 63.45% 的数值,这是所有预测方法中最高的。这表明 GPT 在分析财务报表方面具有显著的能力。它不仅优于人类分析师,而且在与狭义专业化的最新 ML 应用相媲美的性能水平上。

左侧面板显示了 GPT 预测准确率的负向时间趋势。从经济幅度上看,GPT 的准确率每年平均下降了 0.1 个百分点,这意味着在样本期间的 54 年内,准确率下降了 5.4 个百分点。有趣的是,我们观察到 1974 年、2008-2009 年和 2020 年预测准确率出现了显著下降。这些时期与国际宏观经济衰退相重叠:1974 年的石油冲击、2008-09 年的金融危机和 2020 年的新冠疫情爆发。
这个结果令人欣慰,因为如果 GPT 的性能与记忆无关,它就不应该预见到意外的外生宏观经济冲击。最重要的是,在图 4 的右侧面板中,我们绘制了 GPT 和 ANN 模型准确率之间的“差异”的时间序列趋势。与 GPT 相比,ANN 模型表现出类似的时间趋势,其年度差异波动接近零。因此,对于两个评估指标,我们发现了一个负向且具有统计学意义的时间趋势,这意味着仅使用数值信息来预测未来收益变得越来越困难。


与 GPT 相比,ANN 在公司较小并且出现亏损时更有可能产生不准确的预测。公司规模每减小一个标准差,GPT 的预测准确率就会下降 3.4 个百分点。相比之下,对于 ANN 模型,同样变化的公司规模与预测准确率下降 5.5 个百分点。这两个系数之间的差异在 1% 的水平上具有统计学意义。类似地,亏损和盈利波动性的系数在 5% 的水平上具有统计学差异。logistic 回归与 GPT 预测之间的差异甚至更为显著。这些发现暗示了 GPT 在更不常见的数据模式(例如,亏损的公司)中作出更好预测的能力,这可能是因为它能够依靠其概念知识和对商业的理论理解。
在第(4)列中,当同时包含 GPT 和 ANN 预测时,两者均保持统计显著性,因此包含了增量信息。有趣的是,ANN 的系数在数量上变为原来的三分之一(与第(2)列相比),其统计显著性下降(t 统计量从 3.69 降至 2.36),而 GPT 的系数保持稳定。这个结果表明,在预测未来收益时,GPT 捕捉到了一些非线性金融变量相互作用之外的附加信息维度,例如外部理论知识。

我们分别报告了高信心(第四四分位)和低信心(第一四分位)组的预测结果。结果如图5和表5的第(1)至(4)列所示。模型在报告较高信心时表现更好。在高信心组中,模型基于报告的信心值(从逻辑概率衍生的信心评分)达到的平均准确率为62.44%(63.15%),这比低信心组的相应准确率高出约2.6(4.6)个百分点。我们基于F1得分发现了类似的结果。总体而言,这一结果表明模型能够区分收益更可预测的实例。
结果如图5和表5的第(5)和(6)列所示。当模型预测较大变化时,平均准确率为62.03%,而预测较小变化时,准确率下降到60.22%。F1得分也显示出类似的模式:预测较大变化时为61.16%,而预测较小变化时为57.95%。总体而言,当模型预计较大变化时,其方向性预测更为准确。
GPT-4-turbo的性能最佳,其次是Gemini 1.5,而GPT-3.5的表现最差。Gemini 1.5的总体准确率为59.15%,接近于相同20%样本中的GPT-4的61.05%。然而,GPT-3.5的准确率仅为52.29%,F1得分为59.17%,均显著低于我们的GPT-4基准。我们还发现,GPT-4和Gemini 1.5的输出结果大部分重叠,只有1,808个公司年份(约占6%)的预测结果相反。总体而言,这一分析表明,我们的发现不仅限于特定的大语言模型家族。尽管最终的预测结果在很大程度上依赖于基础语言模型的性能,但最新一代的大语言模型能够分析财务报表并做出明智的决策。
第一组实验:不包含任何链式思考提示。我们指示模型根据我们提供的财务报表来猜测公司名称或年份。具体而言,我们要求模型提供十个最可能的公司名称和最可能的财年。

我们的第一组实验不包含任何链式思考提示。我们在 10,000 个随机观测中进行这一实验。结果如表 6 的 A 面板所示。我们发现,模型以 0.07% 的准确率正确识别公司名称,这低于从我们数据中的名称群体中随机猜测的准确率。在图 7 的左侧面板中,我们绘制了模型最常产生的十个公司名称。我们发现模型几乎总是预测同一组十家公司,包括特斯拉、脸书和亚马逊。这个结果与模型的训练目标一致,即基于其信息生成最可能的词语(在这种情况下是名称)。在没有有效的先验信息时,模型可能会预测其训练语料库中最显著或最受欢迎的公司。
正确猜测财务报表年份的准确率为 2.95%。在图 7 的右侧面板中,我们将实际财年和 GPT 的预测绘制在一个平面上。我们观察到几乎所有的预测都是 2019 年、2020 年或 2021 年,而不管实际年份如何,这与模型能够猜测年份的能力不符。
第二组实验:使用CoT链式思考提示。我们指示模型根据我们提供的财务报表来猜测公司名称或年份。具体而言,我们要求模型提供十个最可能的公司名称和最可能的财年。

表 6 的 B 面板包含结果。结果证实了非常低的准确率,从而解决了一个潜在的担忧,即链式思考提示更能够引发模型的记忆。综合来看,我们的结果强烈表明,模型无法根据匿名财务报表对实体或财年做出合理的猜测。因此,模型不太可能在不经意间利用其关于财务信息的“记忆”来进行收益预测。
排除模型前瞻偏差的最有效方法是在模型训练窗口之外进行测试。使用 2022 财年的财务报表数据来预测2023 财年的收益。(因为chatgpt的语料库截止到2023年,使用2022年的财务报表数据来预测2023年的收益,这样他语料库都不含2023年的报表数据,能最大程度的排除模型的记忆能力)

结果如表 6 的 C 面板所示。作为对比,我们还报告了逻辑回归、分析师预测和 ANN 模型的预测结果。GPT 的准确率为 58.96%,F1 分数为 63.91%。尽管准确率略低于表 4 的 A 面板中报告的平均值,但请注意,我们发现 GPT 的预测准确率总体呈下降趋势。具体而言,附录 A 显示,GPT 对 2021 财年的预测准确率仅为 54.36%,而对 2019 财年的预测准确率为 59.01%(在 2020 年 Covid-19 爆发期间,GPT 的预测准确率急剧下降)。实际上,GPT 样本外的准确率和 F1 分数都明显高于过去 10 年的平均水平(58.01% 和 59.15%)。因此,我们将结果解释为 GPT 的样本外表现与我们的“样本内”结果非常接近。此外,GPT 的样本外准确率与 ANN 模型非常相似(58.96% 对比 59.10%),而 F1 分数甚至更高(63.91% 对比 61.13%),这与我们的主要发现非常一致。综上所述,该结果证实了我们之前的测试,并确认模型的预测能力并非源于其训练记忆。
GPT 的样本外表现与我们的“样本内”结果非常接近: 这一点也不奇怪,因为他根本就没训练!

在左侧面板中,我们报告了比率分析中最常用的前十个二元组。我们通过将二元组的数量与模型生成的二元组总数进行比例计算来确定其频率。我们发现,模型最常提及的是营业利润率。除了盈利信息外,模型还经常计算效率(资产和库存周转率)和流动性(流动比率、流动资产和流动负债)。模型在最终预测中的理由通常与其二元组分析一致。在做出决定时,模型常提及公司增长、流动性、经营盈利能力和效率。这种在二元组分析和模型最终预测中主题的一致性,强调了 LLM 生成文本在捕捉重要财务指标方面的实用性。
这种描述性二元组分析有助于我们理解模型在进行预测时所关注的关键财务指标,从而验证了模型生成的文本在传达公司财务状况和未来表现方面的信息价值。

方法论
上一年的财务结果通常在3月底公布,我们允许市场大约三个月的时间完全处理报告的信息,并于每年6月30日形成投资组合。我们持有投资组合一年,并测量它们的夏普比率和月度阿尔法。
对于ANN和logit,根据预测概率,做多排名前十分位数的股票,并做空排名最后十分位数的股票。
对于GPT,做多盈利变化的幅度为“中等”或“大”,更高预测置信度的股票(前10%)。反之做空。保证股票数量一致。
计算夏普比率,我们形成等权重和价值加权的投资组合。对于价值加权的投资组合,我们每个月重新平衡投资组合权重。
我们基于CAPM到Fama和French(2015年)的五因子加动量五种不同的因子模型计算每种投资策略的月度阿尔法。

High 表示做多的收益,Low表示做空的亏损,H-L是总收益
回顾我们先前的发现表明,GPT在分析较小和相对更波动性较大的公司方面似乎具有优势。因此,我们展示了基于价值加权和等权重策略的结果。结果如表8,面板A所示。
我们发现基于GPT预测的等权重投资组合实现了3.36的夏普比率,远高于基于ANN(2.54)或基于逻辑回归(2.05)的投资组合的夏普比率。相比之下,对于价值加权的投资组合,我们观察到ANN表现相对更好(夏普比率为1.79),而GPT表现为1.47。两者均优于逻辑回归(0.81)。这一结果与我们在表4中的发现一致,即GPT和ANN都包含了增量信息,因此它们是互补的。总体而言,这个分析显示了利用基于GPT的财务报表分析来制定盈利的交易策略的潜力。

接下来,我们基于CAPM到Fama和French(2015年)的五因子加动量五种不同的因子模型计算每种投资策略的月度阿尔法。我们在表8,面板B中展示了结果。与面板A的结果一致,等权重的投资组合总体上生成更高的阿尔法。预期的是,在第四列包括盈利能力因子时,我们观察到阿尔法显著降低(对于基于GPT预测的投资组合,从1.29降至0.97)。然而,即使在控制五个因子和动量之后,基于GPT预测的投资组合仍然生成了每月84个基点(第五列),年度10%的阿尔法。基于ANN和逻辑回归估计的投资组合也产生了正的阿尔法,但其幅度和经济意义较小(ANN为60个基点,t统计量为1.89;逻辑回归为43个基点,t统计量为1.96)。

在图8中,我们绘制了基于GPT预测的投资组合从1968年到2021年的累积对数收益。左侧面板显示了等权重长头寸和短头寸分开的累积对数收益。如预期的那样,长头寸明显优于短头寸。右侧面板显示了长短头寸组合的累积对数收益,并将其与市场组合的对数收益(虚线)进行比较。值得注意的是,即使市场组合出现累积负收益,我们的长短头寸组合仍然持续优于市场组合。


地址:https://chatgpt.com/g/g-9P3sIn487-financial-statement-analyzer