2023年12月11日发(作者:邢伟诚)
新闻舆论情绪对股票波动率的影响研究——以苹果公司为例
摘要
本文通过对APPLE 股票的波动率数据建模,数据来源于道琼斯通讯社(Dow
Jones Newswires)和限价订单数据库(Limit Order Book Database)。以历史波动率和条件方差来衡量股票收益的实际波动率,新闻数据将通过两种方法处理:Loughran 和 McDonald 字典(LM 字典)和 BERT 方法。为获取影响实际波动率的显著性变量,本文使用了多个模型进行检验,包括OLS模型、GARCH及其扩展模型、HAR及其扩展模型。
结果表明,LM字典中的news count、BERT方法中的negative_bert、限价单中的depth-5与实际波动率有显著的关系。为获取各类变量(LM 字典中的变量、BERT 方法、限价订单簿)对于股票收益波动率的解释力度,本文对选取出的各类的变量计算 1 类和 2 类误差,得出的结论是波动率建模中变量的作用是:LOB 变量 > LM 字典中的变量 > BERT 方法中的变量。
1 绪论
在金融市场中,风险和收益是风险投资的两个主要特征。预测风险与预测回报同样重要。宏观经济因素、新闻情绪、交易数据和公司规模等不同因素共同作用对股价波动有很大影响。本文将将时间分为自然日和跳跃日两个时间段。在一些时间序列模型中会考虑新闻情绪变量和限价订单变量,以验证它们是否有助于预测波动性。新闻数据的非结构化性质使其特别难以建模。Loughran &
McDonald (2011) 创建了一个被广泛引用的词典,用于测量各种各样的情绪。此外,本文将使用 BERT来分析新闻情绪。与限价订单变量相比,本文将更多地关注分别使用 Loughran & McDonald 字典和 BERT 方法进行的新闻情绪分析。
2 文献综述 2.1过往证实的股价波动性的影响因素
2.1.1 新闻舆论情绪
关于收益与新闻情绪之间关系的研究早有研究,新闻舆论情绪主要通过两种方法进行分析,即LM字典和BERT方法。
Loughran & McDonald(2011)指出 LM 词典比哈佛词典更适合将自然语言处理应用于金融领域。 LM词典中有两种方法可以衡量超额收益与特定词之间的关系。一种是比例权重法,另一种是期限加权法。首先,术语加权测量比比例加权测量更准确。其次,只有非否定的、不确定的、强弱的情态词具有统计学意义。所有这些系数都是减号。企业使用减少负面词、不确定性情绪和模态弱情绪词,以在提交日的事件窗口中做出更积极的市场反应。因此,当对金融文本进行自然语言处理时,使用LM字典更为合适。
Jacob Devlin (2018) 提出了一种新的自然语言处理方法,称为 BERT,旨在通过连接左右上下文所有级别的条件,从未标记的文本中预训练深度双向表示。因此,预训练的 BERT 模型需要具有正确语法的新闻句子,而不需要对特定于任务的架构进行大量更改。文中指出BERT 在概念上非常简单且经验丰富,将准确率从 80.5% 提高到 86.7%。
3 新闻舆论情绪影响股价波动的实证设计
3.1 数据采集与预处理
本文数据来自 DOW JONES NEWSWIRES 和 Limit Order Book 数据库。关于AAPL 的新闻,可从 Dow Jones NewsWires 获取。Eghbal & Poon (2020) 将新闻分为8类:“正面”、“负面”、“不确定性”、“诉讼”、“强模态”、“中等模态”、“弱模态”和“约束性”。
在本文中,由于只提供了两年的新闻数据,故需要考虑每条新闻。
根据Loughran和McDonald(2011)词典中的新闻情感分类,本文使用python中的tensorflow机器学习工具将单词分类为上图所示的8个类别。根据Loughran和McDonald(2011)词典中的新闻情感分类,本文使用python中的tensorflow机器学习工具将单词分类为上述所示的8个类别
3.2 实证模型构建
3.2.1 BERT-OLS 模型
对于衡量新闻情绪的BERT方法,本文将BERT分类为两种类型的句子,正面句和负面句。表1展示了 BERT 方法的结果,一种是简单平均法,另一种是创造性加权法,即调整积极的权重或否定句应用于原始数据,它试图为每条新闻赋予特定的权重,以匹配实际波动率的变化。可以得到以下结论:首先,β-news 在所有 BERT 变量中均达到 95% 的显著性水平,这意味着情感句子具有积极性和与实际波动率的显著关系;其次,创造性加权方法不能提高实际波动率和情感句子之间匹配的准确性,因为positive_bertadj和negative_bertadj的重要性低于简单平均方法。
表1 BERT-OLS 模型回归结果
OLS model
OLS transformation
model
NEWSLM
Variable
Constant
β
news
β
news-j
^2
RConstant
ββ
news-j
^2
Rnews
positive
3.813
-1.147
2.523
0.010
0.366
-0.102
0.823
0.076 0.000
0.232
0.075
0.000
0.289
0.000
negative
2.746
0.104
0.909
0.004
0.209
0.055
0.377
0.070
uncerta
litigious
Modal_w0.0001
.815
3.-662
1.011
0.0000
.193
2.0788
.501
0.0000
.268
3.-0
.226
20.591
.008
0
.154
-0.530
0
.0030
.651
400.0010
.222
0.0352
.002
0.0000
.961
0.0272
.070
0.0000
.352
0.-0
.000
00.130
.003
0
.285
00.484
.009
0
.135
10
inty
eak
485
1.146
.103
.008
339
0.093
.707
.069
0.000.00Modal_moderate
Modal_strong
Constraining
000
.198
2.0845
.252
0.0000
.866
4.-286
3.404
0.0000
.018
3.-246
1.297
0.0
.188
20.685
.002
0
.379
50.793
.020
0
.033
30.393
.002
0
000
.300
0.-335
0.096
0.0000
.524
0.-460
0.392
0.0000
.007
0.-371
0.212
0.0
.000
10.555
.059
0
.000
10.573
.080
0
.000
10.941
.026
0
000
.414
.565
000
.193
.001
News_count
1.805
0.130
-0.021
0.027
0.180
0.015
0.026
0.060
0.002
0.001
0.829
0.003
0.000
0.010
3.2.2 GARCH 及其拓展模型
对于 GARCH 模型,所有三个参数(
2023年12月11日发(作者:邢伟诚)
新闻舆论情绪对股票波动率的影响研究——以苹果公司为例
摘要
本文通过对APPLE 股票的波动率数据建模,数据来源于道琼斯通讯社(Dow
Jones Newswires)和限价订单数据库(Limit Order Book Database)。以历史波动率和条件方差来衡量股票收益的实际波动率,新闻数据将通过两种方法处理:Loughran 和 McDonald 字典(LM 字典)和 BERT 方法。为获取影响实际波动率的显著性变量,本文使用了多个模型进行检验,包括OLS模型、GARCH及其扩展模型、HAR及其扩展模型。
结果表明,LM字典中的news count、BERT方法中的negative_bert、限价单中的depth-5与实际波动率有显著的关系。为获取各类变量(LM 字典中的变量、BERT 方法、限价订单簿)对于股票收益波动率的解释力度,本文对选取出的各类的变量计算 1 类和 2 类误差,得出的结论是波动率建模中变量的作用是:LOB 变量 > LM 字典中的变量 > BERT 方法中的变量。
1 绪论
在金融市场中,风险和收益是风险投资的两个主要特征。预测风险与预测回报同样重要。宏观经济因素、新闻情绪、交易数据和公司规模等不同因素共同作用对股价波动有很大影响。本文将将时间分为自然日和跳跃日两个时间段。在一些时间序列模型中会考虑新闻情绪变量和限价订单变量,以验证它们是否有助于预测波动性。新闻数据的非结构化性质使其特别难以建模。Loughran &
McDonald (2011) 创建了一个被广泛引用的词典,用于测量各种各样的情绪。此外,本文将使用 BERT来分析新闻情绪。与限价订单变量相比,本文将更多地关注分别使用 Loughran & McDonald 字典和 BERT 方法进行的新闻情绪分析。
2 文献综述 2.1过往证实的股价波动性的影响因素
2.1.1 新闻舆论情绪
关于收益与新闻情绪之间关系的研究早有研究,新闻舆论情绪主要通过两种方法进行分析,即LM字典和BERT方法。
Loughran & McDonald(2011)指出 LM 词典比哈佛词典更适合将自然语言处理应用于金融领域。 LM词典中有两种方法可以衡量超额收益与特定词之间的关系。一种是比例权重法,另一种是期限加权法。首先,术语加权测量比比例加权测量更准确。其次,只有非否定的、不确定的、强弱的情态词具有统计学意义。所有这些系数都是减号。企业使用减少负面词、不确定性情绪和模态弱情绪词,以在提交日的事件窗口中做出更积极的市场反应。因此,当对金融文本进行自然语言处理时,使用LM字典更为合适。
Jacob Devlin (2018) 提出了一种新的自然语言处理方法,称为 BERT,旨在通过连接左右上下文所有级别的条件,从未标记的文本中预训练深度双向表示。因此,预训练的 BERT 模型需要具有正确语法的新闻句子,而不需要对特定于任务的架构进行大量更改。文中指出BERT 在概念上非常简单且经验丰富,将准确率从 80.5% 提高到 86.7%。
3 新闻舆论情绪影响股价波动的实证设计
3.1 数据采集与预处理
本文数据来自 DOW JONES NEWSWIRES 和 Limit Order Book 数据库。关于AAPL 的新闻,可从 Dow Jones NewsWires 获取。Eghbal & Poon (2020) 将新闻分为8类:“正面”、“负面”、“不确定性”、“诉讼”、“强模态”、“中等模态”、“弱模态”和“约束性”。
在本文中,由于只提供了两年的新闻数据,故需要考虑每条新闻。
根据Loughran和McDonald(2011)词典中的新闻情感分类,本文使用python中的tensorflow机器学习工具将单词分类为上图所示的8个类别。根据Loughran和McDonald(2011)词典中的新闻情感分类,本文使用python中的tensorflow机器学习工具将单词分类为上述所示的8个类别
3.2 实证模型构建
3.2.1 BERT-OLS 模型
对于衡量新闻情绪的BERT方法,本文将BERT分类为两种类型的句子,正面句和负面句。表1展示了 BERT 方法的结果,一种是简单平均法,另一种是创造性加权法,即调整积极的权重或否定句应用于原始数据,它试图为每条新闻赋予特定的权重,以匹配实际波动率的变化。可以得到以下结论:首先,β-news 在所有 BERT 变量中均达到 95% 的显著性水平,这意味着情感句子具有积极性和与实际波动率的显著关系;其次,创造性加权方法不能提高实际波动率和情感句子之间匹配的准确性,因为positive_bertadj和negative_bertadj的重要性低于简单平均方法。
表1 BERT-OLS 模型回归结果
OLS model
OLS transformation
model
NEWSLM
Variable
Constant
β
news
β
news-j
^2
RConstant
ββ
news-j
^2
Rnews
positive
3.813
-1.147
2.523
0.010
0.366
-0.102
0.823
0.076 0.000
0.232
0.075
0.000
0.289
0.000
negative
2.746
0.104
0.909
0.004
0.209
0.055
0.377
0.070
uncerta
litigious
Modal_w0.0001
.815
3.-662
1.011
0.0000
.193
2.0788
.501
0.0000
.268
3.-0
.226
20.591
.008
0
.154
-0.530
0
.0030
.651
400.0010
.222
0.0352
.002
0.0000
.961
0.0272
.070
0.0000
.352
0.-0
.000
00.130
.003
0
.285
00.484
.009
0
.135
10
inty
eak
485
1.146
.103
.008
339
0.093
.707
.069
0.000.00Modal_moderate
Modal_strong
Constraining
000
.198
2.0845
.252
0.0000
.866
4.-286
3.404
0.0000
.018
3.-246
1.297
0.0
.188
20.685
.002
0
.379
50.793
.020
0
.033
30.393
.002
0
000
.300
0.-335
0.096
0.0000
.524
0.-460
0.392
0.0000
.007
0.-371
0.212
0.0
.000
10.555
.059
0
.000
10.573
.080
0
.000
10.941
.026
0
000
.414
.565
000
.193
.001
News_count
1.805
0.130
-0.021
0.027
0.180
0.015
0.026
0.060
0.002
0.001
0.829
0.003
0.000
0.010
3.2.2 GARCH 及其拓展模型
对于 GARCH 模型,所有三个参数(