肖争艳等｜深度学习神经网络能改进GDP的预测能力吗？

2020-09-07 来源：

　　刊期：《经济与管理研究》2020年第7期

　　简介：肖争艳，中国人民大学统计学院教授，北京，100872；刘玲君，中国人民大学经济学院硕士研究生；赵廷蓉，中国人民大学统计学院硕士研究生；陈彦斌，中国人民大学经济学院教授、博士生导师，通讯作者。

　　作者：肖争艳、刘玲君、赵廷蓉、陈彦斌

# 内容提要　

　　目前国内外复杂的经济形势加大了预测GDP的难度，因此，如何有效地预测GDP是值得研究的重要理论与现实问题。有鉴于此，本文构建了既具有宏观经济理论基础又符合中国宏观经济特征的指标体系，并构造了一个用于GDP预测分析的LSTM模型，将之与BVAR模型进行对比研究，以科学地判断LSTM模型是否能够提升GDP预测的精确度。研究结果表明：第一，本文选择的扩展指标能够提升BVAR模型与LSTM模型的GDP预测能力；第二，相比于BVAR模型，LSTM模型能够更好地挖掘扩展指标对GDP的非线性影响，从而提升短期GDP预测能力。鉴于LSTM模型强大的自我学习能力、良好的泛化能力以及较好的模型可调节性，LSTM模型在GDP预测领域具有广阔前景。

　　#关键词

　　神经网络 LSTM模型 BVAR模型 GDP预测

　　一 问题提出　　

　　GDP增速是国家进行宏观调控和企业进行投融资决策的关键参考变量之一，预测GDP增速一直是宏观经济学的重要研究领域。然而，目前国内外复杂的经济形势加大了预测GDP的难度，给经济增长目标和宏观政策的制定提出了新的挑战。一方面，随着供给侧结构性改革的不断推进，许多新产业的出现使得中国产业结构发生了较大的变化，经济的结构性特征对经济增长的影响越来越重要。另一方面，近年来贸易保护主义抬头，国际贸易摩擦加剧，为中国经济增长带来了极大的不确定性。在此背景下，如何有效地预测GDP是值得研究的重要问题。更重要的是，国内经济结构与国际经济环境的变化要求选择合适的预测方法，以确保预测精确度。

　　预测GDP的已有研究主要使用两类模型。一类是线性模型，该类模型以贝叶斯向量自回归（BVAR）模型为代表。王飞（2011）以青海省为例建立了一个BVAR模型，样本内和样本外的预测误差都表明BVAR 模型的GDP预测效果优于向量自回归（vector autoregression，VAR）、差分整合移动平均自回归（autoregressive integrated moving average，ARIMA）等线性模型。周建和况明（2015）构建BVAR模型对中国GDP预测误差进行分析，发现BVAR模型优于现有文献中传统的VAR方法。

　　另一类GDP预测模型是非线性模型，该类模型以人工神经网络（artificial neural Network，ANN）为代表。ANN作为人工智能领域的非线性方法，能够处理非线性、不连续和高频多维的数据，因而该模型在GDP预测领域得到越来越多的关注。特卡茨（Tkacz，2001）构建神经网络对加拿大年度GDP增速进行预测分析，发现用该模型训练得到的预测误差比线性模型降低约25%。欧邦才（2004）采用BP神经网络对中国年度GDP进行预测，发现预测效果较好。郭庆春和何振芳（2014）使用改进的BP神经网络建立GDP预测模型，研究表明该模型具有较高的预测精度，并且还具有泛化能力强、训练速度快、稳定性好等优点。传统的ANN模型虽然能保证网络学习过程的最终收敛，但不能反映样本之间的时序关系，而在经济领域普遍存在的这种时序关系及其背后的逻辑关系与理论关系对于预测分析是大有裨益的。相比之下，深度学习模型中的长短期记忆神经网络模型（long short term memory，LSTM）由于其出色的时序数据处理能力，在经济与金融预测领域得到了较为广泛的应用与推广。崔和李（Choi & Lee，2018）使用LSTM模型来预测实时时间序列数据，结果表明LSTM模型取得了已知各类模型中的最好预测效果。赵军豪等（2018）等使用融合微博情感分析和LSTM模型进行预测，发现该方法对数据抖动有良好的适应性，并具有很好的稳健性。

　　使用神经网络方法预测GDP的已有文献较丰富，也取得了显著的学术进展，但仍有可进一步改进的地方。首先，虽然以往研究对短期GDP预测算法做了改进，但鲜有文献对线性与非线性两类模型的预测效果进行比较。宏观经济指标体系是一组时间序列数据，在这组数据中部分指标会对核心变量GDP产生非线性的影响。但是，非线性模型是否能够抓住这种非线性影响？非线性模型与线性模型相比预测效果是否会有显著提高？对于这两个问题已有文献尚未给出明确答案。其次，已有研究的宏观指标选择往往没有以经济学理论为依据，可能会增加模型预测误差。已有GDP预测方面的文献在进行预测指标选择时，大多存在预测指标与宏观经济理论分离的现象，这可能会导致遗漏重要指标的问题出现，从而增大了GDP预测的误差。最后，对于如何选择影响模型短期预测能力的指标，现有文献往往依据国际相关经验，而对于是否符合国情考虑较少。由于中国经济增长具有明确的国情特征尤其是结构性特征，与欧美等其他国家差异较大，所以有必要依据中国经济特点来选择预测指标。以房地产市场为例，陈小亮（2017）测算发现，2016年中国房地产对GDP增长的总贡献率高达18.3%。因此，在选择中国GDP预测影响因素时，不能忽略房地产等切实反映中国国情的宏观指标。

　　为了有效解决以上问题，本文在已有研究文献的基础上进行改进，主要包括两个方面。第一，本文选择线性模型的代表BVAR模型和非线性模型的代表LSTM模型进行预测，并且采用常用的经济预测误差指标对两种模型的预测能力进行度量。BVAR模型在预测效果和稳健性方面均有较好表现，是在经济预测领域得到广泛应用的线性模型。LSTM模型基于当前热门的深度学习神经网络技术，并且具有较为优异的时序数据处理能力，是GDP预测领域较为值得推广的非线性模型。因此，本文选择BVAR模型作为参照，比较分析LSTM模型的预测能力。此外，为对两模型的预测能力进行充分的对比，本文分别在动态滚动预测与固定估计窗口预测两种方式下，采用BVAR模型与LSTM模型预测GDP，从而充分比较两个模型的预测误差以判断二者的差异及优劣。第二，本文构建了既具有宏观经济理论基础又符合中国国情的宏观经济指标体系。本文首先以主流宏观理论中的IS-LM模型为理论基础构建了基准指标体系，然后在此基础上纳入商品房本年新开工面积同比增速、宏观经济景气先行指数、沪市成交额同比增速等多个可以反映中国宏观经济特征的扩展指标。

　　本文的发现主要有两点：第一，本文选择的扩展指标能够提升BVAR模型与LSTM模型的GDP预测能力。一方面，BVAR模型和LSTM模型的样本外预测结果在扩展指标体系下对GDP实际值的拟合度更高。另一方面，加入扩展指标后，BVAR模型和LSTM模型的预测误差值呈现下降的趋势。因此，本文选择的扩展指标能够提升BVAR模型与LSTM模型的GDP预测能力。第二，相比于BVAR模型，LSTM模型能够更好地挖掘扩展指标对GDP的非线性影响，从而提升短期GDP预测能力。在动态滚动预测与固定估计窗口预测情形下，LSTM模型的预测效果均优于BVAR模型。并且，当预测步距增大时，LSTM模型预测效果要优于BVAR模型。具体而言，在各个预测步距下，LSTM模型的预测效果优于BVAR模型，并且随着向前步距的增加，预测优势显著提升。

二 BVAR模型和LSTM模型的设定与求解　

　　为了分析LSTM模型是否能够提升GDP的预测能力，本文首先选取了在经济预测中得到广泛应用的BVAR模型，对GDP进行预测。同时，本文选取了深度学习神经网络中的LSTM模型进行了相同的预测，旨在对两模型的GDP预测能力进行对比分析。LSTM模型由于其网络结构能够反映样本之间的时序关系，是众多神经网络算法中较为适合于经济学研究的模型。

　　（一）BVAR模型

　　1.BVAR模型介绍

　　比较常见的GDP预测方法主要有单变量ARIMA模型和多变量VAR类模型等线性模型。ARIMA模型作为一种经典的非平稳时间序列分析方法，擅长发现时间序列自身的影响规律，在GDP预测领域有较为广泛的应用。然而，由于ARIMA模型仅包含了GDP单个变量，并没有考虑与其他经济变量之间的联系，显然会损失大量有价值的信息。为此，西姆斯（Sims，1980）将之进一步扩展到多变量模型，提出了VAR模型。VAR模型目前已成为各国中央银行广泛使用的宏观预测模型。然而，高维VAR模型面临参数过多的问题，对模型中参数进行准确估计存在着明显困难。为了有效解决这一问题，越来越多的文献采用贝叶斯方法来估计VAR模型。BVAR由多恩等（Doan et al.，1984）提出，模型的优势在于利用具有信息含量的先验分布来弥补样本中信息缺乏的问题，从而降低参数估计的不确定性。

　　BVAR模型用贝叶斯方法对动态面板的VAR系统进行分析。建立一个由m个变量组成、滞后阶数为p、含有常数项的VAR(p)模型，即：

　　图1.jpg

　　2.先验分布与后验分布

　图2.jpg

图3.jpg

　　3.超参数的选择与设定

　　BVAR模型将众多参数的估计问题转化为对a1和a2这两个超参数的估计。超参数(a1，a2)有两种取值方法。第一，参照多恩等（1984）的做法，给定超参数的可能性取值，通过比较所有超参数组合的均方根误差（RMSE）来选择最优的参数组合。第二，使用贝叶斯方法，在最大似然函数的基础上计算出超参数的取值。由于第二种方法在使用软件计算时较为困难，因此并没有得到广泛的实际应用。而且，由于本文BVAR模型采用的明尼苏达先验分布设定和多恩等（1984）的方法十分接近，因此本文采用第一种处理方法。给定超参数的可能性取值(具体取值参照多恩等（1984）的做法)，其中，a1={0.000 5，0.000 8，0.001，0.05，0.1，0.2，0.3，0.4}，a2={0.000 25，0.000 4，0.000 5，0.025，0.05，0.1，0.15，0.2}。

　　在给定可能性取值的基础上，本文参照肖争艳等（2009）的做法，最终所使用的最优参数的具体选择过程如下。首先，确定BVAR模型的最优滞后阶数。本文采用与VAR模型一致的标准，即根据LR、FPE、AIC、HQ和SC等准则，选取最优滞后阶数为2阶。然后，在超参数的可能性取值中选取a1与a2的组合，并使用泰尔混合估计方法对BVAR模型参数进行估计。最后，比较所有超参数组合的均方根误差（RMSE）选择最优的参数组合为{0.05，0.025}。

　　（二）LSTM模型

　　1.LSTM模型介绍

　　目前，ANN各类模型是非线性模型的代表模型。ANN作为人工智能领域的非线性方法，能够处理非线性、不连续和高频多维的数据，因而该模型在GDP预测领域得到越来越多的关注。传统的ANN模型虽然能保证网络学习过程的最终收敛，但是也存在两点显著的局限性：其一，容易陷入局部最小值；其二，不能反映样本之间的时序关系，而在经济领域普遍存在的这种时序关系及其背后的逻辑关系与理论关系，对于预测分析是大有裨益的。因此，本文选用深度学习模型中的LSTM模型进行GDP预测。

　　LSTM模型最早由霍克赖特和施米德胡贝（Hochreiter & Schmidhuber，1996）提出，由于其能更好地发现长期依赖关系而被广泛用于处理序列信息，如语音识别、机器翻译等。后来由于其出色的时序数据处理能力，在经济与金融预测领域得到了较为广泛的应用与推广。LSTM模型的具体预测过程通过其基本单元模型的激活函数及神经元之间数据结果的传递来实现。换言之，可以将LSTM模型视为若干的线性和非线性函数相互嵌套的模型。

　　对于GDP预测而言，由于近期和远期历史数据都会对GDP产生影响，但近期历史数据影响会更强，故而本文选择设有三个门控（gates）的LSTM模型来实现对信息传递的控制，筛选出对预测有用的部分。每个神经元结构如图1所示。

图4.jpg

　　其中，xt是指t时刻的输入向量，包含GDP、CPI、M2等宏观变量的历史数据。ht-1表示上一时刻的输出，ct-1表示上一时刻的记忆。遗忘门（forget gate）决定了要遗忘多少旧记忆，更新门（update gate）决定要更新多少新记忆，并由新记忆和旧信息相加形成最终的记忆，最后由输出门（output gate）从最终记忆中筛选出对预测有用的部分。

　　LSTM模型相比BVAR模型，主要具备如下两个优点：第一，BVAR模型只能捕捉数据之间的线性关系，而LSTM模型通过其非线性的激活函数，能够识别与挖掘变量之间、历史数据与新数据之间的非线性关系；第二，BVAR模型利用的历史信息受到模型设定的滞后阶数的限制，然而，对于LSTM模型而言，由于遗忘门、更新门的存在，其对数据具有长记忆性，从而能够利用更长时间序列的数据。

　　2.训练方法及优化器选择

　　LSTM模型通过数据训练帮助模型更新权重，在训练LSTM模型的过程中，选择合适的训练方法和优化器能够提升模型的训练效率。第一，选择小批量（Mini-Batch）方法作为本文的训练方法。具体而言，对LSTM模型训练时，根据深度学习神经网络的常用做法，每一次训练均基于随机抽取的30个样本点，避免了用全部样本点训练导致的训练过程慢以及过拟合问题。第二，为使LSTM模型快速收敛，本文采用作为自适应学习率优化算法的适应性矩估计（adaptive moment estimation，Adam）优化器进行优化训练。与传统的优化算法将学习率设为一个常数不同，Adam优化算法会采取一些措施来更新学习率，并且较为容易实现，有较高的计算效率和较低的内存需求。

　　3.超参数的设定和网络结构的选择

　　由于训练LSTM模型需要对数据进行训练集与验证集的划分，本文参照已有研究的常用划分方式，在初始训练中采用1997—2004年共32个季度的数据作为训练集，2005—2006年共8个季度数据作为验证集。训练集数据用来帮助模型更新权重，而验证集的数据则主要用来评估模型。并且，在后续预测过程中，模型会随样本量增加而不断扩充训练集。模型需要调试的目标包括LSTM层的神经元个数、训练周期的期数等。训练时，采用Mini-Batch Adam算法进行更新，再根据模型在验证集上的均方误差（MSE）来衡量模型的精度，选择精度最高的模型结果。本文对于基准指标体系和扩展指标体系选用的网络结构如图2所示。

　　（三）动态预测过程

　　微信图片_20200907133854.jpg

　　参照张劲帆等（2018）的做法，本文的预测方式包括动态滚动预测与固定估计窗口预测两种。当进行动态滚动预测时，具体的预测步骤为：（1）把1997Q1—2006Q4作为样本来预测滞后一期的数值，即2007Q1时y的数值。（2）扩充样本区间为1997Q1—2007Q1，将真实观测值作为样本来预测2007Q2时y的数值，预测步骤同（1）。（3）进一步扩充样本区间为1997Q1—2007Q2，将真实观测值作为样本来预测2007Q3时y的数值。重复以上扩充样本滚动预测过程，直至全部样本结束。当进行固定窗口预测时，具体的预测步骤为：（1）把1997Q1—2006Q4作为样本来预测滞后一期的数值，即2007Q1时y的数值。（2）扩充样本区间为1997Q2—2007Q1，将真实观测值作为样本来预测2007Q2时y的数值，预测步骤同（1）。（3）进一步扩充样本区间为1997Q3—2007Q2，将真实观测值作为样本来预测2007Q3时y的数值。重复以上扩充样本滚动预测过程，直至全部样本结束，即可得到从2007Q1开始的GDP的预测值序列。

　　（四）预测误差指标

　　为对模型预测能力进行更为严谨的分析，本文参照已有文献使用均方误差（MSE）、平均绝对百分比误差（MAPE）、对称平均绝对百分比误差（SMAPE）作为模型样本外预测能力的测度指标。以上三个指标具体计算方法如下：

　　除此之外，MSE的提高虽然在绝对数量上能够体现不同模型的预测效果的改善程度，但并不能在统计分布上检验改善的效果是否显著。因此本文在强调MSE的基础上引入D-M检验来检验预测效果。D-M检验由戴博和马里亚诺（Diebold & Mariano，1995）提出，该统计量服从标准正态分布，具体表达式如下：

　　三 宏观经济指标选择

　　在模型的预测指标选择方面，已有文献大多存在指标选择与宏观经济理论分离的现象，这可能导致遗漏重要指标的问题出现。同时，由于中国经济增长具有明确的国情特征尤其是结构性特征，与欧美等其他国家差异较大，如果在指标选择过程中忽略中国经济特点，极易导致GDP预测误差增加。有鉴于此，本文在已有研究基础上做出两方面改进：一，以IS-LM模型为基础构建了基准指标体系；二，纳入反映中国国情的扩展指标，以建立科学合理的宏观经济指标体系，从而更加准确地对GDP进行预测。

　　本文首先基于凯恩斯的理论，构建短期GDP预测的基准指标体系。具体来说，凯恩斯四部门IS-LM模型的表达式为：

　　IS曲线：Y=C+I(r)+G+NE

　　LM曲线：M/P=L(r,Y)

　　其中，Y代表总产出，C代表消费，I代表投资，G代表政府购买，NE代表净出口，M代表货币供给，P代表价格水平。模型中经济体的均衡是IS曲线和LM曲线的交点，该均衡点给出了同时满足产品市场与货币市场均衡条件的利率r与总产出Y的组合。

　　本文参照陈彦斌（2019）的做法，选择如下具体指标：（1）季度实际GDP增长率（GDP），该指标用来衡量总产出（Y）的增速，是宏观经济预测的核心指标；（2）季度工业增加值同比增速（IVA），该指标体现了工业企业在一定时期内工业生产活动创造的价值，反映了生产单位或部门对国内生产总值的贡献，是国内生产总值常用的补充指标；（3）季度实际社会消费品零售总额增长率（C），该指标能够反映国内消费情况，对判断当前宏观经济发展状况和未来经济走势具有重要的指导作用；（4）季度实际固定资产投资增长率（I），本文选择该指标作为投资的指标，原因在于固定资产投资是投资中最重要的组成部分，是监测宏观经济走势、进行宏观调控的重要依据；（5）贷款实际利率（r），实际利率反映了企业实际面临的间接融资成本，同时，基于数据可得性，本文以该指标为模型的利率指标；（6）季度一般公共预算支出当期同比增速（G），该指标是较为常用的政府购买指标；（7）季度非金融部门杠杆率（DEBT），该指标体现了一定时期内的债务负担，会对经济产出水平产生重要影响，本文以该指标作为季度一般公共预算支出当期同比增速（G）的补充指标；（8）季度出口额同比增长率（EXPORT），该指标能够较好地衡量市场开放程度，当该指标提高时，出口增速加快，表明经济运行情况良好，反之若该指标下降，出口增速下降，表明宏观经济不景气，增长速度放缓；（9）消费者物价指数（CPI），本文以该指标衡量通货膨胀水平；（10）季度Ｍ2同比增长率（M2）。该指标是常用的货币供给变化指标。

　　为完整刻画中国宏观经济特征，除基准指标体系中的指标外，本文在扩展指标体系中加入了房地产市场、第三产业增加值、宏观经济景气先行指数、发电量、金融市场等影响因素。扩展指标体系中包括了反映中国宏观经济结构性特征的结构性指标和常用的经济先行指标：（1）商品房本年新开工面积同比增速（HSTARTS），该指标能够反映建筑业对国民经济的影响，而建筑业的发展可以带动近30多个上下游相关产业发展，是第二产业的重要组成部分；（2）第三产业增加值当期同比实际增速（THIRDI），第三产业增加值在国内生产总值中占据着较大的比例，与国内生产总值具有较一致的变化趋势；（3）季度的宏观经济景气先行指数（LI），该指标由国家统计局发布，是当前较为权威的经济先行指标，在GDP预测领域得到了广泛应用；（4）发电量同比增速（ELEC），该指标为克强指数的重要组成部分，是反映地区工业生产活跃度以及工厂开工率的重要指标；（5）沪市成交额同比增速（STOCK），该指标是衡量股票市场流动性的重要指标，同时金融指标对宏观经济变量有显著的预测能力。

　　以上指标的数据均来自于中经网统计数据库，其中5个为季度频次指标，余下10个为月度频次指标。由于核心指标GDP为季度数据，为保持数据频率的一致性，本文参考周建和况明（2015）的做法，将指标均处理为季度数据。各指标的统计频率及本文对指标的具体处理方法如表1的第4列、第5列所示。基于数据的可获得性，所有指标时间跨度为1997年第一季度（1997Q1）至2018年第四季度（2018Q4），各指标定义及描述性统计详见表1和表2。

　　四 预测结果分析

　　基于上一部分所构建的模型，本文试图回答如下问题：第一，在预测GDP的过程中，是否有必要在指标体系中纳入更适宜中国国情的扩展指标？第二，作为线性模型代表的BVAR模型与作为非线性模型代表的LSTM模型，预测GDP的能力究竟孰强孰弱？第三，各个扩展指标的加入对于模型预测效果的影响程度如何？为了回答这些问题，本文从多个角度对比各模型的预测误差：通过比较BVAR模型、LSTM模型在纳入扩展指标前后预测误差的变化，即可分析在指标体系中纳入扩展指标的必要性；通过比较BVAR模型与LSTM模型的预测精确度，即可判断BVAR模型与LSTM模型预测能力强弱；通过比较剔除各个扩展指标后模型的预测误差，即可定量分析LSTM模型下各个扩展指标的预测效果。

　　（一）在指标体系中纳入扩展指标的必要性分析

　　结合图3、图4与表3可以看出，加入反映中国国情的扩展指标能够提升BVAR模型与LSTM模型的GDP预测能力。本部分分别将BVAR模型的基准指标体系与扩展指标体系、LSTM模型的基准指标体系与扩展指标体系的预测效果进行了对比，发现本文选取的扩展指标能够提升模型的短期GDP预测能力。

　　首先，对BVAR模型和LSTM模型的样本外预测图进行定性分析。一方面，从图3和图4可以较为直观地对比分析不同指标体系下两类模型的预测结果。从图3可以看出，纳入扩展指标后，BVAR模型在2007Q1—2009Q1时间区间内的预测值与纳入扩展指标前没有明显差异，在2009Q2—2013Q4时间区间内预测稳定性显著提高，在2014Q1—2018Q4的时间区间内预测值对GDP实际值的拟合度更强。因此，从总体上看，纳入扩展指标能够提升BVAR模型的预测能力。同时，由图4可以看出，纳入扩展指标后，LSTM模型拟合的时效性有了显著提升，具体体现在扩展指标体系下LSTM模型对2007Q1—2012Q1时间区间的预测滞后性问题得到了较大程度的解决，同时模型对于2012Q2—2018Q4的预测结果与基准指标体系下的预测结果没有明显差异，均与实际值拟合程度较高。

　　其次，采用预测误差更加严谨地对不同指标体系下两类模型的预测效果进行对比分析。分别对比表3列（1）、列（3）和列（2）、列（4），可以看出，加入扩展指标之后，BVAR模型的MSE、SMAPE下降，MAPE略有上升，由于更多的指标表示BVAR模型的预测误差下降，所以从总体上看BVAR模型的预测能力得到了提升。对于LSTM模型，MSE、MAPE、SMAPE均下降，因此可以认为加入扩展指标提升了LSTM模型的预测能力。同时，可以初步判断，加入扩展指标对于BVAR模型和LSTM模型预测精确度的提升程度不同，本文将在后面对BVAR模型和LSTM模型的预测能力进行更为细致的比较分析。

　　综合上述两方面的分析，可以发现：如果预测指标体系仅基于凯恩斯IS-LM理论来设置，将难以与中国的现实情况相拟合，从而导致GDP预测的误差较大。这也进一步说明，本文选取的商品房本年新开工面积同比增速、宏观经济景气先行指数、发电量同比增速等扩展指标能够使模型本身更符合中国宏观经济的运行规律，从而提高模型预测的精确度。

（二）BVAR模型与LSTM模型的预测能力比较

　　为了更充分地对BVAR模型与LSTM模型的预测能力进行比较，本部分基于扩展指标体系展开分析。参照张劲帆等（2018）的常用做法，本文首先在动态滚动情形下进行预测。然后在固定估计窗口情形下进行预测，从而比较BVAR模型与LSTM模型的预测精确度。需要说明的是，以上操作是在向前预测步距设置为1（即h=1）时进行的GDP预测，为了确保研究结论稳健可靠，本文增加预测步距作为稳健性检验，从而更加全面地比较BVAR模型与LSTM模型的远期预测能力。

　　第一，动态滚动预测时，与BVAR模型相比，LSTM模型能够进行更精确的拟合和预测。通过分析图5可知，相比BVAR模型，LSTM模型预测曲线的预测表现更为稳定。具体来说，在2007Q1—2012Q2预测中，LSTM模型总体上看与GDP实际值的拟合度更高，与之相比，BVAR模型预测曲线对局部极值点的预测较为粗糙，较大程度上存在放大短期趋势的现象。同时，在2012Q3—2018Q4预测中，LSTM模型的预测结果表现出更加平稳的特征，并且预测值与GDP的实际值非常接近，没有出现显著异常的预测值。将BVAR模型与LSTM模型的预测误差相比，可以得到相同的结论。GDP动态滚动预测中，LSTM模型的MSE、MAPE、SMAPE均小于BVAR模型的相关指标。这意味着，用LSTM模型预测GDP的效果优于BVAR模型，并且D-M检验表明该差异在10%的显著性水平上显著。

　　这表明，相对于BVAR模型，LSTM模型能够更大程度地改善预测结果。究其原因，LSTM模型能够识别与挖掘非线性因素对短期GDP预测的影响，因此，选取LSTM模型构建方式能够更加准确地刻画中国宏观经济特征，从而提升GDP预测模型的预测能力。

　　第二，在固定估计窗口情形下，LSTM模型的预测效果依然优于BVAR模型。为了更充分地比较BVAR模型与LSTM模型的预测效果，本文参考张劲帆等（2018）的做法，首先选取1997Q1至2006Q4这个区间的时间序列，并将预测窗口固定为40个季度，进行固定估计窗口的短期GDP预测。通过对比表4的列（1）与列（2），可以发现，固定预测时间窗口后，LSTM模型样本外预测的误差同样小于BVAR模型，与上文所得结论保持一致。

　　从模型自身特性角度看，BVAR模型利用的历史信息会受到滞后阶数的限制，与之相比，LSTM模型具有更为优越的学习能力，会按照需要自行决定保留更久远的记忆或者遗忘过去的信息，从而能够利用更长的时间序列的相关信息进行预测。本文通过固定估计时间窗口，控制了LSTM模型能够利用的样本量，由此得到的结论再度证明了，LSTM模型样本外预测能力的提升是因为LSTM模型能够更精准地刻画宏观指标对于GDP的非线性影响。

　　第三，稳健性检验结果显示，增加预测步距情形下，LSTM模型的远期预测能力依然优于BVAR模型。以上两种情形下进行的是相邻一步预测，即h设置为1（滞后一季度）。作为稳健性检验，当进行远期预测时，本文将h设置为2、3、4（滞后二、三、四季度）。参数设定参照前文，预测过程分别采用动态滚动预测方式、固定估计窗口方式进行。BVAR模型与LSTM模型各步距预测的实证结果对比见图6、图7。图6显示，在动态滚动预测GDP时，LSTM模型不同步距的MSE均小于BVAR模型，且平均预测效果改善39.4%。从图7中可以看出，在固定估计窗口预测GDP时，当h为1、2时，BVAR模型与LSTM模型预测能力较为接近；然而，随着预测步距的增加，当h增加为3、4时，BVAR模型的MSE大幅度增加，预测能力出现较大程度的折损，而LSTM模型的MSE变化较为平稳，预测能力更为稳定，平均预测效果改善26.42%。这一结果表明，LSTM模型具有较强的泛化能力，对GDP不同期限的预测效果均较为稳定。

　　此外，BVAR模型与LSTM模型在正常（非危机）状态下的预测效果更优。考虑到2008—2011年正好跨越了一个经济周期，为了考察经济周期波动对模型预测能力的影响，首先计算2007—2018年全样本的预测误差，然后以2011年为起点计算2011—2018部分样本的预测误差，最后对二者进行比较分析。通过对比表5的相邻两列（如表5的列（1）与列（2））可以看出，固定时间窗口后，2011—2018年部分样本的预测效果较2007—2018年全样本的预测效果有大幅度提升。由此可以得出结论，排除2007—2011年周期性影响能够显著提升模型样本外预测能力，即模型在正常（非危机）状态下的预测效果更优。

（三）扩展指标的预测效果比较

　　基于本文构造的扩展指标体系，可进一步探讨房地产部门、第三产业、宏观经济景气先行指数、发电量、金融市场对模型GDP预测效果的影响。本部分采用预测效果更优越的LSTM模型，逐个剔除模型中的扩展指标，通过分析剔除各个扩展指标后的模型与原模型的MSE变化，比较各扩展指标的预测能力。

　　为保持与上文中原模型预测效果的可比性，仍选取相同区间的时间序列。具体预测步骤如下：首先，从扩展指标体系中剔除商品房本年新开工面积同比增速；随后，通过对比MSE的大小，综合比较剔除该指标后的模型相较于原模型预测精度的变化，由此即可得到剔除该指标对于GDP预测精确度的影响。重复上述两个步骤，依次在模型中剔除第三产业增加值当期同比实际增速、宏观经济景气先行指数、发电量同比增速、沪市成交额同比增速，即可得到各扩展指标的预测效果。

　　表6给出的是剔除各扩展指标后，LSTM模型对实际GDP增长率进行样本外预测的MSE。从表中可以看出，在相同的参数设定和网络结构下，样本外预测精确度下降最大的是沪市成交额同比增速，其次是第三产业增加值当期同比实际增速，排名第三位的是宏观经济景气先行指数。这说明，不同指标对模型预测准确度的影响是明显不同的。其中，沪市成交额同比增速对近十余年GDP增速的非线性变化具有最强的解释能力。需要强调的是，2008年国际金融危机前，资本市场流动性显著下滑，显示了股市流动性对宏观经济的先导性，引发了有关股市流动性和宏观经济相互关系的研究。奈斯等（Naes et al.，2011）运用美国数据发现，股票市场流动性显著领先于实体经济指标。王东旋等（2014）基于回归分析和格兰杰因果检验的样本内拟合，发现中国股市流动性领先于宏观经济。本文的这一实证结果从样本外预测的角度提供了关于股市流动性与宏观经济联动的证据。

　　考虑中国宏观现实对于提升GDP预测的精确度具有重要意义。在宏观经济预测中，如果忽略中国实际问题，则极易导致预测值相比实际值的结构性偏离，从而增大GDP预测的误差。有鉴于此，本文认为要想切实提升宏观经济预测的准确性，除了探索、改进预测方法外，还需要科学合理地确定宏观经济预测指标，构建既基于经济学理论又符合中国国情的宏观经济预测指标体系。

　　五结论

　　本文旨在探讨深度学习神经网络能否改进GDP的预测能力。为此，本文首先基于宏观经济学经典理论与中国宏观经济现实，构建了宏观经济预测指标体系。并结合目前最前沿的深度学习神经网络优化技术构造了一个LSTM模型，将其应用于中国GDP的预测分析，并与BVAR模型预测结果进行了基准指标体系和扩展指标体系的对比。

　　本文研究结果表明，第一，本文选择的扩展指标能够提升BVAR模型与LSTM模型的GDP预测能力。一方面，BVAR模型和LSTM模型的样本外预测图在扩展指标体系下对GDP实际值的拟合度更强。另一方面，加入扩展指标后，BVAR模型和LSTM模型的预测误差值呈现下降的趋势。第二，相比于BVAR模型，LSTM模型能够更好地挖掘扩展指标对GDP的非线性影响，从而提升短期GDP预测能力。在动态滚动预测与固定估计窗口预测情形下，LSTM模型的预测效果均优于BVAR模型。此外，当预测步距增大时，LSTM模型预测效果要优于BVAR模型，具体而言，在各种步距条件的设定下，LSTM模型的预测效果均优于BVAR模型，并且随着向前步距的增加，预测优势发生显著提升，在动态滚动预测与固定估计窗口方式下预测效果分别平均改善39.4%、26.42%。因此，本文认为鉴于LSTM模型具有深度学习能力、良好的泛化能力及高度可调节性，其在GDP预测领域具有广阔的应用前景。

　　本文在宏观经济预测领域利用深度学习前沿技术进行积极探索，并以中国GDP预测为实例，验证了LSTM模型的预测优越性，为将深度学习神经网络广泛应用于宏观经济预测、形成新的研究范式提供了实践经验。鉴于深度学习神经网络的高度可调节性，后续还可以在两大主题上继续探索：一是将深度学习神经网络应用于其他宏观经济数据的预测，利用大数据的优势更有效地进行风险预警与经济分析；二是改进深度学习神经网络技术，例如添加多种非同质信息作为神经网络输入，附加小波分解或主成分分析等数据预处理技术进行模型优化，或从神经网络本身进行结构优化等。

　　（全文刊发在《经济与管理研究》2020年第7期第3—17页。）

分享到 QQ空间新浪微博人人网腾讯微博豆瓣

肖争艳等｜深度学习神经网络能改进GDP的预测能力吗？

友情链接