新知一下
海量新知
6 3 0 3 6 9 5

高频数据分析手册

析鲸信息 | AI大数据债券违约预警监测 2021/02/02 11:17

高频数据分析手册

—— 手把手教你看债券系列之9

新知达人, 高频数据分析手册

红塔证券研究所副所长、首席经济学家 李奇霖

从这一篇文章开始,我们的手把手教你看债券系列将进入债券市场分析框架部分。

在投资债券时,投资者面临的两个主要问题:一是如何把握短期的投资机会,即站在当下,他们是应该做多债券还是做空债券;二是如何把握中长期的投资机会,即从长期的视角来看,投资者应该如何进行债券操作。

而要想分析债券市场的走势,我们就需要去了解影响债券市场的主要因素有哪些。一般来说,基本面、政策面、资金面这三大要素主导了债券市场的走势。

市场研究人员在研究时,也往往会遵循这样的一个逻辑,即先看基本面,再看政策面,最后看资金面。其中基本面是核心,会影响政策面和资金面。

如今年年初就是疫情冲击了基本面,随后货币政策转向宽松,央行放水后,市场资金充裕,债券市场随即进入牛市。 市场 遵循了经济基本面差—货币政策宽松—市场流动性充裕—债牛这样一个逻辑。而5月之后,随着经济基本面好转,货币政策收紧,市场又经历了一波反向的行情。

在这一篇文章,我们先着眼于分析基本面,且仅分析短期的基本面走势,至于中长期的基本面走势,我们会在下一篇里进行讲解。

基本面简单来说就是当下的经济运行情况,一般经济增长动力强劲,债券市场容易走熊;反之,如果经济下行压力较大,债券市场则更容易迎来牛市。 而对基本面的分析则大致包括两个方面:一是经济增长情况;二是通货膨胀情况。

一般统计局等机构会定期公布诸如工业增加值、固定资产投资等与经济增长相关的指标以及PPI、CPI等与通货膨胀相关的指标。通过这些数据,我们能够一窥当下的经济走势。但这些数据一来发布频率比较低,大部分是月频的;二来存在明显的时滞,一般都是这个月月中才公布上个月的数据。低频且滞后的数据对于投资者的短期交易行为指示意义不大。

与这类低频数据对应的是市场上各类官方或非官方机构公布的种类繁多的高频数据。这些数据能够及时有效的反映出目前某一行业、某一领域的信息,让我们对当下的经济走势有一个大致预测。但因为高频数据存在种类繁多、统计规范性有待提高等问题,我们要想从中找出具有显著代表的数据并不容易。

本篇文章就着眼于分析如何从市场繁多的高频数据中筛选出对投资者具有重要意义的高频数据指标以及如何基于选取的高频数据来判断当下的经济走势。

1

高频数据分析原则

市场上高频数据种类繁多,要想找出隐藏在其中的优质高频数据,我们需要以低频数据为依据,先寻找与各类低频数据有着明显关系的高频数据,再对这些高频数据进行处理从而更好的建立高频数据观测体系。

需要注意,高频与低频是一个相对概念,对于年度数据而言,月度数据就是高频数据;而对于月度数据而言,日度或者周度数据就是高频数据。本文接下来提到的所有高频数据均是指频率在一个月以内的数据,而低频数据则是月度数据。

第一步,确定重要的低频数据。

在选取低频数据时,我们可以将经济运行指标分为两大类:

第一类,与经济增长相关的数据。 我们从生产端和需求端两侧出发来确定相应的经济指标。从需求端来看,需求可以分为投资、消费和净出口三大类,对应的我们选取固定资产投资、社会消费品零售总额以及出口金额作为体现经济总需求的指标;从生产端来看,生产一般可以按照行业分为第一产业、第二产业和第三产业,考虑到低频数据的可得性,我们主要着眼于第二产业的生产情况,选取的低频数据是工业增加值。

新知达人, 高频数据分析手册

第二类,是与通货膨胀相关的数据。 通胀数据我们主要跟踪两个指标:一是居民消费价格指数(CPI),其衡量的主要是与居民生活消费密切相关商品与服务的价格变化,像是食品饮料、服装、房租、交通(衣食住行)这些都包括在CPI指标里;二是工业生产者出厂价格指数(PPI),包括生产资料和生活资料两大类,其能够比较好的体现工业产品的价格波动。

第二步,以低频数据为依据,选择高频数据并进行处理。

在确定好我们希望跟踪的重要低频经济数据后,我们接下来要做的就是依据这些低频指标,去寻找与之密切相关的高频数据。不过这是一个很复杂的过程,也是构建高频数据库的核心一步。

要知道,相比于低频数据,市场上的高频数据类型繁多,在统计方式、统计口径、发布频率等方面均与低频数据有所不同,要想更好的使用高频数据来预判低频数据走势的话,我们无论是在前期高频数据的筛选上,还是在后期高频数据的处理上,都要尽量谨慎。

第一,要注重指标在经济学上的联系 基于经济上的相关性,比如产业链上的相关性、指标统计对象上的一致性等,有方向的去寻找对应的高频数据。

像是我们如果想要去分析房地产投资,就可以先去寻找上游的土地成交面积、钢铁等建筑材料价格等与房地产投资密切相关的高频数据。而如果我们想分析CPI指标的话,即可以去分析猪肉、羊肉价格,这些与CPI的具体分项指标密切相关的高频数据,也可以分析菜篮子产品批发价格200指数,这类也关注食品价格方面的高频数据。

第二,高频数据与低频数据的类型一致。 具体就是,我们在选取数据时要求同比数据与同比数据相对应、环比数据与环比数据相对应、累计值数据与累计值数据相对应、当月值数据与当月值数据相对应。

如对于CPI数据,我们在意的是环比数据和同比数据,而我们能够找到的高频数据可能是猪肉价格、牛肉价格这些绝对值数据,因此在进行比较时,我们需要先将绝对值数据转变为环比和同比数据,再按照同比对同比、环比对环比的原则进行比较。

再比如,固定资产投资一般只能够获得累计值,但是高频数据往往是当月值数据,比如当月(周)土地成交面积,因此我们需要通过做差分的方式将累计值转变为当月值之后再进行分析。

第三,以高频数据与低频数据的相关性为依据,选取相关性更高的高频数据作为观测指标。

要知道市场上高频数据繁多,无论是经济指标还是价格指标,我们都能够找到不少有一定经济学联系的高频数据与之对应。因此,在挑选高频数据时,我们需要先计算高频指标与低频指标之间的相关性,然后按照相关性排序,选取相关性高的高频数据。

比如在分析CPI时,“农产品批发价格200指数”、“菜篮子产品批发价格200指数”和“食用农产品价格指数”这些指标都和CPI有不错的相关性,但是在选择时我们还是会优先考虑“食用农产品价格指数”,因为它与CPI的走势更相似。

同样的,在分析社会消费品零售总额时,因为消费的产品类型繁多,有汽车类、粮油食品和烟酒饮料类、石油及制品类、日用品类等等,那这就需要我们去抓住主要矛盾,从而更好的把握社零的走势。而在这里主要矛盾就是汽车类和石油类,它们与社零的走势密切相关(详细分析请看下文)。

第四,高频数据的降频处理。 无论是比较高频数据与低频数据的关系,还是用高频数据对低频数据进行预判,我们都需要先将高频数据转变为低频数据,即将日频、周频的数据更改为月频的数据。具体的操作方法,我们一般是取月度均值。

以CPI对应的猪肉平均批发价为例。该数据是日频数据,那么我们就需要将同一月份的每日猪肉平均批发价取平均值,计算得到该月份猪肉的平均批发价,之后再基于月频的猪肉价格来计算猪肉的环比和同比数据。

第五,使用高频数据拟合数据时我们更多的是着眼于方向上的正确,而不着眼于预测的精准度。 之所以这么做这主要是因为高频数据与对应低频数据之间的相关性并不高,这使得通过高频数据来准确判断低频数据的走势极其困难。因此我们在使用高频数据时更注意方向上的变化,而不着眼于精度上的预测,毕竟有时候,模糊的正确往往比精准的错误更有意义。

而且即使是方向上的,用高频数据也不会有很高的准确度,从我们下面的分析来看,方向上能够有70%左右的准确度就算是很高了,比较难以观察的如出口,准确度也就55%-60%左右了。而也就是因为我们不能准确的判断经济的具体走势,所有才会有预期差的存在。

不过在分析价格指标(CPI和PPI)时,因为我们能够找到与其密切相关的高频数据,所以我们在使用高频数据来判断CPI和PPI走势时,我们会尝试精准的拟合。 而且,从结果上来看的话,通过高频判断CPI和PPI的走势准确率也很高。

第三步,寻找到对应的高频数据后,我们可以建立对应的高频数据库,从而更好的关注经济的短期走势。 另外,也能对数据进行一些别的处理,比如将多个高频数据处理成为一个综合指标,让我们更好的对短期的经济走势有一个大致的判断。

2

经济指标与对应的高频数据

2.1.生产法下的工业增加值

在分析生产时,我们主要分析的是第二产业或者说工业的生产情况,这主要是因为统计局每个月中旬会公布工业增加值数据,而并没有公布其他行业如服务业的生产数据。

工业增加值反映的是工业生产情况。近几年来,工业生产在GDP中的占比虽然有所下滑,但依旧在30%以上,因此该指标能够较好的体现当下的经济运行状况。我们一般认为工业增加值增速上升,那么经济向上运行的概率更高;反之,如果工业增加值增速下滑,则说明目前经济潜在下行压力较大。

因为工业增加值涵盖范围广泛,所以我们能够从市场上找到种类较多的高频数据来或多或少的反映出当下的工业企业生产情况。

如有能够相对全面反映工业生产情况的6大发电集团耗煤量、铁路货运量等指标;也有能够反映出各个工业行业生产经营情况的高频数据如钢铁产量、浮法玻璃产量、汽车开工率、化工产品开工率等。

其中,6大电厂耗煤量曾被做观测工业增加值的主要高频数据。虽然由于清洁能源对火电的替代、沿海地区发电代表性的下降等原因,6大电厂耗煤量的经济意义逐渐下滑,但是从历史趋势上看,用该指标预测工业增加值走势的胜率达到三分之二,这一胜率在高频数据指标中表现是十分亮眼的。

但在2020年7月之后,有5家电厂不再公布日均耗煤量数据,因此,本文不再使用该指标作为观测工业增加值走势的高频数据。

新知达人, 高频数据分析手册

在本篇文章中,我们从工业构成的几大重点行业出发,选取相关行业具有代表性的高频数据,来对工业增加值进行大致的判断。 从行业生产规模上看,非金属矿物制品、化学原料及化学制品、黑色金属冶炼及压延加工业、汽车制造业等行业的增加值在整体工业增加值中位居前列。

新知达人, 高频数据分析手册

在综合考量了各细分行业的规模以及对应高频数据的可得性之后,我们选取钢铁行业、汽车行业和化学原料及化学制品行业这三大行业作为选取高频数据的依据。

第一,钢铁行业相关指标。 钢铁作为黑色金属的代表,在工业生产中有着不可替代的作用,无论是汽车制造业还是金属制品业等都离不开钢材。

一般我们可以在wind行业数据库,钢铁行业下找到诸多与钢铁行业相关的高频数据。而市场则往往会通过跟踪高炉开工率、唐山钢厂高炉开工率、重点企业粗钢产量、钢材产量、全国粗钢预估日均产量等高频数据来跟踪工业增加值。

结合市场常用的指标以及我们寻找的指标,根据相关性排序,我们选取重点企业粗钢产量、钢材产量以及高炉开工率这三个指标来分析钢铁行业生产情况。从历史趋势上我们也能够看出,这几个指标在环比上与工业增加值的走势比较接近。

新知达人, 高频数据分析手册

新知达人, 高频数据分析手册

第二,汽车行业。 要寻找与汽车相关的高频数据,我们可以从汽车产业链出发,如汽车配件作为汽车的上游产业,其生产情况与汽车生产密切相关,考虑到数据的可得性,市场一般会比较关注汽车轮胎(包括全钢胎和半钢胎)的生产情况。

从历史走势来看,汽车轮胎半钢胎与汽车制造业的相关性较高,毕竟轮胎是汽车不可或缺的配件,轮胎生产情况与汽车生产本来就密切相关。 不过,从数据上看的话,汽车轮胎的生产情况与工业增加值的相关性一般。

新知达人, 高频数据分析手册

新知达人, 高频数据分析手册

第三,化学原料及化学制品行业。 化学原料及化学制品行业作为中上游行业之一,在整个工业链条中具有极其重要的地位。一般在wind化工行业部分我们可以找到各类主要化工产品如PTA、聚酯切片、纯碱等化工产品的开工率、产能利用率、产量等高频数据,而通过这些数据我们可以来间接跟踪化工产品的生产情况。

因为化学产品种类繁多,在选取的时候,按相关性高低排序,我们选取相关性靠前的指标作为高频数据进行跟踪。 需要注意的是,各个高频数据在时间跨度上并不同,在考虑相关性的前提下,我们优先选取时间跨度较长的指标。 如烯烃的产量数据虽然在各类数据中相关性靠前,但是wind自2017年10月才开始统计这个数据(如果计算同比的话,就要到2018年了),因此我们暂时不考虑使用该指标,类似的还有开工率:聚酯产业链:PX等指标。

经过筛选,我们选取了PX开工率(PX指对二甲苯,主要用于生产对苯二甲酸(PTA)、医药中间体(DMT)、涂料等商品)、PTA开工率(PTA指精对苯二甲酸,是生产聚酯纤维、瓶级聚酯的主要材料,被广泛用于化学纤维、轻工、电子等行业)以及涤纶短纤装置负荷率( 涤纶短纤 主要用于纺织行业)作为我们观测的高频数据。

新知达人, 高频数据分析手册

自此,我们依据几类主要工业行业,选取了高炉开工率、重点企业钢材(粗钢)产量、汽车轮胎: 半钢胎产量、PX开工率、PTA开工率、涤纶短纤装置负荷率等指标作为观察工业增加值的窗口。

新知达人, 高频数据分析手册

从单一的高频数据上来看,虽然它们与工业增加值的走势或多或少有相关,但是这种粗略的相关性明显不能够支持我们精准的分析工业增加值的走势,因此我们仅仅只是用高频数据来做一个方向上的判断。

即如果这几个高频数据在本月超半数都是正向增长的,那么我们就更有理由相信这个月的工业增加值有更高的概率会上升;反之,如果大部分数据都出现负向增长,那么我们也有理由相信这个月的工业增加值有更大的概率会下滑。

数据的实际走势也证明了我们的判断, 从样本历史走势来看,当选取的7个高频数据都上升或者都下降时,工业增加值有75%的概率走势与高频数据走势一样,随着高频数据走势的分化,工业增加值走势与高频数据走势的一致性也在降低。

新知达人, 高频数据分析手册

因为是方向上的分析,我们先来判断选取的几类高频数据走势与工业增加值在方向上的联系 从同比变化方向上看,自2016年以来,我们选取的7个高频数据同比走势与工业增加值同比变化方向一致的月份占比均超过50%,其中汽车轮胎: 半钢胎的方向一致性最高,达到了65%,最低的则是高炉开工率,占比仅有53%。

从环比变化方向上看,自2015年以来,高频数据与工业增加值季调环比的变化方向一致性也比较高,其中汽车轮胎:半钢胎依旧位列第一,变化一致月份占比达到了68%。

进一步的,我们可以基于这7个高频数据来构建指数,借此来跟踪工业增加值的走势。指数构建的核心原理就是我们刚刚提到过的,如果当月有更多的高频数据在好转,那么我们就更有理由相信本月的工业增加值会好转;反之亦然。指数的具体构建步骤如下:

第一步,通过计算均值的方式,将各项高频数据转化为月度数据,之后基于月度数据计算各项指标的环比变化。

第二步,对每一项高频数据,我们以上一个月数据的环比增速为基准,如果高频数据的当月环比增速比上个月高,我们则将其赋值为1;如果高频数据的当月环比增速比上个月的低,我们则将该指标赋值为-1;如果环比增速不变,我们则赋值为0。

比如11月份重点企业粗钢的日均产量环比为-2.08%,而12月份环比为3.17%,因此我们将重点企业粗钢12月份的数值赋值为1。

第三步,在得到各指标的数值后,我们按照等权重相加。 在这里为了简便,我们对各个高频数据赋予相同的权重,当然不想按照等权重的话,也可以按照相关性、回归系数、产值比重等等赋予各项指标不同的权重。

第四步,我们将上面相加得到的结果除以高频指标数量(7个),计算得到最后的指数。

需要注意,这只是最便捷的构建指数的方法,我们并没有考虑各项高频数据的权重问题以及变化幅度问题,不过我们只是想看出指标环比变化与工业增加值环比变化在方向上的趋势,因此简单一点影响也不大。

从结果上,我们可以看到工业增加值的季调环比增速与综合指标在整体上的走势比较接近,从历史方向走势上看,当综合指标变化时,工业增加值有65%的概率与综合指标同方向变化。

新知达人, 高频数据分析手册

除了环比,类似的我们可用同样的方法来预测工业增加值的同比走势,具体指标的构建方式和环比的方式一致,因此在这里并不展开。

2.2.支出法下的“三驾马车”

2.2.1.固定资产投资:基建、房地产和制造业

考虑到数据的可得性,从需求端分析宏观经济时,市场最关注的三个指标分别是固定资产投资、社会消费品零售总额和出口,对应的是投资、消费和净出口。

我们先说固定资产投资。在每个月15号左右,统计局会公布全国固定资产投资、全国房地产开发投资和销售情况等系列数据。我们选取固定资产投资完成额作为我们观测固定资产投资情况的低频数据。

这里需要注意统计局披露的数据是累计值数据,而我们更关注当月值数据,所以我们在计算时需要通过做差的方式,如用1-8月份累计值减去1-7月份累计值计算得到8月份当月值,从而计算得到当月同比以及环比数据。

另外,统计局并不公布1月份固定资产投资完成额的数据,而是直接公布1-2月份的累计数据,因此在计算时我们将1,2月份合并处理,相应的在高频数据的处理方面也是将1-2月份做合并处理。

在选取固定资产投资对应的高频数据时,我们采取和分析工业增加值一样的做法,即以固定资产投资的具体构成项目为依据来挑选指标。 从2019年固定资产的投资情况来看,在固定资产投资中,最主要的是房地产开发投资(占固定资产投资比重为24%左右)、基础设施投资(占固定资产投资比重为30%左右)和制造业投资(占固定资产投资比重为40%左右)三项。

考虑到由于制造业投资范围较广泛,对应的高频指标比较少,而基建和房地产对应的高频数据较多,且市场关注度较高等原因,我们主要是针对房地产和基建来选取对应的高频数据。

与房地产相关的指标比较多,如100大中城市供应(成交)土地供应面积(房地产商在拿到土地后会加大投资支出,建房出售)、成交土地溢价率(能够反映投资热情)、30大中城市商品房成交面积(体现市场购房需求,需求越高,房企越有动力去加大投资)等数据均与房地产投资相关。

具体来看,100大中城市供应土地面积与房地产投资的相关系数最好, 从历史数据我们能够看到滞后6-9个月的供应土地面积与房地产开发投资完成额同比走势具有明显的一致性。另外,商品房成交面积在此前虽然经常与实际投资情况走势背离,但是近年来两者之间的同步性有所增强。

新知达人, 高频数据分析手册

新知达人, 高频数据分析手册

除了上述与房地产相关的数据,部分与建材相关的高频指标既能体现基建投资也能体现房地产投资,毕竟这两类投资都离不开诸如钢铁、水泥等建筑材料。 当基建、房地产投资增加的时候,那么市场对钢铁、水泥等建材的消费量自然会上升,我们也就能够通过这些指标来观测投资的情况。

在选取高频数据指标时,我们根据市场常用的指标以及按照相关性原则选取水泥价格指数、中国玻璃价格指数、钢材综合价格指数、浮法玻璃产能利用率这四个指标(在wind行业数据库下的建材家居栏目中,我们能够寻找到很多与建材相关的高频数据,这里仅选取了部分相关性好的),同时加上100大中城市供应土地占地面积以及30大中城市商品房成交面积这两个高频数据作为跟踪固定资产投资的数据。

新知达人, 高频数据分析手册

在获得高频数据后,我们按照前文提到的构建综合指数的方法构建固定资产投资综合指数。

从方向上来看,综合指数与固定资产投资的环比走势有较大的一致性,用综合指数来预测固定资产投资环比走势的胜率在66%左右,在方向上具有一定的可信度。

新知达人, 高频数据分析手册

2.2.2.消费:社会消费品零售总额

在强调内循环的当下,消费对经济运行的重要性越发凸显。 而社会消费品零售总额是用来观察中国消费状况最常用的指标。 一般在每个月14-15号左右,统计局会发布该指标的具体数据。

社零的统计口径包括商品零售和餐饮收入,其中商品零售按照规模的不同可以分为限额以上社零和限额以下社零。因为限额以上商品零售有明细分类,所以我们能够据此来寻找高频数据。

新知达人, 高频数据分析手册

限额类以上商品零售一共有16类细分类科目,根据2019年数据,消费排名靠前的分别是汽车类(28.4%)、粮油食品饮料烟酒类(14.8%)、石油及制品类(14.5%)和服装鞋帽、针、纺织品类(9.8%)。

具体来看,粮油食品饮料烟酒类和服装鞋帽、针、纺织品类两类特别是前者可以归为必选消费品,相应的波动率不大,而汽车类以及石油及制品类则属于可选消费品,同时具备占比高、波动大的特点,是决定整体社零走势的关键因素。

在综合考虑了规模占比以及波动的情况下,我们依据汽车类、石油及制品类对社零走势进行跟踪。

第一,就汽车类消费而言, 除了统计局会公布汽车销量数据外,中汽协会和乘联会也会发布类似的汽车销量数据。虽然由于统计口径、统计方式等不同,这几方的数据存在一定的差距,但是乘联会和中汽协公布的数据会略早于社零公布的数据,可以略作参考。

高频数据方面,乘联会每周会公布厂家零售乘用车当周日均销量以及厂家批发乘用车当周日均销量数据。从历史走势上看,乘联会的高频数据与社零口径下的汽车类消费走势密切相关。

第二,就石油及制品类而言,石油消费的波动除了由于消费量上面的变化,价格波动对其有着更为明显的影响。

在选取高频数据时,我们从石油价格入手,选取相关的高频数据。市场上与石油价格相关的数据很多,如OPEC一揽子原油价格、WTI原油价格等等,在比较各类石油价格与石油零售额相关性后,我们按照相关性原则,选取相关性较高(78%)的布伦特原油价格作为观察石油及制品类消费的高频数据。

新知达人, 高频数据分析手册

新知达人, 高频数据分析手册

进一步分析这两类数 据与社零的相关性。从环比数据上看,我们选取的高频数据与社零走势在方向上有较大的相关性,这一点也比较好理解,如果市场消费者开 始增加对汽车等非必选品的消费,那么消费者对其他商品的消费也会随之增加。

从同比数据上看,相比于相关性较强的环比数据,高频数据与社零同比增速的相关性明显减弱。这可能是因为同比数据是环比数据的累乘,环比的小幅偏离在累乘后会被明显的放大,从而使得同比数据的相关性降低。

新知达人, 高频数据分析手册

新知达人, 高频数据分析手册

新知达人, 高频数据分析手册

除了我们上文提到的两类高频数据,与消费相关的其他高频数据如中关村电子产品价格指数、柯桥纺织价格指数、义乌小商品价格指数等高频数据也可以让我们对市场消费情况有一个大致的了解,如中关村电子产品能够体现当前市场对电子产品的消费,纺织价格指数则能够体现市场对纺织品消费的情况。

不过相比于原油价格和乘用车零售量这两个指标,这些指标在相关性上较低,因此我们并不逐一进行讲解。

在综合指标的构建上, 我们 以选取的布伦特原油价格、乘用车厂家零售、中关村电子产品价格指数、柯桥纺织价格指数和义乌小商品价格指数这五类数据为基础进行构建,不过在权重上我们赋予这五类指标的权重分别为:0.3、0.4、0.1、0.1、0.1,这一点是和之前构建方式不同的地方。 具体构建方法在前文已经提过,不再重复。

可以看到综合指标方向与社零环比走势方向相同的概率为61.7%,略高于仅仅使用汽车或者使用石油时的概率。

2.2.3.出口

出口简单理解就是境外经济体对中国产品的需求。 2008年以前中国出口占GDP的比重一度超过了35%,在经济体系中地位极其重要,不过近年来出口占GDP的比重一路下滑,目前占比在19%左右,在经济体系中的地位有所下降。

虽然出口可以按照出口国家、出口商品类型或者其他方式分类,但是分类后的各项指标其实很难找到对应的高频数据来进行观测,所以我们要去寻找能够直接体现整体外贸需求的高频数据。

从运输方式上看,中国出口商品大部分是通过航运方式出口,而航运业又大致可以分为集装箱运输、干散货运输和油轮运输三种形式 其中,油轮运输主要被用于运输原油、成品油、液体天然气等液体货物;干散货运输主要适用于诸如煤炭、各类矿石、钢材等各类原材料以及大宗资源品;集装箱运输则主要用于各种工业制成品、终端产品等的运输。

因为中国出口的商品以电子设备等工业制成品为主,所以出口的运输方式也主要是集装箱运输。而这也意味着我们能够通过与集装箱运输相关的高频数据来观测中国出口的现状。

目前,上海、宁波等主要出海港均会公布出口集装箱运价数据,在比较几类出口集装箱运价指数与出口的相关性之后,我们选取上海出口集装箱运价指数(SCFI:综合指数)以及中国出口集装箱运价指数(CCFI:综合指数)作为观测出口的高频数据。

从逻辑上看,当中国出口规模较大时,市场对集装箱运输的需求增加,并带动集装箱运费上升。所以,我们可以认为当集装箱运价指数上升时,出口可能会比较好,反之则相反。

但从历史数据上看,SCFI与CCFI同比与出口同比的相关性并不是特别高,SCFI和CCFI同比走势与出口同比走势一致的概率均在52%左右,结果比较差强人意;环比走势也和同比走势差不多,SCFI和CCFI环比走势与出口环比走势一致的概率也只有50%左右。

除了这两个指数,目前市场常用的观测出口水平的高频数据还有波罗的海干散货指数(BDI),这是由波罗的海航交所(位于伦敦,是全球最主要的航运市场)编制的、反映全球干散货船航线运价的一种加权价格指数。

该指标之所以能够在一定程度上反映中国出口水平的原因如下:

首先,BDI能够较好的反映出全球经济走势。 一般干散货运输是用来运输工业原材料的,能够反映市场对工业原料的需求。在全球经济好转的背景下,工业生产恢复带动工业原材料运输行业景气度回升,从而使得干散货运输价格上涨,波罗的海干散货指数也就随之上升;反之,在经济下行的时候,市场对工业原料的需求减少,相应的波罗的海干散货价格指数也会随之下降。

从历史走势上,我们也能够看到波罗的海干散货指数与反映全球经济走势的OECD综合领先指标在走势上具有较为明显的相关性。

其次按照逻辑,在全球经济好转的时候,中国作为“世界工厂”无疑能够获得更多的订单,出口相应的也会随之增加;反之,在全球经济下行的时候,各国对中国商品的需求也会减少,出口也随之下降。

但是,从历史走势上来看,波罗的海干散货指数与中国出口的相关性并不高,BDI月同比走势对出口同比走势的预测成功率仅有50%;环比走势对中国出口环比走势的预测成功率仅有51%。较低的相关性也意味着我们通过该指标只能大致观察目前全球的经济情况,而对预测中国出口的意义不大。

从上面分析我们也发现了,相比于投资和消费,出口对应的高频数据效果相对会差很多。 以同样的方法构建综合指标,我们发现使用出口综合指数来预测出口走势的胜率只有55%,在各类数据中效果最差。

自此,我们从生产端和需求端两侧入手,以工业增加值、固定资产投资、社会消费品零售总额、出口这四项数据为依据,对应寻找相关性较高的高频数据来及时的跟踪市场经济运行情况。

需要注意的是,本文只是选取了部分高频数据进行讲解,在实际建立高频数据库时,为了更好的观察市场经济运行状况,我们会跟踪更多的高频数据。 比如我们跟踪房地产市场,文章列举了100大中城市:供应土地占地面积等三个数据,但是在实际跟踪时,在这个指标下面还细分为一、二、三线城市,那么通过更进一步的指标,我们也能分析一、二、三线城市之间的区别。

3

价格指标与高频数据

3.1.与CPI相关的高频数据

与难以寻找到优质高频数据的经济指标不同,价格指标包括CPI和PPI均能够从市场上寻找到具有高度相关性的高频数据。而优质的高频数据也使得我们能够较为精确的预测CPI和PPI的走势,不用像经济指标一样,仅着眼于方向上的判断。

我们先来分析CPI,统计局会在每月的10号左右发布当月CPI同比以及各分项的具体变化幅度。而要想寻找与CPI相关的高频数据,我们有两种做法: 第一种,根据CPI的具体组成,分别来寻找对应的高频数据;第二种,直接寻找一个和CPI含义近似的高频数据。

我们先来分析第一种做法。根据统计局口径,CPI大致可以分为食品项和非食品项数据,进一步的可以细分为食品烟酒、衣着、居住等8大类项目。 其中,食品项主导了CPI的走势,而非食品项对CPI的影响也比较小。

因为过去一直是食品项主导了CPI的走势,所以我们先来分析食品项CPI。

按照统计局公布的口径,CPI食品项主要由粮食、食用油、鲜菜、畜肉、水产品、蛋类等8大类食品构成。而每个指标我们在市场上都能够找到相关性较高的高频数据来与之对应,如与鲜菜对应的是由农业部每天发布的28种重点监测蔬菜平均批发价,与鲜果对应的则是7种重点监测水果的平均批发价。

在选定相应的高频数据后,我们先将不同频率的高频数据通过取月度均值的方式转化为月频数据,之后再对月频数据取同比和环比得到我们最终使用的数据。

从相关性上我们能够看到,我们选取的数据除了水产品和粮食以外,其他高频数据与对应食品项的数据相关性很高,数据比较可靠。

在获得高频数据的同比和环比数据后,我们其实有两种做法来运用高频数据判断CPI的走势。

一是我们以每一分项作为被解释变量,以其对应的高频数据作为解释变量来进行回归,从而获得食品项下8类分项指标的拟合值,如将28种重点监测蔬菜平均批发价同比与鲜菜同比数据进行拟合,获得对应的拟合值。

在获得各项的回归拟合值之后,我们再根据每一项目在食品项中的权重,将其加权计算得到CPI,食品项的拟合值。

关于权重的问题,统计局虽然没有直接公布指标的各项的权重,不过统计局每个月会公布重要项目对CPI的拉动,如9月份,食品烟酒类价格同比上涨6.4%,影响CPI(居民消费价格指数)上涨约2.00个百分点,那么我们就可以得到食品烟酒在CPI口径下的权重大约为2%/6.4%=31.25%,类似的我们可以算出畜肉类(6.15%)、鲜菜(2.4%)、水产品(1.9%)、粮食(2%)、蛋类(0.75)和鲜果(1.4%)的权重数据。对于没有公布的几项,我们则以回归得到的系数作为权重。

二是我们直接以高频数据作为解释变量,以CPI食品项作为被解释变量,直接进行回归拟合得到拟合值。

本文使用的是第二种方式,可以看到无论是环比还是同比的拟合值在过去几年间与实际值的走势都很接近,在精度上也有较高的可信度。

说完食品项,我们再来说非食品项。 相比于食品项,非食品项难以找到高度相关的高频数据,因此我们可以选择通过环比均值法来拟合非食品项。

回顾历史走势可以发现CPI非食品项的走势具有一定的季节性规律,而我们则可以基于这种季节性规律,取前三年或前几年对应月份的CPI环比平均值,作为当年某月的CPI环比,再用环比累乘法计算出同比。

环比累乘法的含义就是今年7月相对于去年7月的同比涨幅,等于这12个月里每个月的环比波动相乘。 比如,2017-2019年这三年10月份的CPI环比为0.1%、0.3%和0.2%,那么我们就假设今年10月份的环比涨幅为(0.1%+0.3%+0.2%)÷3=0.2%,之后将已经公布的2019年11月至2020年9月的环比数据加1后累乘,最后再乘以10月份的环比涨幅(1+0.2%),就可以计算得到2020年10月份的同比数据。

不过,这种环比方法仅依赖于历史经验,并不能反映当下的具体情况,因此如果当下发生了一些意料之外的冲击,那么使用环比均值法来预测当月的环比增速容易出现明显偏差。

在获得非食品项的预测值之后,我们就可以按照CPI=食品项波动×食品项权重+非食品项波动×非食品项权重,来计算获得CPI的预测值。因为之后进一步的计算与高频数据无关,我们则不再进行深入讲解。

第二种方法则是直接寻找一个具有代表性的高频数据来直接跟踪CPI的走势。

目前,市场上如“农产品批发价格200指数”、“菜篮子产品批发价格200指数”和“食用农产品价格指数”等与CPI走势均有着较强的相关性(这很大程度上是因为CPI的波动是由食品项波动引起的),而我们就可以通过跟踪这几类指标直接来跟踪CPI的走势。

在这三类指标中,食用农产品价格指数与CPI的相关性最高,菜篮子产品批发价格200指数与农产品批发价格200指数相关性接近,因此我们在这里以食用农产品价格指数和菜篮子产品批发价格200指数为例进行讲解。

具体操作时,我们可以以CPI为被解释变量,以食用农产品价格指数和菜篮子产品批发价格200指数为解释变量进行回归。从回归结果可以看到,仅仅跟踪单一指标也能够较好的追踪CPI的走势,但是在精度上会略有欠缺。

3.2.与PPI相关的高频数据

在分析CPI时,我们既可以通过CPI的各个分项逐一对指数进行跟踪预测,也可以通过选取与整个指数相关的高频数据来对CPI进行跟踪预测。 而这两种方法也适用于PPI。

PPI主要反映的是工业企业产品出售时的价格变化,包含了生产资料(采掘、原材料、加工)和生活资料(食品、衣着、一般日用品、耐用消费品)两大类。一般统计局在每月中旬的时候会公布PPI的各项数据。

而市场上能够找到的主要反映工业品价格走势的指标有生产资料价格指数、南华工业品指数、南华综合指数等,按照相关性进行比较,我们可以发现由商务部每周发布的生产资料价格指数与PPI的相关性达到了97%,在各类指标中表现最好。

因此,我们选取由商务部发布的生产资料价格指数作为PPI的高频观测指标进行回归拟合。 在拟合时,我们发现使用生产资料价格指数以及其滞后一期的数据进行回归时得到的拟合准确性相比于仅使用当月数据的拟合结果会更好,这可能是由于商品价格传导存在一定滞后的原因,当然也有可能仅仅是因为统计上的关系。考虑到这一点,我们在回归时,使用的解释变量包括当月的生产资料价格指数以及滞后一期的生产资料价格指数。

从环比预测结果上可以看到生产资料价格指数的波动对PPI环比波动有着明显的预测效应,数据的预测精度也明显较高,模型的拟合优度在95%以上。

但相比于环比数据,同比数据的预测结果会差一些,这一点我们在前文也提到过,由于价格波动误差的逐渐累加,同比的误差会更大一些。不过虽然回归结果在精度上差了一些,但在方向上预测值与实际走向一致。

在这里我们除了尝试简单的回归方法,也尝试了计量上的滚动回归,滚动窗口期为12。滚动回归具体是什么意思我们并不详细说明,这是计量上的问题,其大致意思就是以12个数据为周期,多次回归。滚动回归的结果相比于直接回归在精度上会有一定的提高。

当然除了这种整体回归,我们也可以按照分项指标,选取多个高频数据来对PPI走势进行拟合,而且相比于CPI,PPI的分项指标更少,在高频数据的选取上也会少一些,如市场有时候会通过煤炭价格指数、原油价格指数等与工业生产密切相关的高频数据来跟踪PPI。

从下图我们也可以看到如煤炭价格、原油价格、南华指数等与PPI的走势存在明显的相关性,相应的我们也可以通过这些分项来回归得到PPI指数的预测值。具体的,我们则不再进行进一步的分析。


更多“债券”相关内容

更多“债券”相关内容

新知精选

更多新知精选