【视频】量化交易陷阱和R语言改进股票配对交易策略分析中国投资组合

  • 2022-12-06
  • John Dowson

装修是一个需要用心去做的活,房子装修和设计的好坏,决定着入住以后一家人的生活是否舒适、幸福。房子装修除了要去认真的选材、设计和监工外,更需要注意一些比较小的细节,细节虽本站

【视频】量化交易陷阱和R语言改进股票配对交易策略分析中国投资组合本站

  量化交易涵盖了相当广泛的交易策略(从大数据分析到高频交易)。出于本文的目的,我们将重点关注量化分析和数据科学,因为它们被不同类型的交易者广泛使用。

  统计分析是数据科学和量化交易的基础。当我们分析数据(尤其是时间序列)时,如果我们对统计/概率(和统计概念)没有很好的理解,我们很容易陷入各种陷阱。

  到目前为止,正态分布的假设是我们在金融资产动态建模方面所能做出的最弱假设。关于金融资产时间序列的正态性假设已经发表了许多论文,但是,由于缺乏更好的选择,我们使用高斯(正态)分布,因为它使我们能够很容易地分析数据。知道“正态性”的假设是弱的,我们应该以同样的方式对待正态分布的性质(即偏斜收益、肥尾)。假设收益的分布将落在钟形曲线+ 个标准差时,通常会导致巨大的意外。

  正如我们所理解的,“正态性”有时可能是一个弱假设,我们可以使用已实现的分布(采用不同的时间框架)并查看它如何符合正态分布,因此我们可以评估资产的回报分布有多正常.

  如果说大多数量化分析师和交易员喜欢一件事,那就是“相关性”。相关性可能是统计学中使用最多但最容易被误解的概念。我们大多数人使用的相关系数是“Pearson Correlation”(以 Karl Pearson 命名)。相关性,简而言之,描述了两个变量(X,Y)之间的线,负线,正线性关系)之间振荡。

  首先,我们需要了解什么不是相关性。它不是预测变量(即,它不表示因果关系,而是线性关系)。当我们使用相关函数时,我们需要确保我们不会犯以下错误:

  分析价格而不是收益(对数收益或实际收益)——当我们处理时间序列时,我们通常处理资产价格。资产价格本质上是“非平稳的”。“非平稳”过程基本上意味着资产呈现趋势(或非均值回归过程)。如果我们以黄金现货价格与 10 年国债实际收益率为例,我们可以清楚地看到使用非平稳数据的效果。这是黄金/收益率价格的回归模型拟合结果:

  2.没有过多考虑样本量/频率——当我们分析相关性时,就像我们分析波动率时一样,我们需要对我们的样本量/频率给予很多考虑。大小和频率都对我们的相关性估计有很大影响。如果我们使用的频率太短,我们可能会将短期行为与持续相关性混淆。这个问题的另一面是使用的样本量太长(假设我们想要交易短期策略时的 1 年相关性)。如果我们查看下面的相关矩阵热图,我们可以清楚地看到使用 20 天窗口和 180 天窗口之间的区别

  解决样本大小问题的一个好方法是对不同大小和不同时期(非重叠时期)进行采样,以测试相关性持久性。

  3.假设长期相关性持续存在——相关性分析的主要缺陷之一是认为长期相关性不会失效。这种假设通常在金融压力和市场低迷时期被抛弃,因为相关性往往会破裂并走向极端。如果我们看看 2020 年 3 月,我们可以清楚地看到相关性的巨大变化

  作为交易者,我们希望以良好的风险回报进入交易。我们用来确定风险回报的一种方法是使用 Z 分数。简而言之,Z-score 是一种衡量我们观察与分布均值的距离(以标准差计)的方法(该分数也可以很容易地转换为 %ile 项)。显然,作为交易者,我们的目标是寻找极端事件,因为它们提供了最好的风险回报(因为我们假设某种回归/趋同于均值)。Z-score 的棘手之处在于,与统计中的其他所有内容一样,它高度依赖于我们的样本量和频率。使用 z 分数作为信号的陷阱的一个很好的例子是 2020 年 3 月/4 月黄金期货场外交易基础上的走势。

  解决这个陷阱的一个很好的方法是将我们当前的观察结果与历史上不同的回顾窗口(时期)进行比较,以解释不同的市场制度。

  在我们了解了统计分析中可能存在的陷阱之后,我们转向交易的核心——我们的模型。虽然在实施我们的模型/策略时有很多方法可能会失败,但我们将专注于我们可能犯的最常见(也是最关键)的错误。避免这些陷阱将大大有助于确保我们模型的适应性和稳健性。

  模型拟合既是一门艺术,也是一门科学。在拟合我们的模型时,我们需要在模型过拟合和模型欠拟合之间找到一条细线。这两种偏差最有可能导致我们模型的性能不佳。

  _过拟合——_当我们的模型在捕捉动态时非常精确时会导致过拟合。通常过拟合模型会涉及到相对大量的解释变量。

  欠拟合是过拟合的镜像问题。当模型太简单(变量太少)时会导致欠拟合,这使得它在捕捉动态时不灵活。

  在拟合模型时,我们的目标是使用最少的变量,但具有最大的预测能力。其背后的想法是,我们希望将模型校准到最低限度,同时拥有一个能够产生稳健结果的模型。我们添加的变量越多,我们需要进行的校准就越多,它能够快速应对不断变化的市场的能力就越差。

  无论我们喜欢与否,异常值观察都是我们数据系列的一部分。我们不能忽略这些异常值,但是,我们需要知道如何处理它们,这样我们的模型才不会因极端观察而出现偏差。显然,我们需要区分异常值的类型——如果我们发现观察明显是错误的(数据错误),我们可以删除它,但是,如果它是有效的观察,我们应该接受它并让我们的模型处理它。

  现在我们已经有了一个基于稳健统计/数据分析的健全模型,我们希望对历史(或生成的)数据进行回测(或模拟)。这是我们模型开发的关键部分,因为这是我们可以看到(和分析)我们的模型在受控环境中如何表现的关键。尽管在这个阶段犯错误的方法更少(与之前的阶段相比),但这些错误可能会付出高昂的代价,因为我们将无法发现模型的弱点(或问题)。

  当我们构建模型时,我们希望它在 100% 的时间内表现良好。不幸的是,这几乎是不可能的,因为不同的策略将在不同的市场区制中表现良好(想想波动市场中的趋势跟踪策略)。我们可以确定模型表现不佳的点。为了让我们识别这些弱点,我们应该在不同的市场区制下测试我们的策略(区制转换模型是识别这些区制的好方法)

  相信大家都听说过股票和债券的多元化投资组合。改进的股票配对交易策略基本上使用了一种前进的方法(参考文章中的概念),即最大化夏普比率,偏向于波动率而不是收益率。也就是说,它使用72天的移动窗口来最大化投资组合的不同权重配置之间的总收益,标准差提高到52的幂。说得通俗一点,在1的幂数下,这是基本的夏普比率,在0的幂数下,只是一个动量最大化的算法。

  这个策略的过程很简单:每个月重新平衡SPY和TLT之间5%的倍数,之前最大化了以下数量(在72天窗口中返回波动率^2.5)。

  也就是说,在每个重新平衡的日期(每月的月末),简单地采用使每月修改的夏普比率计算最大化的设置。接下来是收益表现:

本站 有人说,99%的中国人都有院子情结。因为庭院不仅是建筑规制,更是精神家园,意味着栖居的传统与诗意。然而一般的公寓楼房基本没有庭院,所以人们开始将目光转移至阳台,因为阳台是整个空间中最接近

免责声明:本站所有信息均搜集自互联网,并不代表本站观点,本站不对其真实合法性负责。如有信息侵犯了您的权益,请告知,本站将立刻处理。联系QQ:1640731186

评论留言

发表评论