当你只交易两个或三个投资品种时,你如何决定投资哪个品种?
这就是问题了。我选择在回测时表现最好的品种。
听起来,那个时候你犯了某些新手经常会犯的曲线拟合错误。
是这样的。在一开始的那几年我走入了数据挖掘的误区。 你后期在蓝色屋脊使用的交易系统,是QIM运用在多个投资品种上的交易系统的早期版本吗? 很相似,但没有那么复杂——模型比较少就不需要大量的计算。 但在概念上它们是类似的吗? 哦,那当然了。那是同样的东西,只是一个非常早期的版本。 你是怎么想到这种交易系统的呢,表现如此之好,既不是趋势跟踪也不是均值回归? (贾弗雷·伍德里夫在他办公室的地板上找出一本书,开始讲述。讽刺的是,那本书他还没读过。) 在你找书之前,我问了你一个问题…… 哦,是的,我在回避那个问题。 我知道,(贾弗雷·伍德里夫笑了起来)但我没有料到你会这么做。你取得重大进展,一部分是因为试图寻找稳定的系统可以在不同的市场运行;另一部分是因为用多个品种交易而不是一个。但是这两个中的任何一个都不怎么有特色,可能绝大部分的CTA都在用不同的系统交易,但很大一部分的CTA也会在不同的市场使用同一套系统。这两个要素毫无疑问都非常重要,但它们本身并不是重点。它们并不能使你从那么多的CTA中脱颖而出。无论你添加了什么料,它一定是你想出并且存在于你的系统之中的。 我想设置一种结构,可以允许我尝试无数种组合。当我开始的时候,我只能尝试上千种组合,而这些年计算机的能力大幅提升,我最终可以尝试数万亿种组合,但这样做很容易导致数据的过度优化。 我最后发现了一个办法。有些书籍是有关预测模型的,书里尤其提到千万要小心“数据燃烧”,这就是说你一定要限制你尝试组合的数量。我觉得这个建议相当蠢,因为可以找到一种方法尝试任意数量的组合,而不会过度优化。你每天都会接收到新的数据,如果你能谨慎地承认那些新的数据所告诉你的,你就知道该怎么做了。这可能会花一些时间。如果你做程序化交易,发现业绩表现在某个合理的时间段与预期并不一致,那么去看看是不是过度优化或是存在事后聪明。如果你期望夏普比率大于1,而你得到的夏普比率低于0.3,这意味着你犯了一个或几个事后聪明的错误,或者错误地判断了交易成本。我当时使用的是距离当天一年以上的数据作为培训数据,用距离当天一年以内的数据作为确认数据,用现在正在发生的数据来测试。实际上,我是在用历史记录检测数据。 考虑到你厌恶和一群人挤在一起,我明白为什么你情愿寻找一种非趋势跟踪的方法,但是为什么你会从心里讨厌均值回归的方法呢? 这和我不追求趋势跟踪是同样的原因——换句话说,其他人在做同样的事情。均值回归可能比趋势跟踪更适合我,但是我希望能有自己的风格。我希望有一种适合我自己性格的方法,同样地,我想要摆脱你所写的前两本“金融怪杰系列”带给我的影响。均值回归部分符合我的性格,但是因为人们都熟知它,所以这种方法并不完全符合我的性格。我寻找其他方式嚼碎数字,那是一种既非趋势跟踪也非均值回归的方法。 在不透露交易核心的情况下,第三种交易的核心是什么? 我试图以不同的方式组合我从日常数据中提取的次要变量。 你能给我举一个例子说明什么是变量吗? 那就举一个波动率的例子吧。波动率用来衡量数据偏离价格的水平,但与价格趋势无关。关于辅助变量的想法,我是从比尔·詹姆斯那里得来的。 比尔·詹姆斯的棒球统计数据和你的辅助变量之间有什么联系? 詹姆斯统计了基本数据,然后把不同类型的数据分开使之具有意义,而我从获取的价格数据区分出不同的量化指标,也就是辅助变量,价格与辅助变量合起来就能提供有意义的市场指标。 你所有的辅助变量都来自每日开盘价、最高价、最低价和收盘价这些数据吗? 当然。这就是我数据的全部来源。 你并不加入其他诸如GNP或者任何经济变量吗? 如果我能做的话我会的。事实上我试过了,但我不能有效地应用它们。 这些辅助变量如何建立交易系统呢? 我把不同的辅助变量糅合进趋势中性的模型中。 什么是趋势中性模型? 它们并不用来反映趋势的继续或者转向。它们只用来预测未来24小时市场的可能方向。 你的系统中有多少个模型? 一共有1000多个。 既然有这么多,你能不能给我举其中的一个例子,以便我更好地理解你的意思呢?仅给出1000个模型中的一个并不足以揭示系统中的意义吧。 问题是这些模型有着共同的特点,给你一个例子而不危害到我们的知识产权是很难的。 你们系统的发掘过程是看到一个市场中的图形结构并测试其有效性的东西,还是提出理论假设然后检验其有效性的东西呢? 我知道该怎么说了。 (他又起来找另一本书——这次是一本我写的书,《股市怪杰》。他翻了翻并找到了他要找的要点。) 这是个关键,要是不重要我是不会花时间这么做的。 (贾弗雷·伍德里夫开始读我对大卫·肖的采访。他翻过了几段引用,读起了当我问肖如何判断一个市场图形结构能够代表一个交易机会的时候肖的回答。) 你有越多的变量就意味着你可能会发现更多的人造数据,这也就让人越发难以判断你发现的结构是否有其预测价值。我们花了很大力气去避免落入“过度适应的数据”这个陷阱中……相比在数据中盲目地搜寻图形结构——一个自身内部有着方法性危害的办法,比如,自然科学和医疗研究社区,我们通常会建立一个基于一些结构性理论或者量化认识的假设,然后看看这个假设是否被数据支持。 (贾弗雷·伍德里夫强调说)我不这么做。我读这些只是为了说明一点,我做我不应该做的事,这确实是个有趣的发现,因为我应该失败才是。几乎所有人,要应用系统交易(和普遍的预测模型),必须从“这是一个在市场环境中合理的有效假设”这一框架入手。相反地,我确实是盲目地从数据中进行搜寻。 人们希望假设能够合乎逻辑,这是好事。但我认为这是有局限性的。我希望能够搜寻剩下的那些东西。我希望使这个过程自动进行。如果你把问题弄得非常确定,那么过度优化的问题就会被克服。我假设存在有效的图形结构,那么我宁愿测试上万亿个结构也不愿只做我能想到的几百个。 这个过程的一部分是手动的。那些用于建立价格预测模型的辅助变量必须要合乎逻辑。例如,价格驱动的数据,像波动率或者价格加速,可能提供重要信息。由价格驱动的辅助变量列表是我手动建立的。我有一个以任意形式组合辅助变量的模型来观察哪些有效。 我想把这项工作交给计算机,但我知道拥有后置偏好和解决过度优化是多么的重要。我仍在试着逆向求解那些我想出来的有趣模型。这些图形结构在市场中到底说明了什么心理,老实说我也还不清楚。 你从数以百计的辅助变量列表中选出辅助变量的组合并建立模型。由于你独特的挑选限制,那会产生上百万(如果没有上亿的话)个可能的组合。表面上看从这当中选出1000个模型像是一个数据挖掘的过程。 数据挖掘可以是一个十分有意义的过程,只不过大部分做数据挖掘的人都做得很糟。你可以做很多事以使数据挖掘有效,但并非每种数据都能这么做,有些数据是找不到有效性的。幸运的是,我对于存在非趋势跟踪、非反趋势模型的直觉是正确的。我的直觉是应该存在比趋势跟踪更复杂的自然图形结构。 为了避免数据挖掘的陷阱,你做了什么事? 你首先要做的就是明白表面有效的事情中有多少是错误的。 怎么实现呢? 这么说吧,与其训练目标变量,也就是之后24小时的价格变化,我会生成具有相同分布特性的随机数。我知道任何我选出来的得分很高的模型都是100%符合曲线的,因为它们是人为伪造的数据。经人造数据得到最优秀的模型就是基本标准。然后当你用真实数据的时候,你需要找到比这个基本标准表现好得多的模型。只有不同模型间表现的差别暗示了期望表现,并不是模型的全部表现都被训练了。 在数据挖掘中,人们犯的最严重的错误是什么? 很多人认为使用样本内的数据做训练,然后在样本外的数据中做测试是合适的。[5]他们按照模型在样本内数据中的表现把这些模型加以区分,然后选择表现最好的那些模型在样本外的数据中进行测试。人们倾向于选择那些在样本外数据中仍能够表现良好的模型交易。这种过程只不过是把样本外的数据变成了训练数据的一部分而已,因为它只选取了在样本外数据中表现最佳的模型。这就是人们犯的最普遍的错误,也是为什么当数据挖掘被应用时产生了糟糕结果。 那应该怎么做呢? 你可以在所有模型中找那些平均来说在样本外的数据中表现优异的图形结构。你知道如果这些样本外的模型在样本内的分数达到一个很高比例,你会表现得很好。总而言之,要是你的样本外结果超过样本内的50%,你就得到了有意义的东西。如果SAS和IBM造出了很棒的预测模型软件,那么QIM的商业模型就别想发挥作用了。 因为如果它们做到了,那么就会有很多人在金融建模时使用这些软件了是吗? 是有很多人这么做,但他们在使用这些软件时经历了很多挫折,结果他们做了错误的数据挖掘。 你为什么觉得你一个人能想出一个在金融市场中比这些有着海量博士的大公司开发出的软件更好的数据挖掘程序?
版权声明
本站素材均来源与互联网和网友投稿,欢迎学习分享
对冲基金知识详解(典藏版)----贾弗雷·伍德里夫——灰色地带3:http://www.yipindushu.com/shangyeshiye/4160.html
推荐文章
12-31
1 电子商务文案标题的写作技巧用数字01-05
2 档案如何做好管理制度11-29
3 电子商务写作文案分类09-12
4 根据情景选择恰当的回顾内容01-31
5 创业招商加盟店