易方达王建军:数据挖掘与因子研究

时间:2012-12-10

数量化投资组合管理(Quantitative Equity Portfolio Management)相对于传统的基本面选股投资组合管理方式在国内资产管理行业还属于新生事物。多因子模型是数量化投资组合管理方式在国内资产管理应用中的一个主要方向。而因子的评价及选择则是构建多因子模型的核心环节。

那什么是股票的因子呢?我们知道在统计学中通常用指标来衡量样本总体的数量特征,比如股票的均价,股价波动率、每股收益等等。数量化投资中应用的因子其实就是这些单一指标或多个指标合成的复合指标,例如用股价/每股收益=PE,那么PE也就是一个因子了。其实这里的因子和统计学中的指标这两个概念已经没有严格的区分了,所有的单一指标或复合指标都可以叫做一个因子。

到这里,我们知道股票因子本质就是在某个T时刻截面上样本股票的一个指标,其反应的是样本股票截面的信息。但是,从投资的角度我们更关注的是股票未来的收益,而收益则是时间维度上的指标。从截面维度的信息(股票因子)到时间维度指标(股票未来某个时间段内的收益)之间映射关系的研究,就是数量化投资中因子研究的本质。对于任意给定的时刻T之后某段时间内股票的收益(假设为r),在数值上我们总能搜索到T时刻某个截面因子(不妨假设为f)与收益r之间存在着较好的线性相关关系,这种单纯数值搜索的方法就是数据挖掘。

那什么是正确的因子研究方法呢?个人认为可以借助随机过程的相关理论来帮助认识和理解。统计学中的随机过程是研究随机变量在时间上的分布到截面分布的映射关系。平稳随机过程的遍历性证明一个平稳随机时间序列的均值和方差就是随机变量截面分布均值和方差的无偏、有效估计量。借用遍历性的概念,直觉上我们应该寻找的因子是指在时间维度上,对每个个股未来收益普遍存在驱动力的因子或指标。例如,价值投资大师巴菲特坚持认为买入估值相对股票自身而言足够便宜的股票总是能获得好的收益。这说明低估值水平(对个股自身而言,而不是个股之间相对关系)是股票未来收益的驱动力。所以我们可以认为PE具备成为一个好因子的必要条件,当然大量的实证研究也确实支持这个结论。因此,惟有在基本面逻辑、经济学理论及常识等支撑的条件下,我们才能在因子研究中避免掉入到单纯数据挖掘的陷阱之中。


                                 易方达基金 王建军

2012年12月

声明:本手记的观点、分析及预测仅代表作者个人意见,不代表易方达基金管理公司(以下简称“本公司”)立场,也不构成对阅读者的投资建议。本公司或本公司相关机构、雇员或代理人不对任何人使用此全部或部分内容的行为或由此而引致的任何损失承担任何责任。未经本公司事先书面许可,任何人不得将此报告或其任何部分以任何形式进行派发、复制、转载或发布,或对本专栏内容进行任何有悖原意的删节或修改。基金有风险,投资需谨慎。

"声明:本手记的观点、分析及预测仅代表作者个人意见,不代表易方达基金管理公司(以下简称“本公司”)立场,也不构成对阅读者的投资建议。本公司或本公司相关机构、雇员或代理人不对任何人使用此全部或部分内容的行为或由此而引致的任何损失承担任何责任。未经本公司事先书面许可,任何人不得将此报告或其任何部分以任何形式进行派发、复制、转载或发布,或对本专栏内容进行任何有悖原意的删节或修改。基金有风险,投资需谨慎。"