【#第一文档网# 导语】以下是®第一文档网的小编为您整理的《论文翻译》,欢迎阅读!

摘要
一个高维协方差估计有条件的稀疏结构和fast-diverging特征值。通过假设的错误协方差矩阵的近似因子模型,我们允许一些的存在横截面相关即使常见但不可见的因素。我们介绍主要的正交补阈值(诗人)方法探索这样一个近似因子结构稀疏。诗人估计量包括样本协方差矩阵,那些协方差矩阵(风扇,风扇,和Lv,2008),阈值估计量(Bickel Levina,2008)和自适应阈值估计量(Cai和刘,2011)作为具体的例子。我们提供非常,数学的见解时,因子分析大约是一样的校长成分分析高维数据。稀疏的收敛率残留的协方差矩阵和有条件的稀疏的协方差矩阵进行了研究在各种规范。结果表明,估计未知因素的影响消失随着维数的增加。联合国——统一的收敛率观察到的因素及其因素载荷。渐近结果也通过大量的仿真研究验证。最后,一个真正的数据应用程序投资组合分配。
关键词:高维、近似因子模型,未知因素,主要组件、稀疏矩阵,低秩矩阵,阈值,横向相关性, 不同特征值。
1介绍
信息技术使大型数据集被广泛用于科学发现。这些高维数据的统计分析涉及的评估协方差矩阵及其逆矩阵(精度)。例子包括投资组合管理和风险评估(风扇、风扇和Lv,2008),高维分类等 Fisher判别(黑斯蒂,Tibshirani弗里德曼,2009),(Meinshausen图形模型和Buhlmann,2006),统计推断等控制多个错误的发现测试(韭菜和层,2008;·埃夫隆,2010),发现基于纵向数据数量性状(Yap、风扇和吴,2009;熊et al . 2011年),和测试资本资产定价模型(Sentana,2009),等等。见第五节对于其中的一些应用程序。然而,维数往往与样本大小或更大。在这样的 已知情况下,样本协方差是表现不佳(约翰斯通,2001),和一些正规化是必要的。
意识到的重要性估计协方差矩阵和挑战带来的高维度,近年来研究者提出不同正则化技术来估计Σ一致。一个关键的假设是,协方差矩阵是稀疏的,即许多条目为零或接近于(Bickel Levina,罗斯曼等人,2008年2008年,林和2009粉丝,Cai和周,2010年,Cai和刘,2011)。然而,在许多应用程序,直接在Σ稀疏的假设是不合适的。为例子中,财务回报取决于股票市场的风险,取决于房价经济健康,基因表达式可以被细胞因子刺激,等等。由于共同因素的存在,是不现实的假设,许多不相关的结果。另一种方法是假设一个因素模型结构,在风扇,风扇和Lv(2008)。
然而,他们限制严格的因素模型与已知因素。自然延伸是有条件的贫乏。考虑到常见的因素,结果是弱相关的。为了这样做,我们考虑一个近似因子模型经济和金融研究中经常使用的(张伯伦和罗斯柴尔德1983;农夫和法国1993;白和Ng,2002等):
y it = b 0 i f t + u it . 这里y是第i个观察到的反应(i= 1,…,p)个人在时间t = 1,……T,i是一个向量的因子载荷;f t是一个K×1矢量的常见因素,uit是错误术语,通常被称为特殊组件,与f t。p和T分道扬镳 无限,而K假定固定在纸,和p可能是更大的比t。 我们只强调在模型(1.1),y是可观测的。它直观地表明未知的共同因素只能推断当有足够多的可靠情况下,也就是说,p→∞。在数据丰富的环境中,比T p可以分化速度更快。因素模型(1.1)可以把一个矩阵形式.
y t = Bf t + u t .
y,y t =(1 t,…、y pt)0 B =(B 1,…,b p)0 t和u =(1 t,u…,pt)0。我们是Σ感兴趣, y的p×p协方差矩阵t,及其逆,假定为定常。模型(1.1)下,Σ给出 Σ= Bcov(f t)B 0 +Σu,
Σu =(σu,ij)p×p t u的协方差矩阵。近似的文学因素模型通常假设Bcov第K特征值(f t)B 0分歧在O(p),而Σ你是有界的所有特征值作为p→∞。这种假设是容易当随处可见的因素,载荷应花费的一部分因素non-vanishing。然后渐近分解(1.3)确定为p→∞。在除了它,在本文中,我们假设Σu大约是稀疏Bickel和Levina罗斯曼(2008)和et al .(2009):对于一些问∈(0,1),
m p = maxi≤pXj≤p|σu,ij | q
不增长太快,p→∞。特别是,这包括确切的稀疏的假设(q= 0),m p = max我≤p,P j≤p I(σu,ij 6 = 0),非零元素的最大数量在每一行。
(1.2)的条件稀疏结构探讨了风扇,廖和Mincheva(2011)估计协方差矩阵,当{ f t }是可见的因素。这允许他们使用回归分析估计{ u t } tt = 1。本文处理的情况的因素是不可见的,必须推断。我们的方法很简单,optimization-free和它使用的数据只能通过样本协方差矩阵。运行 样本协方差矩阵奇异值分解BΣsamy t,使协方差矩阵形成的第一个K主成分,并应用阈值过程 剩下的协方差矩阵。这一结果主要正交补阈值(POET)的估计量。当K共同因素的数量是未知的,它可以估计的数据。见第二部分额外的细节。
我们将调查各种属性的POET在串行数据依赖的假设下,其中包括独立观察作为一个具体的例子。收敛的速度不同准则下估计Σ和Σu(逆)矩阵及其精度将派生。我们表明,估计未知因素对利率的影响.当plogp收敛消失?T,特别是Σu的收敛速度达到最优率Cai和周(2012)。
本文对高维静态因素模型(1.2),这是与生俱来的相关的主成分分析(PCA),在第二节澄清。这个特性使它不同于古典因素模型与固定维度(如。、域名和麦克斯韦1971)。在过去的十年当中,理论的估计和推断静态因素模型已经被开发出来,例如股票和沃森(1998、2002),白 Ng(2002)、白(2003),一打,Giannone和Reichlin(2011),等等。我们的贡献在估计协方差矩阵及其逆模型在很大因素。
静态模型认为本文是区别于动态因素模型在行为Hallin,里皮和Reichlin(2000);后者允许t y也依赖f t滞后的时间。他们的方法是基于特征值和主成分谱密度矩阵,在频域分析。此外,如行为所示和里皮(2001),动态因子模型并没有真正实施限制数据生成过程,和特质的假设(在他们的术语,P维过程是特殊的,如果其谱密度矩阵的所有特征值仍然有限作为p→∞)渐近标识y的分解成共同的组件和特殊的错误。文献包括,例如,弗尼et al .(2000、2004),
弗尼和里皮(2001),Hallin和李ˇ平方公里列阵(2007、2011),和许多其他的引用。最重要的是,这两个模型的静态和动态因素得到越来越多的关注应用程序通常是分散在许多领域的信息(非常)大相关的时间序列。
近年来已经有广泛的文学处理稀疏的校长组件,它们被广泛用于提高收敛的主要组件 在高维空间中。d 'Aspremont,巴赫和El Ghaoui(2008),沈和黄(2008),威滕、Tibshirani和黑斯蒂马(2009)和(2011)提出和研究不同算法计算。更多的文学稀疏主成分分析在约翰斯通和发现 陆(2009),Amini和温赖特(2009),张和El Ghaoui(2011),伯恩鲍姆等。(2012)等等。此外,还有越来越多的文学从理论上研究的复苏低秩和稀疏矩阵估计问题,例如,赖特et al。(2009),林et al。(2009),萤石的罗es et al .(2011),(2011),阿格沃尔,Nagahban,温赖特(2012),Pati et al。(2012)。它对应于可识别性问题我们的问题。
我们的模型有很大的区别,在前面提到的那些被认为是文学。在当前纸,Σ第K特征值上升和增长O率(p),而矩阵的特征值,研究了现有的文献协方差估计通常认为是有界或缓慢增长。由于这种独特的功能,常见的组件和特殊的组件确定,此外,PCA在样本协方差矩阵可以一致估计Σ跨越空间的特征向量。现有的阈值的方法直接或解决约束优化方法可以失败的飙升主要特征值。然而,这里是要付出代价的:作为第一个K特征值“飙升”,很难获得令人满意的收敛速度估算Σ绝对的术语,但它可以精确地估计相关名词(有关详细信息,请参阅第3.3节)。 此外,Σ−1可以准确估计。
我们愿进一步注意到低秩和稀疏表示的模型人口协方差矩阵,而萤石的es et al。(2011),赖特et al。(2009),林et al。(2009)1考虑这样一个数据矩阵表示。由于没有Σ估计,他们的目标是有限的生产低秩和稀疏矩阵分解的数据矩阵,对应于我们的研究的可识别性问题,和不 包括估计和推断。相比之下,我们的最终目标是估计的人口协方差矩阵以及精度矩阵。为了这个目的,我们需要特殊的组件和共同因素是不相关的,生成的数据严格固定的过程。本文考虑协方差是常数随着时间的推移,通过定位虽然slow-time-varying协方差矩阵是适用的(时域平滑)。我们的一致性结果Σu证明了分解(1.3)是可识别的,因此我们的研究结果也摆脱的“令人惊讶现象”萤石的es et al。(2011),一个可以独立的完全的稀疏矩阵低秩矩阵,只有这两个组件的总和。
剩下的文章安排如下。第二节给我们的评估程序之间的关系,构建主成分分析和因子分析在高维空间中。第三节提供了各种估计的渐近理论数量。第四部分说明了如何使用交叉验证和选择阈值保证积极的确定性在任何有限的样本。特定应用程序的正规化协方差矩阵在第五节给出。数值结果报道在第六节。最后,第七节提供了一个真实的数据应用程序投资组合配置。所有的证据都在附录中给出。在本文中,我们使用λmin(A)和λmax()来表示一个矩阵的最小和最大特征值。
2 通过主成分分析正规化的协方差矩阵
本文的主要目标有三:(i)理解之间的关系主成分分析(PCA)和高维因子分析;(2)估计协方差矩阵Σ和特殊Σu和矩阵的精度存在的常见因素,(3)调查估计未知的影响协方差估计的因素进行了讨论。下面的命题2.1节中显示的主成分空间跨越Σ接近空间的人口水平横跨的列因子载荷矩阵B。
本文来源:https://www.dy1993.cn/85z.html