今天有人问我主成分与因子分析在降维的时候如何选择?
我的解答是:
如果主成分的载荷矩阵可以让你方便地确定主成分和原始维度的关系并为主成分命名那就可以用主成分。
如果发现主成分的载荷矩阵的信息不容易分辨就采用因子分析,因为因子分析在多维空间上进行了旋转。旋转后的载荷矩阵最大程度上表达了各种不同因子与原始维度间的关系,能让你更方便地解读出降维后的因子与原始维度间的关系。
其实主成分就是因子分析的一个特例,主成分没有经过旋转。
我讲课的时候一般讲,把主成分理解为组合,因子分析理解为拆解。
所以如果从业务上你想做出来一个综合指标,比如文综成绩、理综成绩,可以尝试主成分。
如果你从业务中想找到原始维度的各种内因,就用因子分析,比如文章价值因子(对应原始维度比如文章收藏量,文章转发量),文章吸引力因子(比如原始维度为阅读量,阅读时长)。
这些是我对主成分和因子分析的理解。贴出来供大家讨论和修正。