特征学习/提取模型(extraction model):除了得到最终的线性模型外,将特征变换$\Phi$作为隐含的学习变量。
特征学习模型是拥有众多成员的大家族:
隐藏变量 | 线性模型 | extraction技术 | |
---|---|---|---|
神经网络/深度学习 | $w_{ij}^{(\ell)}$ | $w_{ij}^{(L)}$ | 梯度下降法+BP 自编码器(非监督学习) |
RBF网络 | 中心$\boldsymbol\mu_m$ | $\beta_m$ | k均值聚类(非监督学习) |
矩阵分解1 | 用户特征$\mathbf v_n$ | 电影特征$\mathbf w_m$ | 梯度下降法 交替最小二乘法 |
Ada/Gradient Boosting | 假设$g_t$ | 投票权重$\alpha_t$ | 函数梯度下降法 |
k最近邻算法 | 邻居$\mathbf x_n$ | $y_n$ | lazy learning |
特征学习模型的优劣:
优势 | 坏处 |
---|---|
容易:减轻了人工提取特征的负担 | 困难:通常是非凸优化 |
强大:如果有足够多的隐含变量 | 过拟合:需要正则化或验证 |
因此,使用特征学习模型要当心!
参考资料
脚注
-
$\mathbf v_n$和$\mathbf w_m$实际上是对称的(等价的)。 ↩