Factorization Machines 因式分解机原理

Factorization Machines 因式分解机原理

1. 概述

在使用线性模型，例如LR模型时，特征工程是很大一块工作，有时为了产生较好的效果需要人工进行一些特征的二维或者三维交叉。FM（Factorization machines）提供了一种思路可以自动进行特征交叉，同时能够处理非常稀疏数据，线性时间复杂度，计算简单。

由于FM实现简单效果非常好，而且应用范围非常广，FM是近期非常火的技术，在比赛或者大公司都非常常见。

2. FM优势

FM能够解决的问题及优点1：

FM能够解决分类和回归问题
FM能够代替SVD、SVD++等进行矩阵分解
FM可以处理非常稀疏数据，此时SVM等模型会失效
FM线性时间复杂度，计算简单
FM可表示性较强，FM将模型参数表示为K维向量，向量之间可以交叉运算，即使两个交叉特征没有对应训练数据，也能表示出权重。

3. 2维-FM

先回顾一下线性回归模型，其建模时采用的函数是：

\begin{matrix} (1) & \begin{aligned} \hat{y} (x) & = ω_{0} + ω_{1} x_{1} + ω_{2} x_{2} + \dots + ω_{n} x_{n} \\ = ω_{0} + \sum_{i = 1}^{n} ω_{i} x_{i} \end{aligned} \end{matrix}

从方程中可以看出各特征分量

x_{i}

和

x_{j} (i \neq j)

之间是相互孤立的，该模型仅考虑单个的特征分量，没有考虑特征分量之间的相互关系。

在 $(1)$ 的基础上改写为：

\begin{matrix} (2) & \begin{aligned} (1) & \hat{y} (x) = ω_{0} + \sum_{i = 1}^{n} ω_{i} x_{i} + \sum_{i = 1}^{n - 1} \sum_{j = i + 1}^{n} ω_{i j} x_{i} x_{j} \end{aligned} \end{matrix}

这样也将任意两个不同的特征向量之间的关系也考虑进来了。

但是，有一个问题就是，在稀疏数据中这种直接在 $x_{i} x_{j}$ 前面配上一个系数 $ω_{i j}$ 的方式会有很大的缺陷。因为对于观察样本中未出现过交互的特征分量，不能对相应的参数进行估计2。

一定要注意的是，在高度稀疏数据场景中，由于数据量的不足，样本中出现未交互的特征分量是很普遍的。

为了克服这个缺陷，我们在(2)中的系数 $ω_{i j}$ 上做文章，将其换成另外一种形式。针对每个维度的特征分量 $x_{i}$ ，引入辅助向量：

v_{i} = (v_{i 1}, v_{i 2}, \dots, v_{i k})^{T} \in R^{k}, i = 1, 2, \dots, n

其中

k

为超参数，将(2)中的

ω_{i j}

改写为：

{\hat{ω}}_{i j} = {v_{i}}^{T} v_{j} := \sum_{l = 1}^{k} v_{i l} x_{j l}

如此，我们可以获得FM的二维模型。

3.1 模型

对于2次特征交叉的FM模型可以表示为3：

\begin{matrix} (3) & y (x) = w_{0} + \sum_{i = 1}^{n} (w_{i} x_{i}) + \sum_{i = 1}^{n - 1} \sum_{j = i + 1}^{n} (< v_{i}, v_{j} > x_{i} x_{j}) \end{matrix}

其中模型参数有

w_{0}

为截距，

w_{i}

为一维特征权重，

v_{i}

为每一维度特征的分布式表示，也即

w_{0}

为整体偏置量，

W

对特征向量的每个分量的强度进行建模，

V

对特征向量中任意两个分量之间的关系进行建模。

其中特征交叉权重计算为:

\begin{matrix} (3.1) & < v_{i}, v_{j} >= \sum_{f = 1}^{k} v_{i, f} v_{j, f} \end{matrix}

3.2 二维-FM计算复杂度

如果对式子(1)直接进行计算，那么其复杂度是 $O (k n^{2})$ ，但是我们可以通过简单的数学变换将其转化为 $O (k n)$ ，由于前面两项的计算复杂度都是 $O (k n)$ ，所以我们只需要对第三项进行处理4：

\begin{matrix} (2) & \begin{aligned} (2) & \sum_{i = 1}^{n} \sum_{j = i + 1}^{n} (< v_{i}, v_{j} > x_{i} x_{j}) & = \frac{1}{2} \sum_{i = 1}^{n} \sum_{j = 1}^{n} (< v_{i}, v_{j} > x_{i} x_{j}) - \frac{1}{2} \sum_{i = 1}^{n} < v_{i}, v_{i} > x_{i} x_{i} \\ (3) & = \frac{1}{2} (\sum_{i = 1}^{n} \sum_{j = 1}^{n} \sum_{f = 1}^{k} (v_{i, f} v_{j_{f}} x_{i} x_{j}) - \sum_{i = 1}^{n} \sum_{f = 1}^{k} (v_{i, f} v_{i, f} x_{i} x_{i})) \\ (4) & = \frac{1}{2} \sum_{f = 1}^{k} ((\sum_{i = 1}^{n} v_{i, f} x_{i}) (\sum_{j = 1}^{n} v_{j, f} x_{j}) - \sum_{i = 1}^{n} v_{i, f}^{2} x_{i}^{2}) \\ (5) & = \frac{1}{2} \sum_{f = 1}^{k} ((\sum_{i = 1}^{n} v_{i, f} x_{i})^{2} - \sum_{i = 1}^{n} v_{i, f}^{2} x_{i}^{2}) \end{aligned} \end{matrix}

相当于特征分布式表示中每一维度和特征进行求和平方和平方求和相减。

3.2 二维-FM的梯度计算

采用SGD进行模型计算 :

\begin{matrix} (3) & \frac{\partial}{\partial θ} y (x) = {\begin{array}{l} 1, & i f θ i s ω_{0} \\ x_{i}, & i f θ i s ω_{i} \\ x_{i} \sum_{j = 1}^{n} v_{j, f} x_{j} - v_{i, f} x_{i}^{2}, & i f θ i s ν_{i, f} \end{array} \end{matrix}

基于随机梯度的方式求解5：

Factorization Machines 因式分解机

4. FM应用

在很多应用中，FM可以取代常用模型并且能够取得不错效果，例如

FM - SVM，能够处理稀疏特征
FM - MF
FM - SVD++
FM - PITF
FM - FPMC

具体可以参考论文介绍。

秒客网