凹凸性和Jensen不等式

时间:2024-04-13 15:23:07

参照:

1、凹凸性

1.1、同济大学高等数学定义

\qquad凹凸函数在同济大学高等数学中的定义符合人们的思维定式。在国际上的定义恰好与同济大学高等数学中的定义相反。
凹凸性和Jensen不等式

1.2、国际上的定义:

\qquad国际上的定义刚好与国内的凹凸函数的定义相反。二阶导数大于0,则为凸函数,有极小值;二阶导数小于0,则为凹函数,有极大值(后面涉及到的凹凸函数,均为国际上的定义);

\qquad例如:exe^x的二阶导数大于0,为凸函数;log xlog\ x的二阶导数小于0,为凹函数;

\qquad一元函数可以很容易的判断凹凸性,二元函数如何判断凹凸性?用到了海塞矩阵,根据海塞矩阵的正定性,判断凹凸性。

\qquad a)海塞矩阵
A=[2Zx22Zxy2Zyx2Zy2] A=\left[\begin{matrix} \dfrac{\partial^2Z}{\partial x^2} & \dfrac{\partial^2Z}{\partial x\partial y}\\ \\ \dfrac{\partial^2Z}{\partial y\partial x} & \dfrac{\partial^2Z}{\partial y^2} \end{matrix}\right]

\qquad b)正定矩阵
\qquad判断海塞矩阵是否为正定矩阵;若所有特征值均不小于零,则称为半正定若所有特征值均大于零,则称为正定。特征值怎么求?λEA=0|\lambda E-A|=0,可以求出特征值。若除主对角线上的元素都为0,则主对角线上的值为特征值。detA=A=detA=|A|=对角线元素积。

\qquad c)凹凸性判断(正定矩阵为凸函数):

\qquad例题1f(x,y)=x2+5y26x+10y+6f(x,y)=x^2+5y^2-6x+10y+6

\qquad海塞矩阵A:
A=[20010] A=\left[\begin{matrix} 2 & 0 \\ \\ 0 & 10 \end{matrix}\right]
\qquad所有的特征值均大于0,海塞矩阵为正定矩阵,函数为凸函数。

\qquad例题2f(x,y)=10(y2+4x)2+(14y)2f(x,y)=10(y^2+4x)^2+(1-4y)^2
\qquad海塞矩阵A:
A=[320160y160y120y2160x+32] A=\left[\begin{matrix} 320 & -160y \\ \\ -160y & 120y^2-160x+32 \end{matrix}\right]
\qquad根据特征值,决定函数的凹凸性。

2、Jensen不等式

2.1、特殊形式

\qquad针对于上述的凸函数,直观意义上的凸函数,有特殊形式:
f(a+b2)12(f(a)+f(b))=12f(a)+12f(b) f(\dfrac{a+b}{2}) \ge \dfrac{1}{2}(f(a) + f(b)) = \dfrac{1}{2} f(a) + \dfrac{1}{2} f(b)

2.2、简单引申

\qquad针对于上述的凸函数,λ\lambda相当于x1x_1的概率,1λ1-\lambda相当于x2x_2的概率,则有:
f(λx1+(1λ)x2)λf(x1)+(1λ)f(x2) f(\lambda x_1 + (1-\lambda) x_2) \ge \lambda f(x_1) + (1-\lambda)f(x_2)

2.3、延申拓展

\qquad针对于上述的凸函数,λj\lambda_jyjy_j概率,且有jλj=1,λj0\sum\limits_j\lambda_j=1,\lambda_j \ge 0,则有:
f(jλjyj)jλjf(yj) f(\sum_j \lambda_jy_j) \ge \sum_j\lambda_jf(y_j)

2.4、推论

\qquadf(x)f(x) 为区间RR上的凸函数,g(x):RRg(x):R→R 为一任意函数,XX 为一取值范围有限的离散变量, E[f(g(X))]E[f(g(X))]E[g(X)]E[g(X)] 都存在,则:
f(E[g(X)])E[f(g(X))] f(E[g(X)]) \ge E[f(g(X))]

\qquad证明:
f(E[g(X)])=f(i=1npig(xi))i=1npif(g(xi))=E[f(g(X))] f(E[g(X)]) =f(\sum_{i=1}^np_ig(x_i))\ge \sum_{i=1}^np_if(g(x_i)) = E[f(g(X))]