函数的凸性(convexity)是除了函数单调性之外的又一个重要性质,这里我们以一元实函数为例研究。注意在不同的教材中定义凸函数可能完全相反。
目录
1 一元情形
1.1 定义
1.2 等价刻画
1.2.1 一般性前提
1.2.2 连续性前提
1.2.3 可导性前提
1.2.4 二阶可导性前提
1.3 性质
2 多元情形及推广
3 Jensen 不等式
4 一致凸性
5 参考资料
一元情形[]
定义[]
设定义在区间
I
{\displaystyle I}
上的函数(不必连续)对任意的
x
1
,
x
2
∈
I
{\displaystyle x_1, x_2 \in I}
和
θ
∈
[
0
,
1
]
{\displaystyle \theta \in [0, 1]}
,都成立关系式
f
(
θ
x
1
+
(
1
−
θ
)
x
2
)
⩽
θ
f
(
x
1
)
+
(
1
−
θ
)
f
(
x
2
)
,
{\displaystyle f(\theta x_{1}+(1-\theta )x_{2})\leqslant \theta f(x_{1})+(1-\theta )f(x_{2}),}
我们就说函数
f
(
x
)
{\displaystyle f(x)}
是区间
I
{\displaystyle I}
上的凸函数(或上凸函数,convex function),
I
{\displaystyle I}
是
f
(
x
)
{\displaystyle f(x)}
的凸区间,如果将上述等式中的大于等于改为小于等于,我们就说该函数是一个凹函数(或下凸函数),
I
{\displaystyle I}
是
f
(
x
)
{\displaystyle f(x)}
的凹区间。如果上述等式取不到,我们就说该函数是严格凸(凹)的。以下性质我们主要针对上凸函数叙述。
通俗来理解,凸函数是区间
I
{\displaystyle I}
上函数图像之上的区域为凸集的函数:在该图像上方的区域中,任取两点,它们的连线全在该区域中;凹函数是区间
I
{\displaystyle I}
上函数图像之下的区域为凸集的函数。
等价刻画[]
这里我们给出凸函数的几个等价刻画,它们比定义更常用,尤其是可导函数和二阶可导函数的等价刻画。
一般性前提[]
设
f
(
x
)
{\displaystyle f(x)}
是区间
(
a
,
b
)
{\displaystyle (a,b)}
上的函数(不必连续),以下四款等价:
f
(
x
)
{\displaystyle f(x)}
是凸函数;
f
(
x
3
)
−
f
(
x
1
)
x
3
−
x
1
⩽
f
(
x
3
)
−
f
(
x
2
)
x
3
−
x
2
,
∀
x
1
<
x
2
<
x
3
∈
(
a
,
b
)
.
{\displaystyle \dfrac{f(x_3) - f(x_1)}{x_3 - x_1} \leqslant \dfrac{f(x_3) - f(x_2)}{x_3 - x_2}, \quad \forall x_1 < x_2 < x_3 \in (a, b).}
可以通过画三角形研究割线斜率的方式通俗理解;
|
1
x
1
f
(
x
1
)
1
x
2
f
(
x
2
)
1
x
3
f
(
x
3
)
|
⩾
0
,
∀
x
1
<
x
2
<
x
3
∈
(
a
,
b
)
;
{\displaystyle \begin{vmatrix} 1 & x_1 & f(x_1) \\ 1 & x_2 & f(x_2) \\ 1 & x_3 & f(x_3) \end{vmatrix} \geqslant 0, \quad \forall x_1 < x_2 < x_3 \in (a, b);}
(三角形的定向面积之倍)
(
x
3
−
x
2
)
f
(
x
1
)
+
(
x
1
−
x
3
)
f
(
x
2
)
+
(
x
2
−
x
1
)
f
(
x
3
)
(
x
3
−
x
2
)
(
x
1
−
x
3
)
(
x
2
−
x
1
)
⩽
0
,
∀
x
1
,
x
2
,
x
3
∈
(
a
,
b
)
.
{\displaystyle \dfrac{(x_3 - x_2) f(x_1) + (x_1 - x_3)f(x_2) + (x_2 - x_1)f(x_3)}{(x_3 - x_2) (x_1 - x_3) (x_2 - x_1)} \leqslant 0, \quad \forall x_1, x_2, x_3 \in(a, b).}
对任意的
x
0
∈
(
a
,
b
)
,
∃
β
∈
R
{\displaystyle x_0 \in (a, b), \exists \beta \in \R}
使得
f
(
x
)
−
f
(
x
0
)
⩾
β
(
x
−
x
0
)
.
{\displaystyle f(x) - f(x_0) \geqslant \beta (x - x_0).}
当
f
{\displaystyle f}
可导的时候,
β
{\displaystyle \beta}
的最佳常数是
f
′
(
x
0
)
.
{\displaystyle f'(x_0).}
上述刻画中我们没有考虑端点,实际上,闭区间
[
a
,
b
]
{\displaystyle [a, b]}
上的凸函数,除了在开区间
(
a
,
b
)
{\displaystyle (a,b)}
上满足上述某条之外,只需在端点处满足下面的等式即可:
f
(
a
)
⩾
lim
x
→
a
+
f
(
x
)
,
f
(
b
)
⩾
lim
x
→
b
−
f
(
x
)
.
{\displaystyle f(a) \geqslant \lim_{x \to a^+} f(x), \qquad f(b) \geqslant \lim_{x \to b^-} f(x).}
它和上述等价刻画中第二条是兼容的。
连续性前提[]
设
f
(
x
)
{\displaystyle f(x)}
在
(
a
,
b
)
{\displaystyle (a,b)}
上连续,那么以下两款等价:
f
(
x
)
{\displaystyle f(x)}
是凸函数;
任意子区间中点函数值小于等于积分平均值:
f
(
x
1
+
x
2
2
)
⩽
1
x
2
−
x
1
∫
x
1
x
2
f
(
t
)
d
t
,
∀
x
1
,
x
2
∈
(
a
,
b
)
.
{\displaystyle f\left(\dfrac{x_1+x_2}{2} \right) \leqslant \dfrac{1}{x_2-x_1} \int_{x_1}^{x_2} f(t) \mathrm{d}t, \quad \forall x_1, x_2 \in (a, b).}
可导性前提[]
设
f
(
x
)
{\displaystyle f(x)}
在
(
a
,
b
)
{\displaystyle (a,b)}
上可导,那么以下三款等价:
f
(
x
)
{\displaystyle f(x)}
是凸函数;
导数
f
′
(
x
)
{\displaystyle f'(x)}
在
(
a
,
b
)
{\displaystyle (a,b)}
上单调递增。这是利用一阶导数判断函数凸性的方法;
函数
f
(
x
)
{\displaystyle f(x)}
的图像总是位于每一点的切线的上方,即
f
(
x
)
⩾
f
(
x
0
)
+
f
′
(
x
0
)
(
x
−
x
0
)
,
∀
x
,
x
0
∈
(
a
,
b
)
.
{\displaystyle f(x) \geqslant f(x_0) + f'(x_0)(x - x_0), \forall x, x_0 \in (a, b).}
二阶可导性前提[]
设
f
(
x
)
{\displaystyle f(x)}
在
(
a
,
b
)
{\displaystyle (a,b)}
上二阶可导,
f
(
x
)
{\displaystyle f(x)}
是(严格)凸函数当且仅当导数
f
″
(
x
)
{\displaystyle f''(x)}
在
(
a
,
b
)
{\displaystyle (a,b)}
上恒正(恒非负)。这是利用二阶导数判断函数凸性的方法。
性质[]
自身性质:
凸函数不必连续,实际上,闭区间
[
a
,
b
]
{\displaystyle [a, b]}
上的凸函数至多可以有两个不连续点(若有,则在端点处),整个函数在开区间
(
a
,
b
)
{\displaystyle (a,b)}
上是连续的;
凸函数不必可导,即使是限制在开区间上的凸函数也一样,考察
f
(
x
)
=
|
x
|
{\displaystyle f(x) = |x|}
,进而凸函数不必二阶可导;
凸函数最多有一个极值点,或者没有,极值点可以取在开区间内,实际上,凸函数只可能在它的定义区间中要么单调递增,要么先单调递减再单调递增;
凸函数
f
(
x
)
{\displaystyle f(x)}
的相反数
−
f
(
x
)
{\displaystyle -f(x)}
是凹函数,由定义显然可知;
有限开区间上的有界凸函数必定在端点处存在单侧极限;
闭区间上的连续凸函数
f
(
x
)
{\displaystyle f(x)}
,如果导数在端点处存在单侧极限,那么
f
(
x
)
{\displaystyle f(x)}
是 Lipschitz 连续的。
凸函数对运算的兼容性:
两个凸函数的和仍是凸函数,差不一定;
两个非负的单调递增凸函数的积一定是凸函数;
两个凸函数在开区间上的取最大值函数也是凸函数;
复合函数的凸性:设
f
(
x
)
{\displaystyle f(x)}
是
(
a
,
b
)
{\displaystyle (a,b)}
,
f
(
x
)
∈
(
c
,
d
)
{\displaystyle f(x) \in (c, d)}
,且
g
(
x
)
{\displaystyle g(x)}
是
(
c
,
d
)
{\displaystyle (c,d)}
上的单调递增凸函数,那么
g
(
f
(
x
)
)
{\displaystyle g(f(x))}
是
(
a
,
b
)
{\displaystyle (a,b)}
上的凸函数。
多元情形及推广[]
一般的凸函数可以在任意赋范线性空间中的凸集上定义,
假设有赋范线性空间
X
{\displaystyle X}
及其中的一个凸集
C
{\displaystyle C}
,实泛函
f
:
C
→
R
{\displaystyle f: C \to \R}
被称为是凸函数,是指它满足如下的凸不等式:
∀
x
,
y
∈
C
,
∀
θ
∈
(
0
,
1
)
,
f
(
θ
x
+
(
1
−
θ
y
)
)
⩽
θ
f
(
x
)
+
(
1
−
θ
)
f
(
y
)
.
{\displaystyle \forall x, y \in C, \forall \theta \in (0, 1), \quad f(\theta x + (1-\theta y)) \leqslant \theta f(x) + (1-\theta) f(y).}
称其为严格凸的是指上述不等式对
θ
∈
(
0
,
1
)
,
x
≠
y
{\displaystyle \theta \in (0, 1), x \ne y}
严格成立。如果泛函
f
:
C
→
R
{\displaystyle f: C \to \R}
是 连续可微的,如果满足:
⟨
f
′
(
u
)
−
f
′
(
v
)
,
u
−
v
⟩
⩾
0.
{\displaystyle \langle f'(u) - f'(v), u - v \rangle \geqslant 0.}
那么它是凸泛函汉,入宫上述不等式对任意
u
≠
v
{\displaystyle u \ne v}
严格成立,那么它是严格凸泛函。
特别地,
R
n
{\displaystyle \R^n}
上的多元凸函数
f
(
x
)
{\displaystyle f(x)}
也有性质:
∀
x
∈
C
,
∃
β
∈
R
,
∀
y
∈
C
,
f
(
y
)
−
f
(
x
)
⩾
β
(
y
−
x
)
.
{\displaystyle \forall x \in C, \exists \beta \in \R, \forall y \in C, \quad f(y) - f(x) \geqslant \beta (y - x).}
如果
f
(
x
)
{\displaystyle f(x)}
在凸集
E
{\displaystyle E}
上二阶可微,那么
f
(
x
)
{\displaystyle f(x)}
是凸函数当且仅当
∀
x
∈
E
,
H
(
f
)
⩾
0
{\displaystyle \forall x \in E, H(f) \geqslant 0}
,
H
(
f
)
{\displaystyle H(f)}
是 Hesse 矩阵。
如果
f
{\displaystyle f}
是凸集
C
{\displaystyle C}
上的凸函数,那么对任意实数
t
∈
R
{\displaystyle t \in \mathbb{R} }
,集合
f
t
:=
{
x
∈
C
:
f
(
x
)
⩽
t
}
{\displaystyle f_t := \{ x \in C: f(x) \leqslant t \}}
是凸集,反过来也是对的。
Jensen 不等式[]
和凸函数相关最密切的一个不等式,也是使用频率最高的,它可以证明某些典型的不等式。
设函数
f
(
x
)
{\displaystyle f(x)}
是凸集
C
{\displaystyle C}
上的凸函数,对任意
{
x
k
}
k
=
1
n
⊂
C
{\displaystyle \{x_k\}_{k=1}^n \subset C}
和任意满足
∑
k
=
1
n
ω
k
=
1
{\displaystyle \sum_{k=1}^n \omega_k = 1}
的
{
ω
k
}
k
=
1
n
⊂
[
0
,
1
]
{\displaystyle \{\omega_k\}_{k=1}^n \subset [0, 1]}
都有
f
(
∑
k
=
1
n
ω
k
x
k
)
⩽
∑
k
=
1
n
ω
k
f
(
x
k
)
.
{\displaystyle f\left( \sum_{k=1}^n \omega_k x_k \right) \leqslant \sum_{k=1}^n \omega_k f(x_k).}
其中,
ω
k
{\displaystyle \omega_k}
也称作是
x
k
{\displaystyle x_k}
的权。上述不等关系是说:加权平均的凸像小于等于凸像的加权平均。
一致凸性[]
一个二阶可微的一元实函数
f
(
x
)
{\displaystyle f(x)}
在区间
I
{\displaystyle I}
上称为是一致凸的(uniformly convex),是指存在
θ
>
0
{\displaystyle \theta > 0}
,对任意
x
∈
E
{\displaystyle x \in E}
都有
f
″
(
x
)
⩾
θ
.
{\displaystyle f''(x) \geqslant \theta.}
一个
n
{\displaystyle n}
元函数
f
(
x
)
{\displaystyle f(x)}
在凸集
E
⊂
R
n
{\displaystyle E \subset \R^n}
上称为是一致凸的,是指存在
θ
>
0
{\displaystyle \theta > 0}
,
H
(
f
)
⩾
θ
E
n
{\displaystyle H(f) \geqslant \theta E_n}
,即
ξ
T
H
(
f
)
ξ
⩾
θ
ξ
T
ξ
,
∀
ξ
∈
R
n
,
x
∈
E
.
{\displaystyle \xi^\text{T} H(f) \xi \geqslant \theta \xi^\text{T} \xi, \forall \xi \in \R^n, x \in E.}
参考资料欧阳光中, 朱学炎, 金福临, 陈传璋, 《数学分析》, 高等教育出版社, 北京, 2018-08, ISBN 978-7-0404-9718-2.
微分学(学科代码:1103410,GB/T 13745—2009)
极限论
数列 ▪ 数列极限 ▪ 上极限和下极限 ▪ 无穷小量以及无穷大量 ▪ 两面夹法则 ▪ Stolz 定理 ▪ Toeplitz 定理 ▪ Stirling 公式 ▪ 函数极限 ▪ 第二重要极限 ▪ 不定型极限与 L' Hospital 法则 ▪ Heine 定理
一元连续性
连续函数 ▪ 间断点 ▪ 一致连续 ▪ Cantor 一致连续性定理 ▪ Lipschitz 连续和 Hölder 连续 ▪ 基本初等函数 ▪ 幂平均
一元微分
导数 ▪ 基本初等函数的导数 ▪ 求导法则 ▪ 高阶导数 ▪ 莱布尼兹公式(高阶导数) ▪ 微分以及差分 ▪ Darboux 定理 ▪ 零点定理
中值定理微分的应用
Fermat 定理 ▪ Rolle 定理 ▪ Lagrange 中值定理 ▪ Cauchy 中值定理 ▪ Taylor 公式 ▪ 函数极值 ▪ 函数凸性 ▪ 渐近线 ▪ 曲线的曲率
多元极限多元微分
Euclid 空间点集 ▪ Euclid 空间中的基本定理 ▪ 多元函数 ▪ 多元函数的连续性 ▪ 偏导数 ▪ 全微分 ▪ 隐函数求导法 ▪ 方向导数 ▪ 多元 Taylor 展开 ▪ 多元函数的极值 ▪ 多元函数的条件极值与 Lagrange 乘数法 ▪ 隐函数
所在位置:数学(110)→ 数学分析(11034)→ 微分学(1103410)