函数凸性

函数凸性

函数的凸性(convexity)是除了函数单调性之外的又一个重要性质,这里我们以一元实函数为例研究。注意在不同的教材中定义凸函数可能完全相反。

目录

1 一元情形

1.1 定义

1.2 等价刻画

1.2.1 一般性前提

1.2.2 连续性前提

1.2.3 可导性前提

1.2.4 二阶可导性前提

1.3 性质

2 多元情形及推广

3 Jensen 不等式

4 一致凸性

5 参考资料

一元情形[]

定义[]

设定义在区间

I

{\displaystyle I}

上的函数(不必连续)对任意的

x

1

,

x

2

I

{\displaystyle x_1, x_2 \in I}

θ

[

0

,

1

]

{\displaystyle \theta \in [0, 1]}

,都成立关系式

f

(

θ

x

1

+

(

1

θ

)

x

2

)

θ

f

(

x

1

)

+

(

1

θ

)

f

(

x

2

)

,

{\displaystyle f(\theta x_{1}+(1-\theta )x_{2})\leqslant \theta f(x_{1})+(1-\theta )f(x_{2}),}

我们就说函数

f

(

x

)

{\displaystyle f(x)}

是区间

I

{\displaystyle I}

上的凸函数(或上凸函数,convex function),

I

{\displaystyle I}

f

(

x

)

{\displaystyle f(x)}

的凸区间,如果将上述等式中的大于等于改为小于等于,我们就说该函数是一个凹函数(或下凸函数),

I

{\displaystyle I}

f

(

x

)

{\displaystyle f(x)}

的凹区间。如果上述等式取不到,我们就说该函数是严格凸(凹)的。以下性质我们主要针对上凸函数叙述。

通俗来理解,凸函数是区间

I

{\displaystyle I}

上函数图像之上的区域为凸集的函数:在该图像上方的区域中,任取两点,它们的连线全在该区域中;凹函数是区间

I

{\displaystyle I}

上函数图像之下的区域为凸集的函数。

等价刻画[]

这里我们给出凸函数的几个等价刻画,它们比定义更常用,尤其是可导函数和二阶可导函数的等价刻画。

一般性前提[]

f

(

x

)

{\displaystyle f(x)}

是区间

(

a

,

b

)

{\displaystyle (a,b)}

上的函数(不必连续),以下四款等价:

f

(

x

)

{\displaystyle f(x)}

是凸函数;

f

(

x

3

)

f

(

x

1

)

x

3

x

1

f

(

x

3

)

f

(

x

2

)

x

3

x

2

,

x

1

<

x

2

<

x

3

(

a

,

b

)

.

{\displaystyle \dfrac{f(x_3) - f(x_1)}{x_3 - x_1} \leqslant \dfrac{f(x_3) - f(x_2)}{x_3 - x_2}, \quad \forall x_1 < x_2 < x_3 \in (a, b).}

可以通过画三角形研究割线斜率的方式通俗理解;

|

1

x

1

f

(

x

1

)

1

x

2

f

(

x

2

)

1

x

3

f

(

x

3

)

|

0

,

x

1

<

x

2

<

x

3

(

a

,

b

)

;

{\displaystyle \begin{vmatrix} 1 & x_1 & f(x_1) \\ 1 & x_2 & f(x_2) \\ 1 & x_3 & f(x_3) \end{vmatrix} \geqslant 0, \quad \forall x_1 < x_2 < x_3 \in (a, b);}

(三角形的定向面积之倍)

(

x

3

x

2

)

f

(

x

1

)

+

(

x

1

x

3

)

f

(

x

2

)

+

(

x

2

x

1

)

f

(

x

3

)

(

x

3

x

2

)

(

x

1

x

3

)

(

x

2

x

1

)

0

,

x

1

,

x

2

,

x

3

(

a

,

b

)

.

{\displaystyle \dfrac{(x_3 - x_2) f(x_1) + (x_1 - x_3)f(x_2) + (x_2 - x_1)f(x_3)}{(x_3 - x_2) (x_1 - x_3) (x_2 - x_1)} \leqslant 0, \quad \forall x_1, x_2, x_3 \in(a, b).}

对任意的

x

0

(

a

,

b

)

,

β

R

{\displaystyle x_0 \in (a, b), \exists \beta \in \R}

使得

f

(

x

)

f

(

x

0

)

β

(

x

x

0

)

.

{\displaystyle f(x) - f(x_0) \geqslant \beta (x - x_0).}

f

{\displaystyle f}

可导的时候,

β

{\displaystyle \beta}

的最佳常数是

f

(

x

0

)

.

{\displaystyle f'(x_0).}

上述刻画中我们没有考虑端点,实际上,闭区间

[

a

,

b

]

{\displaystyle [a, b]}

上的凸函数,除了在开区间

(

a

,

b

)

{\displaystyle (a,b)}

上满足上述某条之外,只需在端点处满足下面的等式即可:

f

(

a

)

lim

x

a

+

f

(

x

)

,

f

(

b

)

lim

x

b

f

(

x

)

.

{\displaystyle f(a) \geqslant \lim_{x \to a^+} f(x), \qquad f(b) \geqslant \lim_{x \to b^-} f(x).}

它和上述等价刻画中第二条是兼容的。

连续性前提[]

f

(

x

)

{\displaystyle f(x)}

(

a

,

b

)

{\displaystyle (a,b)}

上连续,那么以下两款等价:

f

(

x

)

{\displaystyle f(x)}

是凸函数;

任意子区间中点函数值小于等于积分平均值:

f

(

x

1

+

x

2

2

)

1

x

2

x

1

x

1

x

2

f

(

t

)

d

t

,

x

1

,

x

2

(

a

,

b

)

.

{\displaystyle f\left(\dfrac{x_1+x_2}{2} \right) \leqslant \dfrac{1}{x_2-x_1} \int_{x_1}^{x_2} f(t) \mathrm{d}t, \quad \forall x_1, x_2 \in (a, b).}

可导性前提[]

f

(

x

)

{\displaystyle f(x)}

(

a

,

b

)

{\displaystyle (a,b)}

上可导,那么以下三款等价:

f

(

x

)

{\displaystyle f(x)}

是凸函数;

导数

f

(

x

)

{\displaystyle f'(x)}

(

a

,

b

)

{\displaystyle (a,b)}

上单调递增。这是利用一阶导数判断函数凸性的方法;

函数

f

(

x

)

{\displaystyle f(x)}

的图像总是位于每一点的切线的上方,即

f

(

x

)

f

(

x

0

)

+

f

(

x

0

)

(

x

x

0

)

,

x

,

x

0

(

a

,

b

)

.

{\displaystyle f(x) \geqslant f(x_0) + f'(x_0)(x - x_0), \forall x, x_0 \in (a, b).}

二阶可导性前提[]

f

(

x

)

{\displaystyle f(x)}

(

a

,

b

)

{\displaystyle (a,b)}

上二阶可导,

f

(

x

)

{\displaystyle f(x)}

是(严格)凸函数当且仅当导数

f

(

x

)

{\displaystyle f''(x)}

(

a

,

b

)

{\displaystyle (a,b)}

上恒正(恒非负)。这是利用二阶导数判断函数凸性的方法。

性质[]

自身性质:

凸函数不必连续,实际上,闭区间

[

a

,

b

]

{\displaystyle [a, b]}

上的凸函数至多可以有两个不连续点(若有,则在端点处),整个函数在开区间

(

a

,

b

)

{\displaystyle (a,b)}

上是连续的;

凸函数不必可导,即使是限制在开区间上的凸函数也一样,考察

f

(

x

)

=

|

x

|

{\displaystyle f(x) = |x|}

,进而凸函数不必二阶可导;

凸函数最多有一个极值点,或者没有,极值点可以取在开区间内,实际上,凸函数只可能在它的定义区间中要么单调递增,要么先单调递减再单调递增;

凸函数

f

(

x

)

{\displaystyle f(x)}

的相反数

f

(

x

)

{\displaystyle -f(x)}

是凹函数,由定义显然可知;

有限开区间上的有界凸函数必定在端点处存在单侧极限;

闭区间上的连续凸函数

f

(

x

)

{\displaystyle f(x)}

,如果导数在端点处存在单侧极限,那么

f

(

x

)

{\displaystyle f(x)}

是 Lipschitz 连续的。

凸函数对运算的兼容性:

两个凸函数的和仍是凸函数,差不一定;

两个非负的单调递增凸函数的积一定是凸函数;

两个凸函数在开区间上的取最大值函数也是凸函数;

复合函数的凸性:设

f

(

x

)

{\displaystyle f(x)}

(

a

,

b

)

{\displaystyle (a,b)}

f

(

x

)

(

c

,

d

)

{\displaystyle f(x) \in (c, d)}

,且

g

(

x

)

{\displaystyle g(x)}

(

c

,

d

)

{\displaystyle (c,d)}

上的单调递增凸函数,那么

g

(

f

(

x

)

)

{\displaystyle g(f(x))}

(

a

,

b

)

{\displaystyle (a,b)}

上的凸函数。

多元情形及推广[]

一般的凸函数可以在任意赋范线性空间中的凸集上定义,

假设有赋范线性空间

X

{\displaystyle X}

及其中的一个凸集

C

{\displaystyle C}

,实泛函

f

:

C

R

{\displaystyle f: C \to \R}

被称为是凸函数,是指它满足如下的凸不等式:

x

,

y

C

,

θ

(

0

,

1

)

,

f

(

θ

x

+

(

1

θ

y

)

)

θ

f

(

x

)

+

(

1

θ

)

f

(

y

)

.

{\displaystyle \forall x, y \in C, \forall \theta \in (0, 1), \quad f(\theta x + (1-\theta y)) \leqslant \theta f(x) + (1-\theta) f(y).}

称其为严格凸的是指上述不等式对

θ

(

0

,

1

)

,

x

y

{\displaystyle \theta \in (0, 1), x \ne y}

严格成立。如果泛函

f

:

C

R

{\displaystyle f: C \to \R}

是 连续可微的,如果满足:

f

(

u

)

f

(

v

)

,

u

v

0.

{\displaystyle \langle f'(u) - f'(v), u - v \rangle \geqslant 0.}

那么它是凸泛函汉,入宫上述不等式对任意

u

v

{\displaystyle u \ne v}

严格成立,那么它是严格凸泛函。

特别地,

R

n

{\displaystyle \R^n}

上的多元凸函数

f

(

x

)

{\displaystyle f(x)}

也有性质:

x

C

,

β

R

,

y

C

,

f

(

y

)

f

(

x

)

β

(

y

x

)

.

{\displaystyle \forall x \in C, \exists \beta \in \R, \forall y \in C, \quad f(y) - f(x) \geqslant \beta (y - x).}

如果

f

(

x

)

{\displaystyle f(x)}

在凸集

E

{\displaystyle E}

上二阶可微,那么

f

(

x

)

{\displaystyle f(x)}

是凸函数当且仅当

x

E

,

H

(

f

)

0

{\displaystyle \forall x \in E, H(f) \geqslant 0}

H

(

f

)

{\displaystyle H(f)}

是 Hesse 矩阵。

如果

f

{\displaystyle f}

是凸集

C

{\displaystyle C}

上的凸函数,那么对任意实数

t

R

{\displaystyle t \in \mathbb{R} }

,集合

f

t

:=

{

x

C

:

f

(

x

)

t

}

{\displaystyle f_t := \{ x \in C: f(x) \leqslant t \}}

是凸集,反过来也是对的。

Jensen 不等式[]

和凸函数相关最密切的一个不等式,也是使用频率最高的,它可以证明某些典型的不等式。

设函数

f

(

x

)

{\displaystyle f(x)}

是凸集

C

{\displaystyle C}

上的凸函数,对任意

{

x

k

}

k

=

1

n

C

{\displaystyle \{x_k\}_{k=1}^n \subset C}

和任意满足

k

=

1

n

ω

k

=

1

{\displaystyle \sum_{k=1}^n \omega_k = 1}

{

ω

k

}

k

=

1

n

[

0

,

1

]

{\displaystyle \{\omega_k\}_{k=1}^n \subset [0, 1]}

都有

f

(

k

=

1

n

ω

k

x

k

)

k

=

1

n

ω

k

f

(

x

k

)

.

{\displaystyle f\left( \sum_{k=1}^n \omega_k x_k \right) \leqslant \sum_{k=1}^n \omega_k f(x_k).}

其中,

ω

k

{\displaystyle \omega_k}

也称作是

x

k

{\displaystyle x_k}

的权。上述不等关系是说:加权平均的凸像小于等于凸像的加权平均。

一致凸性[]

一个二阶可微的一元实函数

f

(

x

)

{\displaystyle f(x)}

在区间

I

{\displaystyle I}

上称为是一致凸的(uniformly convex),是指存在

θ

>

0

{\displaystyle \theta > 0}

,对任意

x

E

{\displaystyle x \in E}

都有

f

(

x

)

θ

.

{\displaystyle f''(x) \geqslant \theta.}

一个

n

{\displaystyle n}

元函数

f

(

x

)

{\displaystyle f(x)}

在凸集

E

R

n

{\displaystyle E \subset \R^n}

上称为是一致凸的,是指存在

θ

>

0

{\displaystyle \theta > 0}

H

(

f

)

θ

E

n

{\displaystyle H(f) \geqslant \theta E_n}

,即

ξ

T

H

(

f

)

ξ

θ

ξ

T

ξ

,

ξ

R

n

,

x

E

.

{\displaystyle \xi^\text{T} H(f) \xi \geqslant \theta \xi^\text{T} \xi, \forall \xi \in \R^n, x \in E.}

参考资料欧阳光中, 朱学炎, 金福临, 陈传璋, 《数学分析》, 高等教育出版社, 北京, 2018-08, ISBN 978-7-0404-9718-2.

微分学(学科代码:1103410,GB/T 13745—2009)

极限论

数列 ▪ 数列极限 ▪ 上极限和下极限 ▪ 无穷小量以及无穷大量 ▪ 两面夹法则 ▪ Stolz 定理 ▪ Toeplitz 定理 ▪ Stirling 公式 ▪ 函数极限 ▪ 第二重要极限 ▪ 不定型极限与 L' Hospital 法则 ▪ Heine 定理

一元连续性

连续函数 ▪ 间断点 ▪ 一致连续 ▪ Cantor 一致连续性定理 ▪ Lipschitz 连续和 Hölder 连续 ▪ 基本初等函数 ▪ 幂平均

一元微分

导数 ▪ 基本初等函数的导数 ▪ 求导法则 ▪ 高阶导数 ▪ 莱布尼兹公式(高阶导数) ▪ 微分以及差分 ▪ Darboux 定理 ▪ 零点定理

中值定理微分的应用

Fermat 定理 ▪ Rolle 定理 ▪ Lagrange 中值定理 ▪ Cauchy 中值定理 ▪ Taylor 公式 ▪ 函数极值 ▪ 函数凸性 ▪ 渐近线 ▪ 曲线的曲率

多元极限多元微分

Euclid 空间点集 ▪ Euclid 空间中的基本定理 ▪ 多元函数 ▪ 多元函数的连续性 ▪ 偏导数 ▪ 全微分 ▪ 隐函数求导法 ▪ 方向导数 ▪ 多元 Taylor 展开 ▪ 多元函数的极值 ▪ 多元函数的条件极值与 Lagrange 乘数法 ▪ 隐函数

所在位置:数学(110)→ 数学分析(11034)→ 微分学(1103410)

相关推荐

win11独立显卡如何开启 win11独立显卡开启方法【详解】
[交流]讨论一下高隐宝宝
365bet线上手机投注

[交流]讨论一下高隐宝宝

08-30 366
网红晚晚是谁?晚晚事件来龙去脉