Desigualdade de Jensen - Jensen's inequality

A desigualdade de Jensen generaliza a afirmação de que uma linha secante de uma função convexa está acima de seu gráfico.

Tocar mídia

Visualizando Convexidade e Desigualdade de Jensen

Em matemática , a desigualdade de Jensen , em homenagem ao matemático dinamarquês Johan Jensen , relaciona o valor de uma função convexa de uma integral com a integral da função convexa. Foi provado por Jensen em 1906. Dada a sua generalidade, a desigualdade aparece de várias formas dependendo do contexto, algumas das quais são apresentadas a seguir. Em sua forma mais simples, a desigualdade afirma que a transformação convexa de uma média é menor ou igual à média aplicada após a transformação convexa; é um corolário simples de que o oposto é verdadeiro para as transformações côncavas.

A desigualdade de Jensen generaliza a afirmação de que a linha secante de uma função convexa está acima do gráfico da função , que é a desigualdade de Jensen para dois pontos: a linha secante consiste em médias ponderadas da função convexa (para t ∈ [0,1]) ,

{\ displaystyle tf (x_ {1}) + (1-t) f (x_ {2}),}

enquanto o gráfico da função é a função convexa das médias ponderadas,

{\ displaystyle f (tx_ {1} + (1-t) x_ {2}).}

Assim, a desigualdade de Jensen é

{\ displaystyle f (tx_ {1} + (1-t) x_ {2}) \ leq tf (x_ {1}) + (1-t) f (x_ {2}).}

No contexto da teoria da probabilidade , é geralmente afirmado da seguinte forma: se X é uma variável aleatória e $φ$ é uma função convexa, então

{\ displaystyle \ varphi (\ operatorname {E} [X]) \ leq \ operatorname {E} \ left [\ varphi (X) \ right].}

A diferença entre os dois lados da desigualdade é chamada de lacuna de Jensen . ${\ displaystyle \ operatorname {E} \ left [\ varphi (X) \ right] - \ varphi \ left (\ operatorname {E} [X] \ right)}$

Afirmações

A forma clássica da desigualdade de Jensen envolve vários números e pesos. A desigualdade pode ser declarada de maneira bastante geral usando a linguagem da teoria da medida ou (de forma equivalente) a probabilidade. No cenário probabilístico, a desigualdade pode ser ainda mais generalizada em toda a sua força .

Forma finita

Para uma função convexa real , números em seu domínio e pesos positivos , a desigualdade de Jensen pode ser declarada como: ${\ displaystyle \ varphi}$ ${\ displaystyle x_ {1}, x_ {2}, \ ldots, x_ {n}}$ ${\ displaystyle a_ {i}}$

{\ displaystyle \ varphi \ left ({\ frac {\ sum a_ {i} x_ {i}} {\ sum a_ {i}}} \ right) \ leq {\ frac {\ sum (a_ {i} \ varphi (x_ {i}))} {\ sum a_ {i}}}}

( 1 )

e a desigualdade é revertida se for côncava , que é ${\ displaystyle \ varphi}$

{\ displaystyle \ varphi \ left ({\ frac {\ sum a_ {i} x_ {i}} {\ sum a_ {i}}} \ right) \ geq {\ frac {\ sum a_ {i} \ varphi ( x_ {i})} {\ sum a_ {i}}}.}

( 2 )

A igualdade é mantida se e somente se ou for linear em um domínio contendo . ${\ displaystyle x_ {1} = x_ {2} = \ cdots = x_ {n}}$ ${\ displaystyle \ varphi}$ ${\ displaystyle x_ {1}, x_ {2}, \ cdots, x_ {n}}$

Como um caso particular, se os pesos forem todos iguais, então ( 1 ) e ( 2 ) tornam-se ${\ displaystyle a_ {i}}$

{\ displaystyle \ varphi \ left ({\ frac {\ sum x_ {i}} {n}} \ right) \ leq {\ frac {\ sum \ varphi (x_ {i})} {n}}}

( 3 )

{\ displaystyle \ varphi \ left ({\ frac {\ sum x_ {i}} {n}} \ right) \ geq {\ frac {\ sum \ varphi (x_ {i})} {n}}}

( 4 )

Por exemplo, a função $log (x)$ é côncava , portanto, a substituição na fórmula anterior ( 4 ) estabelece a (logaritmo da) desigualdade familiar média aritmética / média geométrica : ${\ displaystyle \ varphi (x) = \ log (x)}$

{\ displaystyle \ log \! \ left ({\ frac {\ sum _ {i = 1} ^ {n} x_ {i}} {n}} \ right) \ geq {\ frac {\ sum _ {i = 1} ^ {n} \ log \! \ Left (x_ {i} \ right)} {n}} \ quad {\ text {ou}} \ quad {\ frac {x_ {1} + x_ {2} + \ cdots + x_ {n}} {n}} \ geq {\ sqrt [{n}] {x_ {1} \ cdot x_ {2} \ cdots x_ {n}}}}

Uma aplicação comum tem $x$ como função de outra variável (ou conjunto de variáveis) $t$ , ou seja ,. Tudo isso é transportado diretamente para o caso contínuo geral: os pesos $a$ $i$ são substituídos por uma função integrável não negativa $f$ $($ $x$ $)$ , como uma distribuição de probabilidade, e as somas são substituídas por integrais. ${\ displaystyle x_ {i} = g (t_ {i})}$

Forma teórica e probabilística da medida

Let Ser um espaço de probabilidade , ie . Se for uma função de valor real que é - integrável , e se for uma função convexa na linha real, então: ${\ displaystyle (\ Omega, A, \ mu)}$ ${\ displaystyle \ mu (\ Omega) = 1}$ ${\ displaystyle g}$ ${\ displaystyle \ mu}$ ${\ displaystyle \ varphi}$

{\ displaystyle \ varphi \ left (\ int _ {\ Omega} g \, d \ mu \ right) \ leq \ int _ {\ Omega} \ varphi \ circ g \, d \ mu.}

Na análise real, podemos exigir uma estimativa sobre

{\ displaystyle \ varphi \ left (\ int _ {a} ^ {b} f (x) \, dx \ right),}

onde , e é uma função integrável de Lebesgue não negativa . Nesse caso, a medida de Lebesgue não precisa ser a unidade. Porém, por integração por substituição, o intervalo pode ser reescalado para que tenha unidade de medida. Então, a desigualdade de Jensen pode ser aplicada para obter ${\ displaystyle a, b \ in \ mathbb {R}}$ ${\ displaystyle f \ dois pontos [a, b] \ to \ mathbb {R}}$ ${\ displaystyle [a, b]}$

{\ displaystyle \ varphi \ left ({\ frac {1} {ba}} \ int _ {a} ^ {b} f (x) \, dx \ right) \ leq {\ frac {1} {ba}} \ int _ {a} ^ {b} \ varphi (f (x)) \, dx.}

O mesmo resultado pode ser afirmado de forma equivalente em um cenário de teoria da probabilidade , por uma simples mudança de notação. Seja um espaço de probabilidade , X uma variável aleatória de valor real integrável e $φ$ uma função convexa . Então: ${\ displaystyle (\ Omega, {\ mathfrak {F}}, \ operatorname {P})}$

{\ displaystyle \ varphi \ left (\ operatorname {E} [X] \ right) \ leq \ operatorname {E} \ left [\ varphi (X) \ right].}

Nesta configuração de probabilidade, a medida $μ$ é concebida como uma probabilidade , o integrante com respeito a $u$ como um valor esperado , e a função como uma variável aleatória X . ${\ displaystyle \ operatorname {P}}$ ${\ displaystyle \ operatorname {E}}$ ${\ displaystyle g}$

Observe que a igualdade se mantém se e somente se $φ$ for uma função linear em algum conjunto convexo tal que (que segue inspecionando a prova teórica de medida abaixo). ${\ displaystyle A}$ ${\ displaystyle \ mathrm {P} (X \ in A) = 1}$

Desigualdade geral em um cenário probabilístico

De forma mais geral, seja T um espaço vetorial topológico real e X uma variável aleatória integrável de valor T. Nesse cenário geral, integrável significa que existe um elemento em T , de modo que para qualquer elemento z no espaço dual de T :, e . Então, para qualquer função convexa mensurável $φ$ e qualquer sub- σ-álgebra de : ${\ displaystyle \ operatorname {E} [X]}$ ${\ displaystyle \ operatorname {E} | \ langle z, X \ rangle | <\ infty}$ ${\ displaystyle \ langle z, \ operatorname {E} [X] \ rangle = \ operatorname {E} [\ langle z, X \ rangle]}$ ${\ displaystyle {\ mathfrak {G}}}$ ${\ displaystyle {\ mathfrak {F}}}$

{\ displaystyle \ varphi \ left (\ operatorname {E} \ left [X \ mid {\ mathfrak {G}} \ right] \ right) \ leq \ operatorname {E} \ left [\ varphi (X) \ mid { \ mathfrak {G}} \ right].}

Aqui está a expectativa condicionada à σ-álgebra . Esta afirmação geral se reduz às anteriores quando o espaço vetorial topológico $T$ é o eixo real , e é o trivial $σ$ -álgebra ${\emptyset, Ω}$ (onde $\emptyset$ é o conjunto vazio e $Ω$ é o espaço amostral ). ${\ displaystyle \ operatorname {E} [\ cdot \ mid {\ mathfrak {G}}]}$ ${\ displaystyle {\ mathfrak {G}}}$ ${\ displaystyle {\ mathfrak {G}}}$

Uma forma afiada e generalizada

Seja X uma variável aleatória unidimensional com média e variância . Seja uma função duas vezes diferenciável e defina a função ${\ displaystyle \ mu}$ ${\ displaystyle \ sigma ^ {2} \ geq 0}$ ${\ displaystyle \ varphi (x)}$

{\ displaystyle h (x) \ triangleq {\ frac {\ varphi \ left (x \ right) - \ varphi \ left (\ mu \ right)} {\ left (x- \ mu \ right) ^ {2}} } - {\ frac {\ varphi '\ left (\ mu \ right)} {x- \ mu}}.}

Então

{\ displaystyle \ sigma ^ {2} \ inf {\ frac {\ varphi '' (x)} {2}} \ leq \ sigma ^ {2} \ inf h (x) \ leq E \ left [\ varphi \ esquerda (X \ direita) \ direita] - \ varphi \ esquerda (E [X] \ direita) \ leq \ sigma ^ {2} \ sup h (x) \ leq \ sigma ^ {2} \ sup {\ frac { \ varphi '' (x)} {2}}.}

Em particular, quando é convexo, então , e a forma padrão da desigualdade de Jensen segue imediatamente para o caso em que é adicionalmente assumido como duas vezes diferenciável. ${\ displaystyle \ varphi (x)}$ ${\ displaystyle \ varphi '' (x) \ geq 0}$ ${\ displaystyle \ varphi (x)}$

Provas

Uma "prova" gráfica da desigualdade de Jensen para o caso probabilístico. A curva tracejada ao longo do eixo

X

é a distribuição hipotética de

X

, enquanto a curva tracejada ao longo do eixo

Y

é a distribuição correspondente dos valores de

Y.

Note-se que o mapeamento convexa

Y (X)

cada vez mais " estende " a distribuição de valores de aumento

X

.

Esta é uma prova sem palavras da desigualdade de Jensen para

n

variáveis. Sem perda de generalidade, a soma dos pesos positivos é

1

. Segue-se que o ponto ponderado encontra-se no casco convexo dos pontos originais, que fica acima da própria função pela definição de convexidade. A conclusão segue.

A desigualdade de Jensen pode ser provada de várias maneiras, e três diferentes provas correspondentes às diferentes afirmações acima serão oferecidas. Antes de embarcar nessas derivações matemáticas, entretanto, vale a pena analisar um argumento gráfico intuitivo baseado no caso probabilístico em que $X$ é um número real (veja a figura). Assumindo uma distribuição hipotética de valores de $X$ , pode-se identificar imediatamente a posição e sua imagem no gráfico. Percebendo que para mapeamentos convexos $Y$ $=$ $φ$ $($ $X$ $)$ a distribuição correspondente dos valores de $Y$ é cada vez mais "esticada" para valores crescentes de $X$ , é fácil ver que a distribuição de $Y$ é mais ampla no intervalo correspondente a $X$ $>$ $X$ $0$ e mais estreito em $X$ $<$ $X$ $0$ para qualquer $X$ $0$ ; em particular, isso também é verdadeiro para . Consequentemente, nesta figura, a expectativa de $Y$ sempre mudará para cima em relação à posição de . Um raciocínio semelhante é válido se a distribuição de $X$ cobre uma parte decrescente da função convexa, ou tanto uma parte decrescente como uma parte crescente dela. Isso "prova" a desigualdade, ou seja, ${\ displaystyle \ operatorname {E} [X]}$ ${\ displaystyle \ varphi (\ operatorname {E} [X])}$ ${\ displaystyle X_ {0} = \ operatorname {E} [X]}$ ${\ displaystyle \ varphi (\ operatorname {E} [X])}$

{\ displaystyle \ varphi (\ operatorname {E} [X]) \ leq \ operatorname {E} [\ varphi (X)] = \ operatorname {E} [Y],}

com igualdade quando $φ (X)$ não é estritamente convexo, por exemplo, quando é uma linha reta, ou quando $X$ segue uma distribuição degenerada (ou seja, é uma constante).

As provas abaixo formalizam essa noção intuitiva.

Prova 1 (forma finita)

Se $λ 1$ e $λ 2$ são dois números reais não negativos arbitrários, tais que $λ 1 + λ 2 = 1,$ então a convexidade de $φ$ implica

{\ displaystyle \ forall x_ {1}, x_ {2}: \ qquad \ varphi \ left (\ lambda _ {1} x_ {1} + \ lambda _ {2} x_ {2} \ right) \ leq \ lambda _ {1} \, \ varphi (x_ {1}) + \ lambda _ {2} \, \ varphi (x_ {2}).}

Isso pode ser generalizado: se $λ 1, ..., λ n$ são números reais não negativos, tais que $λ 1 + ... + λ n = 1$ , então

{\ displaystyle \ varphi (\ lambda _ {1} x_ {1} + \ lambda _ {2} x_ {2} + \ cdots + \ lambda _ {n} x_ {n}) \ leq \ lambda _ {1} \, \ varphi (x_ {1}) + \ lambda _ {2} \, \ varphi (x_ {2}) + \ cdots + \ lambda _ {n} \, \ varphi (x_ {n}),}

para qualquer $x 1, ..., x n$ .

A forma finita da desigualdade de Jensen pode ser provada por indução : por hipóteses de convexidade, a afirmação é verdadeira para n = 2. Suponha que a afirmação seja verdadeira para algum n , então

{\ displaystyle \ varphi \ left (\ sum _ {i = 1} ^ {n} \ lambda _ {i} x_ {i} \ right) \ leq \ sum _ {i = 1} ^ {n} \ lambda _ {i} \ varphi \ left (x_ {i} \ right)}

para qualquer $λ 1, ..., λ n$ tal que $λ 1 + ... + λ n = 1$ .

É preciso provar isso para $n + 1$ . Pelo menos um dos $λ i$ é estritamente menor do que , digamos $λ$ $n$ $+1$ ; portanto, por desigualdade de convexidade: ${\ displaystyle 1}$

{\ displaystyle {\ begin {alinhado} \ varphi \ left (\ sum _ {i = 1} ^ {n + 1} \ lambda _ {i} x_ {i} \ right) & = \ varphi \ left ((1 - \ lambda _ {n + 1}) \ sum _ {i = 1} ^ {n} {\ frac {\ lambda _ {i}} {1- \ lambda _ {n + 1}}} x_ {i} + \ lambda _ {n + 1} x_ {n + 1} \ direita) \\ & \ leq (1- \ lambda _ {n + 1}) \ varphi \ left (\ sum _ {i = 1} ^ { n} {\ frac {\ lambda _ {i}} {1- \ lambda _ {n + 1}}} x_ {i} \ right) + \ lambda _ {n + 1} \, \ varphi (x_ {n +1}). \ End {alinhado}}}

Uma vez que $λ 1 + ... + λ n + λ n +1 = 1$ ,

{\ displaystyle \ sum _ {i = 1} ^ {n} {\ frac {\ lambda _ {i}} {1- \ lambda _ {n + 1}}} = 1}

,

aplicar a hipótese de indução dá

{\ displaystyle \ varphi \ left (\ sum _ {i = 1} ^ {n} {\ frac {\ lambda _ {i}} {1- \ lambda _ {n + 1}}} x_ {i} \ right ) \ leq \ sum _ {i = 1} ^ {n} {\ frac {\ lambda _ {i}} {1- \ lambda _ {n + 1}}} \ varphi (x_ {i})}

Portanto

{\ displaystyle {\ begin {alinhado} \ varphi \ left (\ sum _ {i = 1} ^ {n + 1} \ lambda _ {i} x_ {i} \ right) & \ leq (1- \ lambda _ {n + 1}) \ sum _ {i = 1} ^ {n} {\ frac {\ lambda _ {i}} {1- \ lambda _ {n + 1}}} \ varphi (x_ {i}) + \ lambda _ {n + 1} \, \ varphi (x_ {n + 1}) = \ sum _ {i = 1} ^ {n + 1} \ lambda _ {i} \ varphi (x_ {i}) \ end {alinhado}}}

Deduzimos que a igualdade é verdadeira para $n + 1$ , pelo princípio da indução matemática segue-se que o resultado também é verdadeiro para todo inteiro $n$ maior que 2.

Para obter a desigualdade geral dessa forma finita, é necessário usar um argumento de densidade. A forma finita pode ser reescrita como:

{\ displaystyle \ varphi \ left (\ int x \, d \ mu _ {n} (x) \ right) \ leq \ int \ varphi (x) \, d \ mu _ {n} (x),}

onde μ _n é uma medida dada por uma combinação convexa arbitrária de deltas de Dirac :

{\ displaystyle \ mu _ {n} = \ sum _ {i = 1} ^ {n} \ lambda _ {i} \ delta _ {x_ {i}}.}

Como as funções convexas são contínuas e as combinações convexas de deltas de Dirac são fracamente densas no conjunto de medidas de probabilidade (como pode ser facilmente verificado), a afirmação geral é obtida simplesmente por um procedimento de limitação.

Prova 2 (forma teórica de medida)

Seja g uma função μ-integrável de valor real em um espaço de probabilidade Ω, e seja $φ$ uma função convexa nos números reais. Uma vez que $φ$ é convexo, em cada número real $x$ temos um conjunto não vazio de subderivados , que podem ser considerados como linhas tocando o gráfico de $φ$ em $x$ , mas que estão no gráfico de $φ$ ou abaixo dele em todos os pontos (linhas de suporte de o gráfico).

Agora, se definirmos

{\ displaystyle x_ {0}: = \ int _ {\ Omega} g \, d \ mu,}

devido à existência de subderivados para funções convexas, podemos escolher a e b de modo que

{\ displaystyle ax + b \ leq \ varphi (x),}

para todos os reais $x$ e

{\ displaystyle ax_ {0} + b = \ varphi (x_ {0}).}

Mas então temos que

{\ displaystyle \ varphi \ circ g (x) \ geq ag (x) + b}

para todos os $x$ . Uma vez que temos uma medida de probabilidade, a integral é monótona com $μ (Ω) = 1, de$ modo que

{\ displaystyle \ int _ {\ Omega} \ varphi \ circ g \, d \ mu \ geq \ int _ {\ Omega} (ag + b) \, d \ mu = a \ int _ {\ Omega} g \ , d \ mu + b \ int _ {\ Omega} d \ mu = ax_ {0} + b = \ varphi (x_ {0}) = \ varphi \ left (\ int _ {\ Omega} g \, d \ mu \ right),}

como desejado.

Prova 3 (desigualdade geral em um cenário probabilístico)

Deixe X ser uma variável aleatória integrável que toma valores em um espaço vetorial topológico verdadeira T . Uma vez que é convexo, para qualquer , a quantidade ${\ displaystyle \ varphi: T \ to \ mathbb {R}}$ ${\ displaystyle x, y \ in T}$

{\ displaystyle {\ frac {\ varphi (x + \ theta \, y) - \ varphi (x)} {\ theta}},}

está diminuindo conforme $θ se$ aproxima de 0 ⁺ . Em particular, a subdiferencial de avaliada em $x$ na direção $y$ é bem definida por ${\ displaystyle \ varphi}$

{\ displaystyle (D \ varphi) (x) \ cdot y: = \ lim _ {\ theta \ downarrow 0} {\ frac {\ varphi (x + \ theta \, y) - \ varphi (x)} {\ theta }} = \ inf _ {\ theta \ neq 0} {\ frac {\ varphi (x + \ theta \, y) - \ varphi (x)} {\ theta}}.}

É facilmente visto que a subdiferencial é linear em $y$ (isso é falso e a asserção requer que o teorema de Hahn-Banach seja provado) e, uma vez que o ínfimo tomado no lado direito da fórmula anterior é menor que o valor de mesmo termo para $θ = 1$ , obtém-se

{\ displaystyle \ varphi (x) \ leq \ varphi (x + y) - (D \ varphi) (x) \ cdot y.}

Em particular, para uma arbitrária sub- $σ$ -álgebra podemos avaliar a última desigualdade quando para obter ${\ displaystyle {\ mathfrak {G}}}$ ${\ displaystyle x = \ operatorname {E} [X \ mid {\ mathfrak {G}}], \, y = X- \ operatorname {E} [X \ mid {\ mathfrak {G}}]}$

{\ displaystyle \ varphi (\ operatorname {E} [X \ mid {\ mathfrak {G}}]) \ leq \ varphi (X) - (D \ varphi) (\ operatorname {E} [X \ mid {\ mathfrak {G}}]) \ cdot (X- \ operatorname {E} [X \ mid {\ mathfrak {G}}]).}

Agora, se tomarmos a expectativa condicionada a em ambos os lados da expressão anterior, obteremos o resultado, pois: ${\ displaystyle {\ mathfrak {G}}}$

{\ displaystyle \ operatorname {E} \ left [\ left [(D \ varphi) (\ operatorname {E} [X \ mid {\ mathfrak {G}}]) \ cdot (X- \ operatorname {E} [X \ mid {\ mathfrak {G}}]) \ right] \ mid {\ mathfrak {G}} \ right] = (D \ varphi) (\ operatorname {E} [X \ mid {\ mathfrak {G}}] ) \ cdot \ operatorname {E} [\ left (X- \ operatorname {E} [X \ mid {\ mathfrak {G}}] \ right) \ mid {\ mathfrak {G}}] = 0,}

pela linearidade da subdiferencial na variável y , e a seguinte propriedade bem conhecida da expectativa condicional :

{\ displaystyle \ operatorname {E} \ left [\ left (\ operatorname {E} [X \ mid {\ mathfrak {G}}] \ right) \ mid {\ mathfrak {G}} \ right] = \ operatorname { E} [X \ mid {\ mathfrak {G}}].}

Aplicações e casos especiais

Forma envolvendo uma função de densidade de probabilidade

Suponha que $Ω$ seja um subconjunto mensurável da reta real e f ( x ) é uma função não negativa tal que

{\ displaystyle \ int _ {- \ infty} ^ {\ infty} f (x) \, dx = 1.}

Em linguagem probabilística, f é uma função de densidade de probabilidade .

Então, a desigualdade de Jensen se torna a seguinte afirmação sobre integrais convexos:

Se g for qualquer função mensurável de valor real e for convexa no intervalo de g , então ${\ textstyle \ varphi}$

{\ displaystyle \ varphi \ left (\ int _ {- \ infty} ^ {\ infty} g (x) f (x) \, dx \ right) \ leq \ int _ {- \ infty} ^ {\ infty} \ varphi (g (x)) f (x) \, dx.}

Se g ( x ) = x , então esta forma de desigualdade se reduz a um caso especial comumente usado:

{\ displaystyle \ varphi \ left (\ int _ {- \ infty} ^ {\ infty} x \, f (x) \, dx \ right) \ leq \ int _ {- \ infty} ^ {\ infty} \ varphi (x) \, f (x) \, dx.}

Isso é aplicado em métodos Bayesianos Variacionais .

Exemplo: momentos pares de uma variável aleatória

Se g ( x ) = x ²ⁿ , e X é uma variável aleatória, então g é convexo como

{\ displaystyle {\ frac {d ^ {2} g} {dx ^ {2}}} (x) = 2n (2n-1) x ^ {2n-2} \ geq 0 \ quad \ forall \ x \ in \ mathbb {R}}

e entao

{\ displaystyle g (\ operatorname {E} [X]) = (\ operatorname {E} [X]) ^ {2n} \ leq \ operatorname {E} [X ^ {2n}].}

Em particular, se algum momento par 2n de X é finito, X tem uma média finita. Uma extensão desse argumento mostra que X tem momentos finitos de toda ordem que divide n . ${\ displaystyle l \ in \ mathbb {N}}$

Forma finita alternativa

Seja $Ω = {x 1, ... x n},$ e tome $μ$ como a medida de contagem em $Ω$ , então a forma geral se reduz a uma afirmação sobre somas:

{\ displaystyle \ varphi \ left (\ sum _ {i = 1} ^ {n} g (x_ {i}) \ lambda _ {i} \ right) \ leq \ sum _ {i = 1} ^ {n} \ varphi (g (x_ {i})) \ lambda _ {i},}

desde que $λ i \geq 0$ e

{\ displaystyle \ lambda _ {1} + \ cdots + \ lambda _ {n} = 1.}

Também existe uma forma discreta infinita.

Física estatística

A desigualdade de Jensen é de particular importância na física estatística quando a função convexa é exponencial, dando:

{\ displaystyle e ^ {\ operatorname {E} [X]} \ leq \ operatorname {E} \ left [e ^ {X} \ right],}

em que os valores esperados são com respeito a alguns distribuição de probabilidade na variável aleatória $X$ .

A prova neste caso é muito simples (cf. Chandler, Seção 5.5). A desigualdade desejada segue diretamente, escrevendo

{\ displaystyle \ operatorname {E} \ left [e ^ {X} \ right] = e ^ {\ operatorname {E} [X]} \ operatorname {E} \ left [e ^ {X- \ operatorname {E} [X]} \ certo]}

e então aplicando a desigualdade $e X \geq 1 + X$ ao exponencial final.

Teoria da informação

Se $p (x)$ é a densidade de probabilidade verdadeira para $X$ , e $q (x)$ é outra densidade, então aplicando a desigualdade de Jensen para a variável aleatória $Y (X) = q (X) / p (X)$ e a função convexa $φ (y) = -log (y)$ dá

{\ displaystyle \ operatorname {E} [\ varphi (Y)] \ geq \ varphi (\ operatorname {E} [Y])}

Portanto:

{\ displaystyle -D (p (x) \ | q (x)) = \ int p (x) \ log \ left ({\ frac {q (x)} {p (x)}} \ right) \, dx \ leq \ log \ left (\ int p (x) {\ frac {q (x)} {p (x)}} \, dx \ right) = \ log \ left (\ int q (x) \, dx \ right) = 0}

um resultado denominado desigualdade de Gibbs .

Mostra que o comprimento médio da mensagem é minimizado quando os códigos são atribuídos com base nas verdadeiras probabilidades p em vez de qualquer outra distribuição q . A quantidade que não é negativa é chamada de divergência de Kullback-Leibler de q de p .

Como $-log (x)$ é uma função estritamente convexa para $x > 0$ , segue-se que a igualdade se mantém quando $p (x)$ é igual a $q (x)$ quase em todos os lugares.

Teorema de Rao-Blackwell

Se L é uma função convexa e uma álgebra sub-sigma, então, a partir da versão condicional da desigualdade de Jensen, obtemos ${\ displaystyle {\ mathfrak {G}}}$

{\ displaystyle L (\ operatorname {E} [\ delta (X) \ mid {\ mathfrak {G}}]) \ leq \ operatorname {E} [L (\ delta (X)) \ mid {\ mathfrak {G }}] \ quad \ Longrightarrow \ quad \ operatorname {E} [L (\ operatorname {E} [\ delta (X) \ mid {\ mathfrak {G}}])] \ leq \ operatorname {E} [L ( \ delta (X))].}

Portanto, se δ ( X ) é algum estimador de um parâmetro não observado θ dado um vetor de observáveis X ; e se T ( X ) é uma estatística suficiente para θ; então, um estimador melhorado, no sentido de ter uma perda esperada L menor , pode ser obtido calculando

{\ displaystyle \ delta _ {1} (X) = \ operatorname {E} _ {\ theta} [\ delta (X ') \ mid T (X') = T (X)],}

o valor esperado de δ em relação a θ, tomado sobre todos os vetores possíveis de observações X compatíveis com o mesmo valor de T ( X ) que o observado. Além disso, como T é uma estatística suficiente, não depende de θ, portanto, torna-se uma estatística. ${\ displaystyle \ delta _ {1} (X)}$

Este resultado é conhecido como teorema de Rao – Blackwell .

Veja também

Desigualdade de Karamata para uma desigualdade mais geral
Desigualdade de Popoviciu
Lei das médias
Uma prova sem palavras da desigualdade de Jensen

Notas

Referências

David Chandler (1987). Introdução à Mecânica Estatística Moderna . Oxford. ISBN 0-19-504277-8.
Tristan Needham (1993) "A Visual Explanation of Jensen's Inequality", American Mathematical Monthly 100 (8): 768–71.
Nicola Fusco ; Paolo Marcellini ; Carlo Sbordone (1996). Analisi Matematica Due . Liguori. ISBN 978-88-207-2675-1.
Walter Rudin (1987). Análise Real e Complexa . McGraw-Hill. ISBN 0-07-054234-1.
Rick Durrett (2019). Probabilidade: Teoria e Exemplos (5ª ed.). Cambridge University Press. p. 430. ISBN 978-1108473682. Página visitada em 21 de dezembro de 2020 .

links externos

Desigualdade do operador de Jensen de Hansen e Pedersen.
"Jensen inequality" , Encyclopedia of Mathematics , EMS Press , 2001 [1994]
Weisstein, Eric W. "desigualdade de Jensen" . MathWorld .
Arthur Lohwater (1982). “Introdução às Desigualdades” . E-book online em formato PDF.

Languages

In other projects