Teorema de funções convexas
A desigualdade de Jensen generaliza a afirmação de que uma linha secante de uma função convexa está acima de seu gráfico.
Visualizando Convexidade e Desigualdade de Jensen
Em matemática , a desigualdade de Jensen , em homenagem ao matemático dinamarquês Johan Jensen , relaciona o valor de uma função convexa de uma integral com a integral da função convexa. Foi provado por Jensen em 1906. Dada a sua generalidade, a desigualdade aparece de várias formas dependendo do contexto, algumas das quais são apresentadas a seguir. Em sua forma mais simples, a desigualdade afirma que a transformação convexa de uma média é menor ou igual à média aplicada após a transformação convexa; é um corolário simples de que o oposto é verdadeiro para as transformações côncavas.
A desigualdade de Jensen generaliza a afirmação de que a linha secante de uma função convexa está acima do gráfico da função , que é a desigualdade de Jensen para dois pontos: a linha secante consiste em médias ponderadas da função convexa (para t ∈ [0,1]) ,
enquanto o gráfico da função é a função convexa das médias ponderadas,
Assim, a desigualdade de Jensen é
No contexto da teoria da probabilidade , é geralmente afirmado da seguinte forma: se X é uma variável aleatória e φ é uma função convexa, então
A diferença entre os dois lados da desigualdade é chamada de lacuna de Jensen .
Afirmações
A forma clássica da desigualdade de Jensen envolve vários números e pesos. A desigualdade pode ser declarada de maneira bastante geral usando a linguagem da teoria da medida ou (de forma equivalente) a probabilidade. No cenário probabilístico, a desigualdade pode ser ainda mais generalizada em toda a sua força .
Forma finita
Para uma função convexa real , números em seu domínio e pesos positivos , a desigualdade de Jensen pode ser declarada como:
-
|
|
( 1 )
|
e a desigualdade é revertida se for côncava , que é
-
|
|
( 2 )
|
A igualdade é mantida se e somente se ou for linear em um domínio contendo .
Como um caso particular, se os pesos forem todos iguais, então ( 1 ) e ( 2 ) tornam-se
-
|
|
( 3 )
|
-
|
|
( 4 )
|
Por exemplo, a função log ( x ) é côncava , portanto, a substituição na fórmula anterior ( 4 ) estabelece a (logaritmo da) desigualdade familiar média aritmética / média geométrica :
Uma aplicação comum tem x como função de outra variável (ou conjunto de variáveis) t , ou seja ,. Tudo isso é transportado diretamente para o caso contínuo geral: os pesos a i são substituídos por uma função integrável não negativa f ( x ) , como uma distribuição de probabilidade, e as somas são substituídas por integrais.
Forma teórica e probabilística da medida
Let Ser um espaço de probabilidade , ie . Se for uma função de valor real que é - integrável , e se for uma função convexa na linha real, então:
-
Na análise real, podemos exigir uma estimativa sobre
onde , e é uma função integrável de Lebesgue não negativa . Nesse caso, a medida de Lebesgue não precisa ser a unidade. Porém, por integração por substituição, o intervalo pode ser reescalado para que tenha unidade de medida. Então, a desigualdade de Jensen pode ser aplicada para obter
O mesmo resultado pode ser afirmado de forma equivalente em um cenário de teoria da probabilidade , por uma simples mudança de notação. Seja um espaço de probabilidade , X uma variável aleatória de valor real integrável e φ uma função convexa . Então:
Nesta configuração de probabilidade, a medida μ é concebida como uma probabilidade , o integrante com respeito a u como um valor esperado , e a função como uma variável aleatória X .
Observe que a igualdade se mantém se e somente se φ for uma função linear em algum conjunto convexo tal que (que segue inspecionando a prova teórica de medida abaixo).
Desigualdade geral em um cenário probabilístico
De forma mais geral, seja T um espaço vetorial topológico real e X uma variável aleatória integrável de valor T. Nesse cenário geral, integrável significa que existe um elemento em T , de modo que para qualquer elemento z no espaço dual de T :, e . Então, para qualquer função convexa mensurável φ e qualquer sub- σ-álgebra de :
Aqui está a expectativa condicionada à σ-álgebra . Esta afirmação geral se reduz às anteriores quando o espaço vetorial topológico T é o eixo real , e é o trivial σ -álgebra {∅, Ω} (onde ∅ é o conjunto vazio e Ω é o espaço amostral ).
Uma forma afiada e generalizada
Seja X uma variável aleatória unidimensional com média e variância . Seja uma função duas vezes diferenciável e defina a função
Então
Em particular, quando é convexo, então , e a forma padrão da desigualdade de Jensen segue imediatamente para o caso em que é adicionalmente assumido como duas vezes diferenciável.
Provas
Uma "prova" gráfica da desigualdade de Jensen para o caso probabilístico. A curva tracejada ao longo do eixo
X é a distribuição hipotética de
X , enquanto a curva tracejada ao longo do eixo
Y é a distribuição correspondente dos valores de
Y. Note-se que o mapeamento convexa
Y ( X ) cada vez mais "
estende " a distribuição de valores de aumento
X .
Esta é uma prova sem palavras da desigualdade de Jensen para
n variáveis. Sem perda de generalidade, a soma dos pesos positivos é
1 . Segue-se que o ponto ponderado encontra-se no casco convexo dos pontos originais, que fica acima da própria função pela definição de convexidade. A conclusão segue.
A desigualdade de Jensen pode ser provada de várias maneiras, e três diferentes provas correspondentes às diferentes afirmações acima serão oferecidas. Antes de embarcar nessas derivações matemáticas, entretanto, vale a pena analisar um argumento gráfico intuitivo baseado no caso probabilístico em que X é um número real (veja a figura). Assumindo uma distribuição hipotética de valores de X , pode-se identificar imediatamente a posição e sua imagem no gráfico. Percebendo que para mapeamentos convexos Y = φ ( X ) a distribuição correspondente dos valores de Y é cada vez mais "esticada" para valores crescentes de X , é fácil ver que a distribuição de Y é mais ampla no intervalo correspondente a X > X 0 e mais estreito em X < X 0 para qualquer X 0 ; em particular, isso também é verdadeiro para . Consequentemente, nesta figura, a expectativa de Y sempre mudará para cima em relação à posição de . Um raciocínio semelhante é válido se a distribuição de X cobre uma parte decrescente da função convexa, ou tanto uma parte decrescente como uma parte crescente dela. Isso "prova" a desigualdade, ou seja,
com igualdade quando φ ( X ) não é estritamente convexo, por exemplo, quando é uma linha reta, ou quando X segue uma distribuição degenerada (ou seja, é uma constante).
As provas abaixo formalizam essa noção intuitiva.
Prova 1 (forma finita)
Se λ 1 e λ 2 são dois números reais não negativos arbitrários, tais que λ 1 + λ 2 = 1, então a convexidade de φ implica
Isso pode ser generalizado: se λ 1 , ..., λ n são números reais não negativos, tais que λ 1 + ... + λ n = 1 , então
para qualquer x 1 , ..., x n .
A forma finita da desigualdade de Jensen pode ser provada por indução : por hipóteses de convexidade, a afirmação é verdadeira para n = 2. Suponha que a afirmação seja verdadeira para algum n , então
para qualquer λ 1 , ..., λ n tal que λ 1 + ... + λ n = 1 .
É preciso provar isso para n + 1 . Pelo menos um dos λ i é estritamente menor do que , digamos λ n +1 ; portanto, por desigualdade de convexidade:
Uma vez que λ 1 + ... + λ n + λ n +1 = 1 ,
-
,
aplicar a hipótese de indução dá
Portanto
Deduzimos que a igualdade é verdadeira para n + 1 , pelo princípio da indução matemática segue-se que o resultado também é verdadeiro para todo inteiro n maior que 2.
Para obter a desigualdade geral dessa forma finita, é necessário usar um argumento de densidade. A forma finita pode ser reescrita como:
onde μ n é uma medida dada por uma combinação convexa arbitrária de deltas de Dirac :
Como as funções convexas são contínuas e as combinações convexas de deltas de Dirac são fracamente densas no conjunto de medidas de probabilidade (como pode ser facilmente verificado), a afirmação geral é obtida simplesmente por um procedimento de limitação.
Prova 2 (forma teórica de medida)
Seja g uma função μ-integrável de valor real em um espaço de probabilidade Ω, e seja φ uma função convexa nos números reais. Uma vez que φ é convexo, em cada número real x temos um conjunto não vazio de subderivados , que podem ser considerados como linhas tocando o gráfico de φ em x , mas que estão no gráfico de φ ou abaixo dele em todos os pontos (linhas de suporte de o gráfico).
Agora, se definirmos
devido à existência de subderivados para funções convexas, podemos escolher a e b de modo que
para todos os reais x e
Mas então temos que
para todos os x . Uma vez que temos uma medida de probabilidade, a integral é monótona com μ (Ω) = 1, de modo que
como desejado.
Prova 3 (desigualdade geral em um cenário probabilístico)
Deixe X ser uma variável aleatória integrável que toma valores em um espaço vetorial topológico verdadeira T . Uma vez que é convexo, para qualquer , a quantidade
está diminuindo conforme θ se aproxima de 0 + . Em particular, a subdiferencial de avaliada em x na direção y é bem definida por
É facilmente visto que a subdiferencial é linear em y (isso é falso e a asserção requer que o teorema de Hahn-Banach seja provado) e, uma vez que o ínfimo tomado no lado direito da fórmula anterior é menor que o valor de mesmo termo para θ = 1 , obtém-se
Em particular, para uma arbitrária sub- σ -álgebra podemos avaliar a última desigualdade quando para obter
Agora, se tomarmos a expectativa condicionada a em ambos os lados da expressão anterior, obteremos o resultado, pois:
pela linearidade da subdiferencial na variável y , e a seguinte propriedade bem conhecida da expectativa condicional :
Aplicações e casos especiais
Forma envolvendo uma função de densidade de probabilidade
Suponha que Ω seja um subconjunto mensurável da reta real e f ( x ) é uma função não negativa tal que
Em linguagem probabilística, f é uma função de densidade de probabilidade .
Então, a desigualdade de Jensen se torna a seguinte afirmação sobre integrais convexos:
Se g for qualquer função mensurável de valor real e for convexa no intervalo de g , então
Se g ( x ) = x , então esta forma de desigualdade se reduz a um caso especial comumente usado:
Isso é aplicado em métodos Bayesianos Variacionais .
Exemplo: momentos pares de uma variável aleatória
Se g ( x ) = x 2n , e X é uma variável aleatória, então g é convexo como
e entao
Em particular, se algum momento par 2n de X é finito, X tem uma média finita. Uma extensão desse argumento mostra que X tem momentos finitos de toda ordem que divide n .
Forma finita alternativa
Seja Ω = { x 1 , ... x n }, e tome μ como a medida de contagem em Ω , então a forma geral se reduz a uma afirmação sobre somas:
desde que λ i ≥ 0 e
Também existe uma forma discreta infinita.
Física estatística
A desigualdade de Jensen é de particular importância na física estatística quando a função convexa é exponencial, dando:
em que os valores esperados são com respeito a alguns distribuição de probabilidade na variável aleatória X .
A prova neste caso é muito simples (cf. Chandler, Seção 5.5). A desigualdade desejada segue diretamente, escrevendo
e então aplicando a desigualdade e X ≥ 1 + X ao exponencial final.
Teoria da informação
Se p ( x ) é a densidade de probabilidade verdadeira para X , e q ( x ) é outra densidade, então aplicando a desigualdade de Jensen para a variável aleatória Y ( X ) = q ( X ) / p ( X ) e a função convexa φ ( y ) = −log ( y ) dá
Portanto:
um resultado denominado desigualdade de Gibbs .
Mostra que o comprimento médio da mensagem é minimizado quando os códigos são atribuídos com base nas verdadeiras probabilidades p em vez de qualquer outra distribuição q . A quantidade que não é negativa é chamada de divergência de Kullback-Leibler de q de p .
Como −log ( x ) é uma função estritamente convexa para x > 0 , segue-se que a igualdade se mantém quando p ( x ) é igual a q ( x ) quase em todos os lugares.
Teorema de Rao-Blackwell
Se L é uma função convexa e uma álgebra sub-sigma, então, a partir da versão condicional da desigualdade de Jensen, obtemos
Portanto, se δ ( X ) é algum estimador de um parâmetro não observado θ dado um vetor de observáveis X ; e se T ( X ) é uma estatística suficiente para θ; então, um estimador melhorado, no sentido de ter uma perda esperada L menor , pode ser obtido calculando
o valor esperado de δ em relação a θ, tomado sobre todos os vetores possíveis de observações X compatíveis com o mesmo valor de T ( X ) que o observado. Além disso, como T é uma estatística suficiente, não depende de θ, portanto, torna-se uma estatística.
Este resultado é conhecido como teorema de Rao – Blackwell .
Veja também
Notas
Referências
links externos