Matriz Hessiana - Hessian matrix

Em matemática , a matriz Hessiana ou Hessiana é uma matriz quadrada de derivadas parciais de segunda ordem de uma função de valor escalar ou campo escalar . Ele descreve a curvatura local de uma função de muitas variáveis. A matriz hessiana foi desenvolvida no século 19 pelo matemático alemão Ludwig Otto Hesse e mais tarde recebeu o seu nome. Hesse originalmente usou o termo "determinantes funcionais".

Definições e propriedades

Suponha que seja uma função tomando como entrada um vetor e gerando um escalar. Se todas as derivadas parciais secundárias de existirem e forem contínuas sobre o domínio da função, então a matriz Hessiana de é uma matriz quadrada , geralmente definida e organizada da seguinte forma:

ou, declarando uma equação para os coeficientes usando os índices i e j,

A matriz Hessiana é uma matriz simétrica , uma vez que a hipótese de continuidade das segundas derivadas implica que a ordem de diferenciação não importa ( teorema de Schwarz ).

O determinante da matriz Hessiana é denominado determinante Hessiano .

A matriz Hessiana de uma função é a matriz Jacobiana do gradiente da função ; isso é:

Formulários

Pontos de inflexão

Se for um polinômio homogêneo em três variáveis, a equação é a equação implícita de uma curva projetiva plana . Os pontos de inflexão da curva são exatamente os pontos não singulares onde o determinante Hessiano é zero. Segue pelo teorema de Bézout que uma curva de plano cúbico tem no máximo pontos de inflexão, uma vez que o determinante de Hessian é um polinômio de grau

Teste de segunda derivada

A matriz Hessiana de uma função convexa é semi-definida positiva . Refinar essa propriedade nos permite testar se um ponto crítico é um ponto máximo local, mínimo local ou um ponto de sela, da seguinte maneira:

Se o Hessiano é positivo-definido em, então atinge um mínimo local isolado em Se o Hessiano é negativo-definido em então atinge um máximo local isolado em Se o Hessiano tem autovalores positivos e negativos , então é um ponto de sela para Caso contrário, o teste é inconclusivo. Isso implica que, no mínimo local, o Hessiano é semidefinido-positivo e, no máximo local, o Hessiano é semidefinito-negativo.

Para Hessianos semidefinidos positivos e semidefinidos negativos, o teste é inconclusivo (um ponto crítico onde o Hessiano é semidefinido mas não definido pode ser um extremo local ou um ponto de sela). No entanto, mais pode ser dito do ponto de vista da teoria de Morse .

O teste da segunda derivada para funções de uma e duas variáveis ​​é mais simples do que o caso geral. Em uma variável, o Hessian contém exatamente uma segunda derivada; se for positivo, é um mínimo local; se for negativo, é um máximo local; se for zero, o teste é inconclusivo. Em duas variáveis, o determinante pode ser usado, pois o determinante é o produto dos autovalores. Se for positivo, os valores próprios são positivos ou negativos. Se for negativo, os dois valores próprios têm sinais diferentes. Se for zero, o teste da segunda derivada é inconclusivo.

Equivalentemente, as condições de segunda ordem que são suficientes para um mínimo ou máximo local podem ser expressas em termos da sequência de principais (mais à esquerda) menores (determinantes de submatrizes) do Hessiano; essas condições são um caso especial daquelas fornecidas na próxima seção para hessianos com limites para otimização restrita - o caso em que o número de restrições é zero. Especificamente, a condição suficiente para um mínimo é que todos esses menores principais sejam positivos, enquanto a condição suficiente para um máximo é que os menores alternem em signo, com o menor sendo negativo.

Pontos críticos

Se o gradiente (o vetor das derivadas parciais) de uma função é zero em algum ponto, então tem um ponto crítico (ou ponto estacionário ) em O determinante de Hessiano em é chamado, em alguns contextos, de discriminante . Se este determinante for zero, então é chamado de ponto crítico degenerado de ou ponto crítico não Morse de Caso contrário, é não degenerado, e chamado de ponto crítico Morse de

A matriz Hessiana desempenha um papel importante na teoria de Morse e na teoria da catástrofe , pois seu núcleo e autovalores permitem a classificação dos pontos críticos.

O determinante da matriz Hessiana, quando avaliado em um ponto crítico de uma função, é igual à curvatura gaussiana da função considerada como uma variedade. Os autovalores do Hessiano naquele ponto são as principais curvaturas da função, e os autovetores são as principais direções de curvatura. (Veja curvatura Gaussiana § Relação com as curvaturas principais .)

Use na otimização

Matrizes Hessianas são usadas em problemas de otimização em grande escala dentro de métodos do tipo Newton porque são o coeficiente do termo quadrático de uma expansão local de Taylor de uma função. Isso é,

Onde está o gradiente Computação e armazenamento da matriz hessiana completa leva memória, o que é inviável para funções de alta dimensão, como as funções de perda de redes neurais , campos aleatórios condicionais e outros modelos estatísticos com grande número de parâmetros. Para tais situações, algoritmos de Newton truncado e quase Newton foram desenvolvidos. A última família de algoritmos usa aproximações para o Hessian; um dos algoritmos quase Newton mais populares é o BFGS .

Essas aproximações podem usar o fato de que um algoritmo de otimização usa o Hessiano apenas como um operador linear e prosseguir notando primeiro que o Hessiano também aparece na expansão local do gradiente:

Considerando algum escalar, isso dá

isso é,
portanto, se o gradiente já foi calculado, o Hessian aproximado pode ser calculado por um número linear (no tamanho do gradiente) de operações escalares. (Embora seja simples de programar, este esquema de aproximação não é numericamente estável, pois deve ser reduzido para evitar erros devido ao termo, mas diminuí-lo perde a precisão no primeiro termo.)

Outras aplicações

A matriz Hessiana é comumente usada para expressar operadores de processamento de imagem em processamento de imagem e visão computacional (veja o detector de blob Laplaciano de Gaussiano (LoG), o detector de blob

determinante de Hessiano (DoH) e o espaço de escala ). A matriz Hessiana também pode ser usada na análise de modo normal para calcular as diferentes frequências moleculares na espectroscopia de infravermelho .

Generalizações

Bordered Hessian

Um Hessian com borda é usado para o teste da segunda derivada em certos problemas de otimização restrita. Dada a função considerada anteriormente, mas adicionando uma função de restrição de forma que o Hessiano com borda seja o Hessiano da

função de Lagrange

Se houver, digamos, restrições , então o zero no canto superior esquerdo é um bloco de zeros e há linhas de borda no topo e colunas de borda à esquerda.

As regras acima afirmando que os extremos são caracterizados (entre pontos críticos com um Hessiano não singular) por um Hessiano definido positivo ou definido negativo não podem ser aplicadas aqui, uma vez que um Hessiano limitado não pode ser definido como negativo nem definido como positivo, como se fosse qualquer vetor cuja única entrada diferente de zero seja a primeira.

O teste da segunda derivada consiste aqui em restrições de sinal dos determinantes de um certo conjunto de submatrizes da Hessiana com bordas. Intuitivamente, as restrições podem ser consideradas como uma redução do problema a um problema com variáveis ​​livres. (Por exemplo, a maximização do sujeito à restrição pode ser reduzida à maximização sem restrição.)

Especificamente, as condições de sinal são impostas na sequência de principais menores principais (determinantes das submatrizes justificadas no canto superior esquerdo) do Hessiano com bordas, para o qual os primeiros principais principais secundários são negligenciados, o menor menor consistindo nas primeiras linhas truncadas e colunas, a próxima consistindo nas primeiras linhas e colunas truncadas e assim por diante, com a última sendo todo o Hessian com bordas; se for maior que então, o menor principal menor é o próprio Hessian. Há, portanto, menores a considerar, cada um avaliado no ponto específico sendo considerado como um candidato máximo ou mínimo . Uma condição suficiente para um máximo local é que esses menores alternem no sinal com o menor tendo o sinal de Uma condição suficiente para um mínimo local é que todos esses menores tenham o sinal de (No caso irrestrito, essas condições coincidem com o condições para o Hessiano não ordenado ser definido negativo ou definido positivo, respectivamente).

Funções com valor vetorial

Se, em vez disso, for um campo de vetor ou seja,

então, a coleção de derivadas parciais secundárias não é uma matriz, mas sim um tensor de terceira ordem . Isso pode ser considerado como uma matriz de matrizes Hessianas, uma para cada componente de :
Este tensor degenera para a matriz Hessiana usual quando

Generalização para o caso complexo

No contexto de várias variáveis ​​complexas , o Hessian pode ser generalizado. Suponha e escreva Então o Hessiano generalizado é Se satisfaz as condições n-dimensionais de

Cauchy-Riemann , então a matriz Hessiana complexa é identicamente zero.

Generalizações para variedades Riemannianas

Let Ser uma

variedade Riemanniana e sua conexão Levi-Civita . Deixe ser uma função suave. Defina o tensor de Hessian por
onde isso tira vantagem do fato de que a primeira derivada covariante de uma função é a mesma que sua derivada ordinária. A escolha de coordenadas locais dá uma expressão local para o Hessian como
onde estão os
símbolos de Christoffel da conexão. Outras formas equivalentes para o Hessian são dadas por

Veja também

Notas

Leitura adicional

  • Lewis, David W. (1991). Teoria da Matriz . Singapura: World Scientific. ISBN 978-981-02-0689-5.
  • Magnus, Jan R .; Neudecker, Heinz (1999). "O segundo diferencial". Matrix Differential Calculus: With Applications in Statistics and Econometrics (Revised ed.). Nova York: Wiley. pp. 99-115. ISBN 0-471-98633-X.

links externos