Matriz (matemática) de segundas derivadas
Em matemática , a matriz Hessiana ou Hessiana é uma matriz quadrada de derivadas parciais de segunda ordem de uma função de valor escalar ou campo escalar . Ele descreve a curvatura local de uma função de muitas variáveis. A matriz hessiana foi desenvolvida no século 19 pelo matemático alemão Ludwig Otto Hesse e mais tarde recebeu o seu nome. Hesse originalmente usou o termo "determinantes funcionais".
Definições e propriedades
Suponha que seja uma função tomando como entrada um vetor e gerando um escalar. Se todas as derivadas parciais secundárias de existirem e forem contínuas sobre o domínio da função, então a matriz Hessiana de é uma matriz quadrada , geralmente definida e organizada da seguinte forma:
ou, declarando uma equação para os coeficientes usando os índices i e j,
A matriz Hessiana é uma matriz simétrica , uma vez que a hipótese de continuidade das segundas derivadas implica que a ordem de diferenciação não importa ( teorema de Schwarz ).
O determinante da matriz Hessiana é denominado determinante Hessiano .
A matriz Hessiana de uma função é a matriz Jacobiana do gradiente da função ; isso é:
Formulários
Pontos de inflexão
Se for um polinômio homogêneo em três variáveis, a equação é a equação implícita de uma curva projetiva plana . Os pontos de inflexão da curva são exatamente os pontos não singulares onde o determinante Hessiano é zero. Segue pelo teorema de Bézout que uma curva de plano cúbico tem no máximo pontos de inflexão, uma vez que o determinante de Hessian é um polinômio de grau
Teste de segunda derivada
A matriz Hessiana de uma função convexa é semi-definida positiva . Refinar essa propriedade nos permite testar se um ponto crítico é um ponto máximo local, mínimo local ou um ponto de sela, da seguinte maneira:
Se o Hessiano é positivo-definido em, então atinge um mínimo local isolado em Se o Hessiano é negativo-definido em então atinge um máximo local isolado em Se o Hessiano tem autovalores positivos e negativos , então é um ponto de sela para Caso contrário, o teste é inconclusivo. Isso implica que, no mínimo local, o Hessiano é semidefinido-positivo e, no máximo local, o Hessiano é semidefinito-negativo.
Para Hessianos semidefinidos positivos e semidefinidos negativos, o teste é inconclusivo (um ponto crítico onde o Hessiano é semidefinido mas não definido pode ser um extremo local ou um ponto de sela). No entanto, mais pode ser dito do ponto de vista da teoria de Morse .
O teste da segunda derivada para funções de uma e duas variáveis é mais simples do que o caso geral. Em uma variável, o Hessian contém exatamente uma segunda derivada; se for positivo, é um mínimo local; se for negativo, é um máximo local; se for zero, o teste é inconclusivo. Em duas variáveis, o determinante pode ser usado, pois o determinante é o produto dos autovalores. Se for positivo, os valores próprios são positivos ou negativos. Se for negativo, os dois valores próprios têm sinais diferentes. Se for zero, o teste da segunda derivada é inconclusivo.
Equivalentemente, as condições de segunda ordem que são suficientes para um mínimo ou máximo local podem ser expressas em termos da sequência de principais (mais à esquerda) menores (determinantes de submatrizes) do Hessiano; essas condições são um caso especial daquelas fornecidas na próxima seção para hessianos com limites para otimização restrita - o caso em que o número de restrições é zero. Especificamente, a condição suficiente para um mínimo é que todos esses menores principais sejam positivos, enquanto a condição suficiente para um máximo é que os menores alternem em signo, com o menor sendo negativo.
Pontos críticos
Se o gradiente (o vetor das derivadas parciais) de uma função é zero em algum ponto, então tem um ponto crítico (ou ponto estacionário ) em O determinante de Hessiano em é chamado, em alguns contextos, de discriminante . Se este determinante for zero, então é chamado de ponto crítico degenerado de ou ponto crítico não Morse de Caso contrário, é não degenerado, e chamado de ponto crítico Morse de
A matriz Hessiana desempenha um papel importante na teoria de Morse e na teoria da catástrofe , pois seu núcleo e autovalores permitem a classificação dos pontos críticos.
O determinante da matriz Hessiana, quando avaliado em um ponto crítico de uma função, é igual à curvatura gaussiana da função considerada como uma variedade. Os autovalores do Hessiano naquele ponto são as principais curvaturas da função, e os autovetores são as principais direções de curvatura. (Veja curvatura Gaussiana § Relação com as curvaturas principais .)
Use na otimização
Matrizes Hessianas são usadas em problemas de otimização em grande escala dentro de métodos do tipo Newton porque são o coeficiente do termo quadrático de uma expansão local de Taylor de uma função. Isso é,
Onde está o
gradiente Computação e armazenamento da matriz hessiana completa leva memória, o que é inviável para funções de alta dimensão, como as funções de perda de redes neurais , campos aleatórios condicionais e outros modelos estatísticos com grande número de parâmetros. Para tais situações, algoritmos de Newton truncado e quase Newton foram desenvolvidos. A última família de algoritmos usa aproximações para o Hessian; um dos algoritmos quase Newton mais populares é o BFGS .
Essas aproximações podem usar o fato de que um algoritmo de otimização usa o Hessiano apenas como um operador linear e prosseguir notando primeiro que o Hessiano também aparece na expansão local do gradiente:
Considerando algum escalar, isso dá
isso é,
portanto, se o gradiente já foi calculado, o Hessian aproximado pode ser calculado por um número linear (no tamanho do gradiente) de operações escalares. (Embora seja simples de programar, este esquema de aproximação não é numericamente estável, pois deve ser reduzido para evitar erros devido ao termo, mas diminuí-lo perde a precisão no primeiro termo.)
Outras aplicações
A matriz Hessiana é comumente usada para expressar operadores de processamento de imagem em processamento de imagem e visão computacional (veja o detector de blob Laplaciano de Gaussiano (LoG), o detector de blob
determinante de Hessiano (DoH) e o espaço de escala ). A matriz Hessiana também pode ser usada na análise de modo normal para calcular as diferentes frequências moleculares na espectroscopia de infravermelho .
Generalizações
Bordered Hessian
Um Hessian com borda é usado para o teste da segunda derivada em certos problemas de otimização restrita. Dada a função considerada anteriormente, mas adicionando uma função de restrição de forma que o Hessiano com borda seja o Hessiano da
função de Lagrange
Se houver, digamos, restrições , então o zero no canto superior esquerdo é um bloco de zeros e há linhas de borda no topo e colunas de borda à esquerda.
As regras acima afirmando que os extremos são caracterizados (entre pontos críticos com um Hessiano não singular) por um Hessiano definido positivo ou definido negativo não podem ser aplicadas aqui, uma vez que um Hessiano limitado não pode ser definido como negativo nem definido como positivo, como se fosse qualquer vetor cuja única entrada diferente de zero seja a primeira.
O teste da segunda derivada consiste aqui em restrições de sinal dos determinantes de um certo conjunto de submatrizes da Hessiana com bordas. Intuitivamente, as restrições podem ser consideradas como uma redução do problema a um problema com variáveis livres. (Por exemplo, a maximização do sujeito à restrição pode ser reduzida à maximização sem restrição.)
Especificamente, as condições de sinal são impostas na sequência de principais menores principais (determinantes das submatrizes justificadas no canto superior esquerdo) do Hessiano com bordas, para o qual os primeiros principais principais secundários são negligenciados, o menor menor consistindo nas primeiras linhas truncadas e colunas, a próxima consistindo nas primeiras linhas e colunas truncadas e assim por diante, com a última sendo todo o Hessian com bordas; se for maior que então, o menor principal menor é o próprio Hessian. Há, portanto, menores a considerar, cada um avaliado no ponto específico sendo considerado como um candidato máximo ou mínimo . Uma condição suficiente para um máximo local é que esses menores alternem no sinal com o menor tendo o sinal de Uma condição suficiente para um mínimo local é que todos esses menores tenham o sinal de (No caso irrestrito, essas condições coincidem com o condições para o Hessiano não ordenado ser definido negativo ou definido positivo, respectivamente).
Funções com valor vetorial
Se, em vez disso, for um campo de vetor ou seja,
então, a coleção de derivadas parciais secundárias não é uma matriz, mas sim um
tensor de terceira ordem . Isso pode ser considerado como uma matriz de matrizes Hessianas, uma para cada componente de :
Este tensor degenera para a matriz Hessiana usual quando
Generalização para o caso complexo
No contexto de várias variáveis complexas , o Hessian pode ser generalizado. Suponha e escreva Então o Hessiano generalizado é Se satisfaz as condições n-dimensionais de
Cauchy-Riemann , então a matriz Hessiana complexa é identicamente zero.
Generalizações para variedades Riemannianas
Let Ser uma
variedade Riemanniana e sua conexão Levi-Civita . Deixe ser uma função suave. Defina o tensor de Hessian por
onde isso tira vantagem do fato de que a primeira derivada covariante de uma função é a mesma que sua derivada ordinária. A escolha de coordenadas locais dá uma expressão local para o Hessian como
onde estão os símbolos de Christoffel da conexão. Outras formas equivalentes para o Hessian são dadas por
Veja também
Notas
Leitura adicional
-
Lewis, David W. (1991). Teoria da Matriz . Singapura: World Scientific. ISBN 978-981-02-0689-5.
-
Magnus, Jan R .; Neudecker, Heinz (1999). "O segundo diferencial". Matrix Differential Calculus: With Applications in Statistics and Econometrics (Revised ed.). Nova York: Wiley. pp. 99-115. ISBN 0-471-98633-X.
links externos