Modelo de riscos proporcionais - Proportional hazards model

Modelos de riscos proporcionais são uma classe de modelos de sobrevivência nas estatísticas . Os modelos de sobrevivência relacionam o tempo que passa, antes que algum evento ocorra, a uma ou mais covariáveis que podem estar associadas a essa quantidade de tempo. Em um modelo de risco proporcional, o efeito único de um aumento de unidade em uma covariável é multiplicativo em relação à taxa de risco . Por exemplo, tomar um medicamento pode reduzir pela metade a taxa de risco de um acidente vascular cerebral ou, mudar o material do qual um componente fabricado é construído pode dobrar sua taxa de risco de falha. Outros tipos de modelos de sobrevivência, como modelos de tempo de falha acelerado , não apresentam riscos proporcionais. O modelo de tempo de falha acelerado descreve uma situação em que a história de vida biológica ou mecânica de um evento é acelerada (ou desacelerada).

Fundo

Os modelos de sobrevivência podem ser vistos como consistindo em duas partes: a função de risco de linha de base subjacente , freqüentemente denotada , descrevendo como o risco de evento por unidade de tempo muda ao longo do tempo em níveis de linha de base de covariáveis; e os parâmetros de efeito, descrevendo como o perigo varia em resposta a covariáveis ​​explicativas. Um exemplo médico típico incluiria covariáveis, como atribuição de tratamento, bem como características do paciente, como idade no início do estudo, sexo e a presença de outras doenças no início do estudo, a fim de reduzir a variabilidade e / ou controle de confusão.

A condição de risco proporcional afirma que as covariáveis ​​estão multiplicativamente relacionadas ao risco. No caso mais simples de coeficientes estacionários, por exemplo, um tratamento com um medicamento pode, digamos, reduzir pela metade o risco de um sujeito em um determinado momento , enquanto o risco de linha de base pode variar. Observe, entretanto, que isso não dobra a vida útil do sujeito; o efeito preciso das covariáveis ​​no tempo de vida depende do tipo de . A covariável não se restringe a preditores binários; no caso de uma covariável contínua , é normalmente assumido que o perigo responde exponencialmente; cada aumento de unidade nos resultados em escala proporcional do perigo.

O modelo Cox

A probabilidade parcial de Cox, mostrada abaixo, é obtida usando a estimativa de Breslow da função de risco da linha de base, conectando-a à probabilidade total e observando que o resultado é o produto de dois fatores. O primeiro fator é a probabilidade parcial mostrada abaixo, em que o risco da linha de base foi "cancelado". O segundo fator está livre dos coeficientes de regressão e depende dos dados apenas por meio do padrão de censura . O efeito das covariáveis ​​estimadas por qualquer modelo de risco proporcional pode, portanto, ser relatado como razões de risco .

Sir David Cox observou que, se a suposição de riscos proporcionais for válida (ou, presume-se que seja válida), então é possível estimar o (s) parâmetro (s) de efeito sem qualquer consideração da função de risco. Esta abordagem aos dados de sobrevivência é chamada de aplicação do modelo de riscos proporcionais de Cox , às vezes abreviado para o modelo de Cox ou para o modelo de riscos proporcionais . No entanto, Cox também observou que a interpretação biológica da suposição de riscos proporcionais pode ser bastante complicada.

Seja X i = ( X i 1 ,…, X ip ) os valores realizados das covariáveis ​​para o sujeito i . A função de risco para o modelo de riscos proporcionais de Cox tem a forma

Essa expressão fornece a função de risco no tempo t para o sujeito i com vetor de covariável (variáveis ​​explicativas) X i .

A probabilidade de o evento a ser observado ocorrer para o sujeito i no momento Y i pode ser escrita como:

onde θ j = exp ( X jβ ) e a soma é sobre o conjunto de sujeitos j onde o evento não ocorreu antes do tempo Y i (incluindo o próprio sujeito i ). Obviamente, 0 <  L i (β) ≤ 1. Esta é uma probabilidade parcial : o efeito das covariáveis ​​pode ser estimado sem a necessidade de modelar a mudança do perigo ao longo do tempo.

Tratando os sujeitos como se fossem estatisticamente independentes uns dos outros, a probabilidade conjunta de todos os eventos realizados é a seguinte probabilidade parcial, onde a ocorrência do evento é indicada por C i  = 1:

A probabilidade parcial logarítmica correspondente é

Esta função pode ser maximizada sobre β para produzir estimativas de máxima verossimilhança parcial dos parâmetros do modelo.

A função de pontuação parcial é

e a matriz Hessiana da probabilidade logarítmica parcial é

Usando esta função de pontuação e matriz Hessiana, a probabilidade parcial pode ser maximizada usando o algoritmo de Newton-Raphson . A inversa da matriz de Hessian, avaliada na estimativa de β , pode ser usada como uma matriz de variância-covariância aproximada para a estimativa e usada para produzir erros padrão aproximados para os coeficientes de regressão.

Tempos empatados

Diversas abordagens têm sido propostas para lidar com situações em que há empates nos dados de tempo. O método de Breslow descreve a abordagem em que o procedimento descrito acima é usado sem modificações, mesmo quando empates estão presentes. Uma abordagem alternativa considerada para dar melhores resultados é o método de Efron . Seja t j denotar os tempos únicos, seja H j o conjunto de índices i tais que Y i  =  t j e C i  = 1, e seja m j  = | H j |. A abordagem de Efron maximiza a seguinte probabilidade parcial.

A probabilidade parcial logarítmica correspondente é

a função de pontuação é

e a matriz Hessiana é

Onde

Observe que quando H j está vazio (todas as observações com tempo t j são censuradas), os somatórios nessas expressões são tratados como zero.

Preditores e coeficientes variáveis ​​no tempo

Extensões para variáveis ​​dependentes do tempo, estratos dependentes do tempo e vários eventos por assunto podem ser incorporados pela formulação do processo de contagem de Andersen e Gill. Um exemplo do uso de modelos de risco com regressores variáveis ​​no tempo é a estimativa do efeito do seguro-desemprego sobre os períodos de desemprego.

Além de permitir covariáveis ​​variáveis ​​no tempo (ou seja, preditores), o modelo de Cox também pode ser generalizado para coeficientes variáveis ​​no tempo. Ou seja, o efeito proporcional de um tratamento pode variar com o tempo; por exemplo, um medicamento pode ser muito eficaz se administrado dentro de um mês após a morbidade e tornar-se menos eficaz com o passar do tempo. A hipótese de nenhuma mudança com o tempo (estacionariedade) do coeficiente pode então ser testada. Detalhes e software ( pacote R ) estão disponíveis em Martinussen e Scheike (2006). A aplicação do modelo de Cox com covariáveis ​​que variam no tempo é considerada em matemática de confiabilidade.

Neste contexto, também pode ser mencionado que é teoricamente possível especificar o efeito das covariáveis ​​usando riscos aditivos, ou seja, especificando

Se tais modelos de riscos aditivos forem usados ​​em situações em que o objetivo é a maximização da probabilidade (log-), deve-se tomar cuidado para restringir a valores não negativos. Talvez como resultado dessa complicação, esses modelos raramente são vistos. Se o objetivo for, em vez disso, quadrados mínimos, a restrição de não negatividade não é estritamente necessária.

Especificando a função de risco de linha de base

O modelo de Cox pode ser especializado se houver uma razão para supor que o risco de linha de base segue uma forma particular. Nesse caso, o perigo da linha de base é substituído por uma determinada função. Por exemplo, assumir que a função de risco é a função de risco Weibull fornece o modelo de risco proporcional de Weibull .

Incidentalmente, usar o risco de linha de base Weibull é a única circunstância em que o modelo satisfaz tanto os riscos proporcionais quanto os modelos de tempo de falha acelerado .

O termo genérico modelos de riscos proporcionais paramétricos pode ser usado para descrever modelos de riscos proporcionais nos quais a função de risco é especificada. O modelo de riscos proporcionais de Cox às vezes é chamado de modelo semiparamétrico, por contraste.

Alguns autores usam o termo modelo de risco proporcional de Cox mesmo ao especificar a função de risco subjacente, para reconhecer a dívida de todo o campo para com David Cox.

O termo modelo de regressão de Cox (omitindo riscos proporcionais ) às vezes é usado para descrever a extensão do modelo de Cox para incluir fatores dependentes do tempo. No entanto, esse uso é potencialmente ambíguo, uma vez que o modelo de riscos proporcionais de Cox pode ser descrito como um modelo de regressão.

Relacionamento com modelos de Poisson

Há uma relação entre modelos de riscos proporcionais e modelos de regressão de Poisson que às vezes é usado para ajustar modelos de riscos proporcionais aproximados em software para regressão de Poisson. A razão usual para fazer isso é que o cálculo é muito mais rápido. Isso era mais importante na época dos computadores mais lentos, mas ainda pode ser útil para conjuntos de dados particularmente grandes ou problemas complexos. Laird e Olivier (1981) fornecem os detalhes matemáticos. Eles observam: "não presumimos que [o modelo de Poisson] seja verdadeiro, mas simplesmente o usamos como um dispositivo para derivar a probabilidade." O livro de McCullagh e Nelder sobre modelos lineares generalizados tem um capítulo sobre a conversão de modelos de riscos proporcionais em modelos lineares generalizados .

Sob configuração de alta dimensão

Em dimensão alta, quando o número de covariáveis ​​p é grande em comparação com o tamanho da amostra n, o método LASSO é uma das estratégias clássicas de seleção de modelo. Tibshirani (1997) propôs um procedimento Lasso para o parâmetro de regressão de risco proporcional. O estimador Lasso do parâmetro de regressão β é definido como o minimizador do oposto da probabilidade logarítmica parcial de Cox sob uma restrição do tipo norma L 1 .

Recentemente, houve progresso teórico neste tópico.

Veja também

Notas

Referências