Modelo de riscos proporcionais - Proportional hazards model
Modelos de riscos proporcionais são uma classe de modelos de sobrevivência nas estatísticas . Os modelos de sobrevivência relacionam o tempo que passa, antes que algum evento ocorra, a uma ou mais covariáveis que podem estar associadas a essa quantidade de tempo. Em um modelo de risco proporcional, o efeito único de um aumento de unidade em uma covariável é multiplicativo em relação à taxa de risco . Por exemplo, tomar um medicamento pode reduzir pela metade a taxa de risco de um acidente vascular cerebral ou, mudar o material do qual um componente fabricado é construído pode dobrar sua taxa de risco de falha. Outros tipos de modelos de sobrevivência, como modelos de tempo de falha acelerado , não apresentam riscos proporcionais. O modelo de tempo de falha acelerado descreve uma situação em que a história de vida biológica ou mecânica de um evento é acelerada (ou desacelerada).
Fundo
Os modelos de sobrevivência podem ser vistos como consistindo em duas partes: a função de risco de linha de base subjacente , freqüentemente denotada , descrevendo como o risco de evento por unidade de tempo muda ao longo do tempo em níveis de linha de base de covariáveis; e os parâmetros de efeito, descrevendo como o perigo varia em resposta a covariáveis explicativas. Um exemplo médico típico incluiria covariáveis, como atribuição de tratamento, bem como características do paciente, como idade no início do estudo, sexo e a presença de outras doenças no início do estudo, a fim de reduzir a variabilidade e / ou controle de confusão.
A condição de risco proporcional afirma que as covariáveis estão multiplicativamente relacionadas ao risco. No caso mais simples de coeficientes estacionários, por exemplo, um tratamento com um medicamento pode, digamos, reduzir pela metade o risco de um sujeito em um determinado momento , enquanto o risco de linha de base pode variar. Observe, entretanto, que isso não dobra a vida útil do sujeito; o efeito preciso das covariáveis no tempo de vida depende do tipo de . A covariável não se restringe a preditores binários; no caso de uma covariável contínua , é normalmente assumido que o perigo responde exponencialmente; cada aumento de unidade nos resultados em escala proporcional do perigo.
O modelo Cox
A probabilidade parcial de Cox, mostrada abaixo, é obtida usando a estimativa de Breslow da função de risco da linha de base, conectando-a à probabilidade total e observando que o resultado é o produto de dois fatores. O primeiro fator é a probabilidade parcial mostrada abaixo, em que o risco da linha de base foi "cancelado". O segundo fator está livre dos coeficientes de regressão e depende dos dados apenas por meio do padrão de censura . O efeito das covariáveis estimadas por qualquer modelo de risco proporcional pode, portanto, ser relatado como razões de risco .
Sir David Cox observou que, se a suposição de riscos proporcionais for válida (ou, presume-se que seja válida), então é possível estimar o (s) parâmetro (s) de efeito sem qualquer consideração da função de risco. Esta abordagem aos dados de sobrevivência é chamada de aplicação do modelo de riscos proporcionais de Cox , às vezes abreviado para o modelo de Cox ou para o modelo de riscos proporcionais . No entanto, Cox também observou que a interpretação biológica da suposição de riscos proporcionais pode ser bastante complicada.
Seja X i = ( X i 1 ,…, X ip ) os valores realizados das covariáveis para o sujeito i . A função de risco para o modelo de riscos proporcionais de Cox tem a forma
Essa expressão fornece a função de risco no tempo t para o sujeito i com vetor de covariável (variáveis explicativas) X i .
A probabilidade de o evento a ser observado ocorrer para o sujeito i no momento Y i pode ser escrita como:
onde θ j = exp ( X j ⋅ β ) e a soma é sobre o conjunto de sujeitos j onde o evento não ocorreu antes do tempo Y i (incluindo o próprio sujeito i ). Obviamente, 0 < L i (β) ≤ 1. Esta é uma probabilidade parcial : o efeito das covariáveis pode ser estimado sem a necessidade de modelar a mudança do perigo ao longo do tempo.
Tratando os sujeitos como se fossem estatisticamente independentes uns dos outros, a probabilidade conjunta de todos os eventos realizados é a seguinte probabilidade parcial, onde a ocorrência do evento é indicada por C i = 1:
A probabilidade parcial logarítmica correspondente é
Esta função pode ser maximizada sobre β para produzir estimativas de máxima verossimilhança parcial dos parâmetros do modelo.
A função de pontuação parcial é
e a matriz Hessiana da probabilidade logarítmica parcial é
Usando esta função de pontuação e matriz Hessiana, a probabilidade parcial pode ser maximizada usando o algoritmo de Newton-Raphson . A inversa da matriz de Hessian, avaliada na estimativa de β , pode ser usada como uma matriz de variância-covariância aproximada para a estimativa e usada para produzir erros padrão aproximados para os coeficientes de regressão.
Tempos empatados
Diversas abordagens têm sido propostas para lidar com situações em que há empates nos dados de tempo. O método de Breslow descreve a abordagem em que o procedimento descrito acima é usado sem modificações, mesmo quando empates estão presentes. Uma abordagem alternativa considerada para dar melhores resultados é o método de Efron . Seja t j denotar os tempos únicos, seja H j o conjunto de índices i tais que Y i = t j e C i = 1, e seja m j = | H j |. A abordagem de Efron maximiza a seguinte probabilidade parcial.
A probabilidade parcial logarítmica correspondente é
a função de pontuação é
e a matriz Hessiana é
Onde
Observe que quando H j está vazio (todas as observações com tempo t j são censuradas), os somatórios nessas expressões são tratados como zero.
Preditores e coeficientes variáveis no tempo
Extensões para variáveis dependentes do tempo, estratos dependentes do tempo e vários eventos por assunto podem ser incorporados pela formulação do processo de contagem de Andersen e Gill. Um exemplo do uso de modelos de risco com regressores variáveis no tempo é a estimativa do efeito do seguro-desemprego sobre os períodos de desemprego.
Além de permitir covariáveis variáveis no tempo (ou seja, preditores), o modelo de Cox também pode ser generalizado para coeficientes variáveis no tempo. Ou seja, o efeito proporcional de um tratamento pode variar com o tempo; por exemplo, um medicamento pode ser muito eficaz se administrado dentro de um mês após a morbidade e tornar-se menos eficaz com o passar do tempo. A hipótese de nenhuma mudança com o tempo (estacionariedade) do coeficiente pode então ser testada. Detalhes e software ( pacote R ) estão disponíveis em Martinussen e Scheike (2006). A aplicação do modelo de Cox com covariáveis que variam no tempo é considerada em matemática de confiabilidade.
Neste contexto, também pode ser mencionado que é teoricamente possível especificar o efeito das covariáveis usando riscos aditivos, ou seja, especificando
Se tais modelos de riscos aditivos forem usados em situações em que o objetivo é a maximização da probabilidade (log-), deve-se tomar cuidado para restringir a valores não negativos. Talvez como resultado dessa complicação, esses modelos raramente são vistos. Se o objetivo for, em vez disso, quadrados mínimos, a restrição de não negatividade não é estritamente necessária.
Especificando a função de risco de linha de base
O modelo de Cox pode ser especializado se houver uma razão para supor que o risco de linha de base segue uma forma particular. Nesse caso, o perigo da linha de base é substituído por uma determinada função. Por exemplo, assumir que a função de risco é a função de risco Weibull fornece o modelo de risco proporcional de Weibull .
Incidentalmente, usar o risco de linha de base Weibull é a única circunstância em que o modelo satisfaz tanto os riscos proporcionais quanto os modelos de tempo de falha acelerado .
O termo genérico modelos de riscos proporcionais paramétricos pode ser usado para descrever modelos de riscos proporcionais nos quais a função de risco é especificada. O modelo de riscos proporcionais de Cox às vezes é chamado de modelo semiparamétrico, por contraste.
Alguns autores usam o termo modelo de risco proporcional de Cox mesmo ao especificar a função de risco subjacente, para reconhecer a dívida de todo o campo para com David Cox.
O termo modelo de regressão de Cox (omitindo riscos proporcionais ) às vezes é usado para descrever a extensão do modelo de Cox para incluir fatores dependentes do tempo. No entanto, esse uso é potencialmente ambíguo, uma vez que o modelo de riscos proporcionais de Cox pode ser descrito como um modelo de regressão.
Relacionamento com modelos de Poisson
Há uma relação entre modelos de riscos proporcionais e modelos de regressão de Poisson que às vezes é usado para ajustar modelos de riscos proporcionais aproximados em software para regressão de Poisson. A razão usual para fazer isso é que o cálculo é muito mais rápido. Isso era mais importante na época dos computadores mais lentos, mas ainda pode ser útil para conjuntos de dados particularmente grandes ou problemas complexos. Laird e Olivier (1981) fornecem os detalhes matemáticos. Eles observam: "não presumimos que [o modelo de Poisson] seja verdadeiro, mas simplesmente o usamos como um dispositivo para derivar a probabilidade." O livro de McCullagh e Nelder sobre modelos lineares generalizados tem um capítulo sobre a conversão de modelos de riscos proporcionais em modelos lineares generalizados .
Sob configuração de alta dimensão
Em dimensão alta, quando o número de covariáveis p é grande em comparação com o tamanho da amostra n, o método LASSO é uma das estratégias clássicas de seleção de modelo. Tibshirani (1997) propôs um procedimento Lasso para o parâmetro de regressão de risco proporcional. O estimador Lasso do parâmetro de regressão β é definido como o minimizador do oposto da probabilidade logarítmica parcial de Cox sob uma restrição do tipo norma L 1 .
Recentemente, houve progresso teórico neste tópico.
Veja também
Notas
Referências
- Bagdonavicius, V .; Levuliene, R .; Nikulin, M. (2010). "Critérios de adequação para o modelo de Cox a partir de dados truncados à esquerda e censurados à direita". Journal of Mathematical Sciences . 167 (4): 436–443. doi : 10.1007 / s10958-010-9929-6 .
- Cox, DR; Oakes, D. (1984). Análise de dados de sobrevivência . Nova York: Chapman & Hall. ISBN 978-0412244902.
- Collett, D. (2003). Modeling Survival Data in Medical Research (2ª ed.). Boca Raton: CRC. ISBN 978-1584883258.
- Gouriéroux, Christian (2000). "Modelos de duração" . Econometria de variáveis dependentes qualitativas . Nova York: Cambridge University Press. pp. 284–362. ISBN 978-0-521-58985-7.
- Singer, Judith D .; Willett, John B. (2003). "Adaptando modelos de regressão de Cox" . Análise de dados longitudinais aplicada: modelagem de mudanças e ocorrência de eventos . Nova York: Oxford University Press. pp. 503–542. ISBN 978-0-19-515296-8.
- Therneau, TM; Grambsch, PM (2000). Modelando Dados de Sobrevivência: Estendendo o Modelo de Cox . Nova York: Springer. ISBN 978-0387987842.