Coeficiente de correlação de classificação de Kendall - Kendall rank correlation coefficient

Em estatística , o coeficiente de correlação de classificação de Kendall , comumente referido como coeficiente τ de Kendall (após a letra grega τ , tau), é uma estatística usada para medir a associação ordinal entre duas grandezas medidas. Um teste τ é um teste de hipótese não paramétrico para dependência estatística com base no coeficiente τ.

É uma medida de correlação de classificação : a similaridade das ordenações dos dados quando classificados por cada uma das quantidades. Recebeu o nome de Maurice Kendall , que o desenvolveu em 1938, embora Gustav Fechner tenha proposto uma medida semelhante no contexto de séries temporais em 1897.

Intuitivamente, a correlação entre duas variáveis Kendall será elevada quando observações têm uma semelhante (ou idêntico para uma correlação de 1) posto (ou seja etiqueta posição relativa das observações dentro da variável: 1a, 2a, 3a, etc.) entre os dois variáveis, e baixo quando as observações têm uma classificação diferente (ou totalmente diferente para uma correlação de -1) entre as duas variáveis.

Tanto o de Kendall quanto o de Spearman podem ser formulados como casos especiais de um coeficiente de correlação mais geral .

Definição

Todos os pontos na área cinza são concordantes e todos os pontos na área branca são discordantes em relação ao ponto . Com pontos, há um total de pares de pontos possíveis. Neste exemplo, existem 395 pares de pontos concordantes e 40 pares de pontos discordantes, levando a um coeficiente de correlação de classificação Kendall de 0,816.

Let Ser um conjunto de observações das variáveis ​​aleatórias conjuntas X e Y , tal que todos os valores de ( ) e ( ) são únicos (empates são negligenciados para simplificar). Qualquer par de observações e , onde , são considerados concordantes se a ordem de classificação de e concorda: isto é, se ambos e mantém ou ambos e ; do contrário, seriam discordantes .

O coeficiente Kendall τ é definido como:

Onde está o coeficiente binomial para o número de maneiras de escolher dois itens de n itens.

Propriedades

O denominador é o número total de combinações de pares, então o coeficiente deve estar no intervalo −1 ≤  τ  ≤ 1.

  • Se a concordância entre as duas classificações for perfeita (ou seja, as duas classificações são iguais), o coeficiente tem valor 1.
  • Se a discordância entre as duas classificações for perfeita (ou seja, uma classificação é o inverso da outra), o coeficiente tem valor -1.
  • Se X e Y forem independentes , esperaríamos que o coeficiente fosse aproximadamente zero.
  • Uma expressão explícita para o coeficiente de classificação de Kendall é .

Teste de hipótese

O coeficiente de classificação de Kendall é freqüentemente usado como uma estatística de teste em um teste de hipótese estatística para estabelecer se duas variáveis ​​podem ser consideradas como estatisticamente dependentes. Este teste é não paramétrico , uma vez que não se baseia em quaisquer suposições sobre as distribuições de X ou Y ou a distribuição de ( X , Y ).

Sob a hipótese nula de independência de X e Y , a distribuição amostral de τ tem um valor esperado zero. A distribuição precisa não pode ser caracterizada em termos de distribuições comuns, mas pode ser calculada exatamente para pequenas amostras; para amostras maiores, é comum usar uma aproximação da distribuição normal , com média zero e variância

.

Contabilizando empates

Diz-se que um par está empatado se ou ; um par empatado não é concordante nem discordante. Quando pares empatados surgem nos dados, o coeficiente pode ser modificado de várias maneiras para mantê-lo no intervalo [-1, 1]:

Tau-a

A estatística Tau-a testa a força de associação das tabulações cruzadas . Ambas as variáveis ​​devem ser ordinais . Tau-a não fará nenhum ajuste para gravatas. É definido como:

onde n c , n d e n 0 são definidos como na próxima seção.

Tau-b

A estatística Tau-b, ao contrário de Tau-a, faz ajustes para empates. Os valores de Tau-b variam de -1 (associação 100% negativa ou inversão perfeita) a +1 (associação 100% positiva ou concordância perfeita). Um valor zero indica a ausência de associação.

O coeficiente Kendall Tau-b é definido como:

Onde

Um algoritmo simples desenvolvido em BASIC calcula o coeficiente Tau-b usando uma fórmula alternativa.

Esteja ciente de que alguns pacotes estatísticos, por exemplo, SPSS, usam fórmulas alternativas para eficiência computacional, com o dobro do número 'usual' de pares concordantes e discordantes.

Tau-c

Tau-c (também chamado de Stuart-Kendall Tau-c) é mais adequado do que Tau-b para a análise de dados com base em tabelas de contingência não quadradas (isto é, retangulares) . Portanto, use Tau-b se a escala subjacente de ambas as variáveis ​​tiver o mesmo número de valores possíveis (antes da classificação) e Tau-c se eles forem diferentes. Por exemplo, uma variável pode ser pontuada em uma escala de 5 pontos (muito boa, boa, média, ruim, muito ruim), enquanto a outra pode ser baseada em uma escala mais precisa de 10 pontos.

O coeficiente Kendall Tau-c é definido como:

Onde

Testes de significância

Quando duas quantidades são estatisticamente independentes, a distribuição de não é facilmente caracterizável em termos de distribuições conhecidas. No entanto, para a seguinte estatística, é aproximadamente distribuído como um padrão normal quando as variáveis ​​são estatisticamente independentes:

Assim, para testar se duas variáveis ​​são estatisticamente dependentes, calcula-se e encontra a probabilidade cumulativa de uma distribuição normal padrão em . Para um teste bicaudal, multiplique esse número por dois para obter o valor p . Se o valor p estiver abaixo de um determinado nível de significância, rejeita-se a hipótese nula (naquele nível de significância) de que as quantidades são estatisticamente independentes.

Vários ajustes devem ser adicionados ao contabilizar os empates. A seguinte estatística,, tem a mesma distribuição que a distribuição e é novamente aproximadamente igual a uma distribuição normal padrão quando as quantidades são estatisticamente independentes:

Onde

Isso às vezes é chamado de teste de Mann-Kendall.

Algoritmos

O cálculo direto do numerador envolve duas iterações aninhadas, conforme caracterizado pelo seguinte pseudocódigo:

numer := 0
for i := 2..N do
    for j := 1..(i − 1) do
        numer := numer + sign(x[i] − x[j]) × sign(y[i] − y[j])
return numer

Embora rápido de implementar, esse algoritmo é complexo e se torna muito lento em grandes amostras. Um algoritmo mais sofisticado baseado no algoritmo Merge Sort pode ser usado para calcular o numerador no tempo.

Comece ordenando seus pontos de dados, ordenando pela primeira quantidade ,, e secundariamente (entre os empates em ) pela segunda quantidade ,. Com essa ordem inicial, não é classificado, e o núcleo do algoritmo consiste em calcular quantas etapas uma Classificação por bolha levaria para classificar esse inicial . Um algoritmo de classificação de mesclagem aprimorado , com complexidade, pode ser aplicado para calcular o número de trocas , que seria exigido por um Bubble Sort para classificar . Então, o numerador de é calculado como:

onde é calculado como e , mas com respeito aos laços de junta em e .

Uma classificação de mesclagem divide os dados a serem classificados em duas metades quase iguais e , a seguir, classifica cada metade recursiva e, em seguida, mescla as duas metades classificadas em um vetor totalmente classificado. O número de trocas de Bubble Sort é igual a:

onde e são as versões classificadas de e , e caracteriza o equivalente de troca do Bubble Sort para uma operação de mesclagem. é calculado conforme descrito no seguinte pseudocódigo:

function M(L[1..n], R[1..m]) is
    i := 1
    j := 1
    nSwaps := 0
    while i ≤ n and j ≤ m do
        if R[j] < L[i] then
            nSwaps := nSwaps + n − i + 1
            j := j + 1
        else
            i := i + 1
    return nSwaps

Um efeito colateral das etapas acima é que você acaba com uma versão classificada de e uma versão classificada de . Com eles, os fatores e usados ​​para calcular são facilmente obtidos em uma única passagem de tempo linear pelas matrizes classificadas.

Implementações de software

Veja também

Referências

Leitura adicional

links externos