Correção de Bessel - Bessel's correction

Em estatística , a correção de Bessel é o uso de n  - 1 em vez de n na fórmula para a variância da amostra e o desvio padrão da amostra , onde n é o número de observações em uma amostra . Este método corrige o viés na estimativa da variância da população. Também corrige parcialmente o viés na estimativa do desvio padrão da população. No entanto, a correção geralmente aumenta o erro quadrático médio nessas estimativas. Esta técnica tem o nome de Friedrich Bessel .

Ao estimar a variância da população de uma amostra quando a média da população é desconhecida, a variância da amostra não corrigida é a média dos quadrados dos desvios dos valores da amostra da média da amostra (ou seja, usando um fator multiplicativo 1 / n ). Nesse caso, a variância da amostra é um estimador enviesado da variância da população.

Multiplicando a variância da amostra não corrigida pelo fator

fornece um estimador imparcial da variância da população. Em alguma literatura, o fator acima é chamado de correção de Bessel .

Pode-se entender a correção de Bessel como os graus de liberdade na resíduos vector (resíduos, e não erros, porque a média da população é desconhecida):

onde está a média da amostra. Embora existam n observações independentes na amostra, há apenas n  - 1 resíduos independentes, pois somam 0. Para uma explicação mais intuitiva da necessidade da correção de Bessel, consulte § Fonte da tendência .

Geralmente a correção de Bessel é uma abordagem para reduzir o viés devido ao tamanho finito da amostra. Essa correção de polarização de amostra finita também é necessária para outras estimativas, como distorção e curtose , mas nessas as imprecisões costumam ser significativamente maiores. Para remover totalmente esse viés, é necessário fazer uma estimativa multiparâmetro mais complexa. Por exemplo, uma correção correta para o desvio padrão depende da curtose (4º momento central normalizado), mas isso novamente tem um viés de amostra finito e depende do desvio padrão, ou seja, ambas as estimativas devem ser combinadas.

Ressalvas

Existem três ressalvas a serem consideradas em relação à correção de Bessel:

  1. Não produz um estimador imparcial do desvio padrão .
  2. O estimador corrigido geralmente tem um erro quadrático médio mais alto (MSE) do que o estimador não corrigido. Além disso, não há distribuição da população para a qual tem o MSE mínimo porque um fator de escala diferente pode sempre ser escolhido para minimizar o MSE.
  3. Só é necessário quando a média da população é desconhecida (e estimada como a média da amostra). Na prática, isso geralmente acontece.

Em primeiro lugar, enquanto a variância da amostra (usando a correção de Bessel) é um estimador imparcial da variância da população, sua raiz quadrada , o desvio padrão da amostra, é uma estimativa enviesada do desvio padrão da população; como a raiz quadrada é uma função côncava , o viés é para baixo, pela desigualdade de Jensen . Não existe uma fórmula geral para um estimador imparcial do desvio padrão da população, embora existam fatores de correção para distribuições particulares, como a normal; consulte a estimativa imparcial do desvio padrão para obter detalhes. Uma aproximação para o fator de correção exato para a distribuição normal é dada usando n  - 1,5 na fórmula: a tendência decai quadraticamente (ao invés de linearmente, como na forma não corrigida e na forma corrigida de Bessel).

Em segundo lugar, o estimador imparcial não minimiza o erro quadrático médio (MSE), e geralmente tem MSE pior do que o estimador não corrigido (isso varia com o excesso de curtose ). MSE pode ser minimizado usando um fator diferente. O valor ideal depende do excesso de curtose, conforme discutido no erro quadrático médio: variância ; para a distribuição normal, isso é otimizado dividindo por n  + 1 (em vez de n  - 1 ou n ).

Em terceiro lugar, a correção de Bessel só é necessária quando a média da população é desconhecida, e se estima tanto a média da população quanto a variância da população de uma determinada amostra, usando a média da amostra para estimar a média da população. Nesse caso, existem n graus de liberdade em uma amostra de n pontos, e a estimativa simultânea de média e variância significa que um grau de liberdade vai para a média da amostra e os n  - 1 graus de liberdade restantes (os resíduos ) vão para a amostra variância. No entanto, se a média da população for conhecida, então os desvios das observações da média da população têm n graus de liberdade (porque a média não está sendo estimada - os desvios não são resíduos, mas erros ) e a correção de Bessel não é aplicável.

Fonte de preconceito

Mais simplesmente, para entender o preconceito que precisa ser corrigido, pense em um caso extremo. Suponha que a população seja (0,0,0,1,2,9), que tem uma média populacional de 2 e uma variância populacional de 10 1/3. Uma amostra de n = 1 é desenhada e resulta ser A melhor estimativa da média da população é Mas e se usarmos a fórmula para estimar a variância? A estimativa da variância seria zero --- e a estimativa seria zero para qualquer população e qualquer amostra de n = 1. O problema é que, ao estimar a média da amostra, o processo já fez nossa estimativa da média próxima de o valor que amostramos - idêntico, para n = 1. No caso de n = 1, a variância simplesmente não pode ser estimada, porque não há variabilidade na amostra.

Mas considere n = 2. Suponha que a amostra fosse (0, 2). Então e , mas com a correção de Bessel , que é uma estimativa não enviesada (se todas as amostras possíveis de n = 2 forem tomadas e este método for usado, a estimativa média será de 12,4, o mesmo que a variância da amostra com a correção de Bessel.)

Para ver isso com mais detalhes, considere o exemplo a seguir. Suponha que a média de toda a população seja 2050, mas o estatístico não sabe disso e deve estimá-la com base nesta pequena amostra escolhida aleatoriamente da população:

Pode-se calcular a média da amostra:

Isso pode servir como uma estimativa observável da média da população não observável, que é 2050. Agora, enfrentamos o problema de estimar a variância da população. Essa é a média dos quadrados dos desvios de 2050. Se soubéssemos que a média da população é 2050, poderíamos proceder da seguinte forma:

Mas nossa estimativa da média da população é a média da amostra, 2052. A média real, 2050, é desconhecida. Portanto, a média da amostra, 2052, deve ser usada:

A variação agora é muito menor. Conforme comprovado abaixo, a variância quase sempre será menor quando calculada usando a soma das distâncias ao quadrado com a média da amostra, em comparação com o uso da soma das distâncias ao quadrado com a média da população. A única exceção é quando a média da amostra passa a ser igual à média da população, caso em que a variância também é igual.

Para ver por que isso acontece, usamos uma identidade simples em álgebra:

Com a representação do desvio de uma amostra individual da média da amostra e representando o desvio da média da amostra da média da população. Observe que simplesmente decomponhamos o desvio real de uma amostra individual da média da população (desconhecida) em dois componentes: o desvio da amostra única da média da amostra, que podemos calcular, e o desvio adicional da média da amostra de a população média, o que não podemos. Agora, aplicamos essa identidade aos quadrados dos desvios da média da população:

Agora aplique isso a todas as cinco observações e observe certos padrões:

A soma das entradas na coluna do meio deve ser zero porque o termo a será adicionado em todas as 5 linhas, que devem ser iguais a zero. Isso ocorre porque a contém as 5 amostras individuais (lado esquerdo entre parênteses) que - quando adicionadas - naturalmente têm a mesma soma que adicionar 5 vezes a média da amostra desses 5 números (2052). Isso significa que uma subtração dessas duas somas deve ser igual a zero. O fator 2 e o termo b na coluna do meio são iguais para todas as linhas, o que significa que a diferença relativa em todas as linhas da coluna do meio permanece a mesma e, portanto, pode ser desconsiderada. As seguintes declarações explicam o significado das colunas restantes:

  • A soma das entradas na primeira coluna ( a 2 ) é a soma dos quadrados da distância da amostra à média da amostra;
  • A soma das entradas na última coluna ( b 2 ) é a soma das distâncias quadradas entre a média da amostra medida e a média da população correta
  • Cada linha agora consiste em pares de a 2 (enviesado, porque a média da amostra é usada) eb 2 (correção do enviesamento, porque leva em consideração a diferença entre a média populacional "real" e a média amostral imprecisa). Portanto, a soma de todas as entradas da primeira e última coluna agora representa a variância correta, o que significa que agora a soma da distância quadrada entre as amostras e a média da população é usada
  • A soma de a um 2 -column e o b 2 -column deve ser maior do que a soma dentro entradas do um 2 -column, uma vez que todas as entradas na b 2 -column são positivas (excepto quando a média da população é a mesma como a média da amostra, caso em que todos os números na última coluna serão 0).

Portanto:

  • A soma dos quadrados da distância das amostras à média da população será sempre maior do que a soma dos quadrados da distância da média da amostra , exceto quando a média da amostra passa a ser igual à média da população, caso em que os dois são iguais.

É por isso que a soma dos quadrados dos desvios da média da amostra é muito pequena para fornecer uma estimativa não enviesada da variância da população quando a média desses quadrados é encontrada. Quanto menor o tamanho da amostra, maior é a diferença entre a variância da amostra e a variância da população.

Terminologia

Esta correção é tão comum que os termos "variância da amostra" e "desvio padrão da amostra" são frequentemente usados ​​para significar os estimadores corrigidos (variação da amostra não enviesada, desvio padrão da amostra menos enviesada), usando n  - 1. No entanto, é necessário cuidado: algumas calculadoras e os pacotes de software podem fornecer ambos ou apenas a formulação mais incomum. Este artigo usa os seguintes símbolos e definições:

  • μ é a média da população
  • é a média da amostra
  • σ 2 é a variância da população
  • s n 2 é a variância da amostra enviesada (ou seja, sem a correção de Bessel)
  • s 2 é a variância da amostra imparcial (ou seja, com a correção de Bessel)

Os desvios padrão serão então as raízes quadradas das respectivas variâncias. Uma vez que a raiz quadrada introduz viés, a terminologia "não corrigido" e "corrigido" é preferida para os estimadores de desvio padrão:

  • s n é o desvio padrão da amostra não corrigido (ou seja, sem a correção de Bessel)
  • s é o desvio padrão da amostra corrigido (ou seja, com a correção de Bessel), que é menos enviesado, mas ainda enviesado

Fórmula

A média da amostra é dada por

A variação da amostra enviesada é então escrita:

e a variação de amostra imparcial é escrita:

Prova de correção

Alternativa 1

Como um fato de fundo, usamos a identidade que segue da definição do desvio padrão e da linearidade da expectativa .

Uma observação muito útil é que, para qualquer distribuição, a variância é igual a metade do valor esperado de quando são uma amostra independente dessa distribuição. Para provar esta observação, usaremos isso (que decorre do fato de que eles são independentes), bem como linearidade de expectativa:

Agora que a observação está comprovada, é suficiente mostrar que a diferença quadrática esperada de duas observações da população da amostra é igual a vezes a diferença quadrática esperada de duas observações da distribuição original. Para ver isso, observe que quando escolhemos e via u , v sendo inteiros selecionados independentemente e uniformemente de 1 a n , uma fração do tempo teremos u  =  v e, portanto, a diferença quadrática amostrada é zero independente da distribuição original. No restante do tempo, o valor de é a diferença quadrática esperada entre duas observações independentes da distribuição original. Portanto, dividir a diferença quadrática esperada da amostra por , ou multiplicar de forma equivalente por, fornece uma estimativa não enviesada da diferença quadrática esperada original.

Alternativa 2

Reciclando uma identidade para variação ,

tão

e por definição,

Observe que, uma vez que x 1x 2 , ...,  x n são uma amostra aleatória de uma distribuição com variância σ 2 , segue-se que para cada i  = 1, 2, ...,  n :

e também

Esta é uma propriedade da variância de variáveis ​​não correlacionadas, proveniente da fórmula de Bienaymé . O resultado necessário é então obtido substituindo estas duas fórmulas:

Alternativa 3

A discrepância esperada entre o estimador enviesado e a verdadeira variância é

Portanto, o valor esperado do estimador enviesado será

Portanto, um estimador imparcial deve ser dado por

Intuição

No estimador tendencioso, ao usar a média da amostra em vez da média verdadeira, você está subestimando cada x i  -  µ por x  -  µ . Sabemos que a variância de uma soma é a soma das variâncias (para variáveis ​​não correlacionadas). Portanto, para encontrar a discrepância entre o estimador enviesado e a variância verdadeira, precisamos apenas encontrar o valor esperado de ( x  -  µ ) 2 .

Esta é apenas a variância da média da amostra , que é σ 2 / n . Portanto, esperamos que o estimador enviesado subestime σ 2 por σ 2 / n , e assim o estimador enviesado = (1 - 1 / n ) × o estimador não enviesado = ( n  - 1) / n × o estimador não enviesado.

Veja também

Notas

links externos