Skewness - Skewness

Distribuição de exemplo com assimetria não negativa (positiva). Esses dados são de experimentos de crescimento de grama de trigo.

Em teoria de probabilidade e estatística , a assimetria é uma medida da assimetria da distribuição de probabilidade de uma variável aleatória avaliada em real em relação à sua média. O valor de assimetria pode ser positivo, zero, negativo ou indefinido.

Para uma distribuição unimodal , a inclinação negativa geralmente indica que a cauda está no lado esquerdo da distribuição e a inclinação positiva indica que a cauda está à direita. Nos casos em que uma cauda é longa, mas a outra é gorda, a assimetria não obedece a uma regra simples. Por exemplo, um valor zero significa que as caudas em ambos os lados da média se equilibram em geral; este é o caso de uma distribuição simétrica, mas também pode ser verdadeiro para uma distribuição assimétrica em que uma cauda é longa e fina e a outra é curta, mas gorda.

Introdução

Considere as duas distribuições na figura abaixo. Em cada gráfico, os valores do lado direito da distribuição diminuem de maneira diferente dos valores do lado esquerdo. Esses lados estreitos são chamados de caudas e fornecem um meio visual para determinar qual dos dois tipos de distorção uma distribuição tem:

  1. inclinação negativa : a cauda esquerda é mais longa; a massa da distribuição está concentrada à direita da figura. A distribuição está a ser ditodeixou-enviesada,deixou de cauda, ouinclinado para a esquerda, apesar do fato de que a própria curva parece ser distorcida ou inclinar-se para a direita; à esquerda, emvez disso, refere-se à cauda esquerda sendo desenhada e, frequentemente, a média sendo inclinada para a esquerda de um centro típico dos dados. Uma distribuição inclinada para a esquerda geralmente aparece como umacurvainclinada para a direita.
  2. inclinação positiva : a cauda direita é mais longa; a massa da distribuição está concentrada à esquerda da figura. A distribuição é dito serdesviada para direita,de cauda para a direita, ouinclinado para a direita, apesar do fato de que a própria curva parece ser distorcida ou inclinar-se para a esquerda; direita, emvez disso, refere-se à cauda direita sendo desenhada e, frequentemente, a média sendo inclinada para a direita de um centro típico dos dados. Uma distribuição inclinada para a direita geralmente aparece como umacurvainclinada para a esquerda.

Diagramas de inclinação negativa e positiva (inglês) .svg

A assimetria em uma série de dados pode às vezes ser observada não apenas graficamente, mas pela simples inspeção dos valores. Por exemplo, considere a sequência numérica (49, 50, 51), cujos valores são uniformemente distribuídos em torno de um valor central de 50. Podemos transformar essa sequência em uma distribuição distorcida negativamente adicionando um valor muito abaixo da média, que é provavelmente um outlier negativo , por exemplo (40, 49, 50, 51). Portanto, a média da sequência passa a ser 47,5 e a mediana é 49,5. Com base na fórmula de inclinação não paramétrica , definida como a inclinação é negativa. Da mesma forma, podemos tornar a sequência distorcida positivamente adicionando um valor muito acima da média, que provavelmente é um valor discrepante positivo, por exemplo, (49, 50, 51, 60), onde a média é 52,5 e a mediana é 50,5.

Conforme mencionado anteriormente, uma distribuição unimodal com valor zero de assimetria não implica que essa distribuição seja necessariamente simétrica. No entanto, uma distribuição simétrica unimodal ou multimodal sempre tem assimetria zero.

Exemplo de uma distribuição assimétrica com distorção zero. Esta figura serve como um contra-exemplo de que a assimetria zero não implica necessariamente uma distribuição simétrica. (A assimetria foi calculada pelo coeficiente de momento de assimetria de Pearson.)

Relação de média e mediana

A assimetria não está diretamente relacionada à relação entre a média e a mediana: uma distribuição com assimetria negativa pode ter sua média maior ou menor que a mediana, e da mesma forma para a inclinação positiva.

Uma relação geral de média e mediana sob distribuição unimodal com distorção diferente

Na noção mais antiga de inclinação não paramétrica , definida como onde está a média , é a mediana e é o desvio padrão , a assimetria é definida em termos desta relação: inclinação não paramétrica positiva / direita significa que a média é maior que (para a direita da) mediana, enquanto a inclinação não paramétrica negativa / esquerda significa que a média é menor que (à esquerda) da mediana. No entanto, a definição moderna de assimetria e a definição não paramétrica tradicional nem sempre têm o mesmo sinal: embora concordem para algumas famílias de distribuições, elas diferem em alguns dos casos, e combiná-las é enganoso.

Se a distribuição for simétrica , a média será igual à mediana e a distribuição terá assimetria zero. Se a distribuição for simétrica e unimodal , então a média = mediana = moda . Este é o caso de uma moeda ao ar ou da série 1,2,3,4, ... Observe, no entanto, que o inverso não é verdadeiro em geral, ou seja, a assimetria zero (definida abaixo) não implica que a média seja igual para a mediana.

Um artigo de jornal de 2005 aponta:

Muitos livros ensinam uma regra prática afirmando que a média está à direita da mediana sob a inclinação para a direita e à esquerda da mediana sob a inclinação para a esquerda. Essa regra falha com uma frequência surpreendente. Ele pode falhar em distribuições multimodais ou em distribuições em que uma cauda é longa, mas a outra é pesada . Mais comumente, porém, a regra falha em distribuições discretas onde as áreas à esquerda e à direita da mediana não são iguais. Essas distribuições não apenas contradizem a relação do livro-texto entre média, mediana e inclinação, mas também contradizem a interpretação do livro-texto da mediana.

Distribuição de residentes adultos nas residências dos EUA

Por exemplo, na distribuição de residentes adultos nas residências dos Estados Unidos, a inclinação é para a direita. No entanto, como a maioria dos casos é menor ou igual à moda, que também é a mediana, a média fica na cauda esquerda mais pesada. Como resultado, a regra prática de que a média está à direita da mediana sob a inclinação à direita falhou.

Definição

Coeficiente de assimetria de momento de Fisher

A assimetria de uma variável aleatória X é o terceiro momento padronizado , definido como:

onde μ é a média, σ é o desvio padrão , E é o operador de expectativa , μ 3 é o terceiro momento central e κ t são os t -ésimos cumulantes . Às vezes é referido como coeficiente de assimetria de Pearson ou simplesmente coeficiente de assimetria de momento , mas não deve ser confundido com outras estatísticas de assimetria de Pearson (veja abaixo). A última igualdade expressa assimetria em termos da razão do terceiro cumulante κ 3 para a 1,5ª potência do segundo cumulante κ 2 . Isso é análogo à definição de curtose como o quarto cumulante normalizado pelo quadrado do segundo cumulante. A assimetria também é às vezes denotada Skew [ X ].

Se σ é finito, μ também é finito e a assimetria pode ser expressa em termos do momento não central E [ X 3 ] expandindo a fórmula anterior,

Exemplos

A assimetria pode ser infinita, como quando

onde os terceiros cumulantes são infinitos, ou como quando

onde o terceiro cumulante é indefinido.

Exemplos de distribuições com assimetria finita incluem o seguinte.

Amostra de assimetria

Para uma amostra de n valores, dois métodos naturais de estimadores de momentos da assimetria da população são

e

onde é a média da amostra , s é o desvio padrão da amostra , m 2 é o segundo momento central da amostra (enviesado) e m 3 é o terceiro momento central da amostra.

Outra definição comum de assimetria da amostra é

onde é o único estimador simétrico não enviesado do terceiro cumulante e é o estimador simétrico não enviesado do segundo cumulante (ou seja, a variância da amostra ). Este coeficiente de momento padronizado de Fisher-Pearson ajustado é a versão encontrada no Excel e em vários pacotes estatísticos, incluindo Minitab , SAS e SPSS .

Partindo do pressuposto de que a variável aleatória subjacente é normalmente distribuída, pode-se mostrar que todas as três razões , e são estimadores imparciais e consistentes da assimetria da população , com , ou seja, suas distribuições convergem para uma distribuição normal com média 0 e variância 6 ( Fisher, 1930). A variação da assimetria da amostra é, portanto, aproximadamente para amostras suficientemente grandes. Mais precisamente, em uma amostra aleatória de tamanho n de uma distribuição normal,

Em amostras normais, tem a menor variância dos três estimadores, com

Para distribuições não normais , e geralmente são estimadores enviesados da assimetria da população ; seus valores esperados podem até ter o sinal oposto da verdadeira assimetria. Por exemplo, uma distribuição mista que consiste em gaussianas muito finas centradas em -99, 0,5 e 2 com pesos 0,01, 0,66 e 0,33 tem uma assimetria de cerca de -9,77, mas em uma amostra de 3 tem um valor esperado de cerca de 0,32, já que geralmente todas as três amostras estão na parte de valor positivo da distribuição, que é distorcida para o outro lado.

Formulários

Skewness é uma estatística descritiva que pode ser usada em conjunto com o histograma e o gráfico de quantis normal para caracterizar os dados ou distribuição.

A assimetria indica a direção e a magnitude relativa do desvio de uma distribuição em relação à distribuição normal.

Com assimetria pronunciada, os procedimentos de inferência estatística padrão, como um intervalo de confiança para uma média, não serão apenas incorretos, no sentido de que o nível de cobertura real será diferente do nível nominal (por exemplo, 95%), mas também resultarão em desigualdade probabilidades de erro em cada lado.

A assimetria pode ser usada para obter probabilidades aproximadas e quantis de distribuições (como valor em risco em finanças) por meio da expansão Cornish-Fisher .

Muitos modelos assumem distribuição normal; ou seja, os dados são simétricos em relação à média. A distribuição normal tem uma assimetria de zero. Mas, na realidade, os pontos de dados podem não ser perfeitamente simétricos. Portanto, uma compreensão da distorção do conjunto de dados indica se os desvios da média serão positivos ou negativos.

O teste K-quadrado de D'Agostino é um teste de normalidade de ajuste perfeito baseado na assimetria e curtose da amostra.

Outras medidas de assimetria

Comparação de média , mediana e moda de duas distribuições log-normais com as mesmas medianas e assimetrias diferentes.

Outras medidas de assimetria foram usadas, incluindo cálculos mais simples sugeridos por Karl Pearson (não confundir com o coeficiente de momento de assimetria de Pearson, veja acima). Essas outras medidas são:

Primeiro coeficiente de assimetria de Pearson (modo de assimetria)

O modo de assimetria de Pearson, ou primeiro coeficiente de assimetria, é definido como

significa - modo/desvio padrão.

Segundo coeficiente de assimetria de Pearson (assimetria mediana)

A assimetria mediana de Pearson, ou segundo coeficiente de assimetria, é definida como

3 ( média - mediana )/desvio padrão.

Que é um simples múltiplo da inclinação não paramétrica .

Vale ressaltar que, como a assimetria não está relacionada a uma relação de ordem entre modo, média e mediana, o sinal desses coeficientes não fornece informações sobre o tipo de assimetria (esquerda / direita).

Medidas baseadas em quantis

A medida de assimetria de Bowley (de 1901), também chamada de coeficiente de Yule (de 1912), é definida como:

O numerador é a diferença entre a média dos quartis superior e inferior (uma medida de localização) e a mediana (outra medida de localização), enquanto o denominador é o intervalo semiperquartil , que para distribuições simétricas é a medida MAD de dispersão .

Outros nomes para esta medida são a medida de assimetria de Galton, o índice Yule-Kendall e o quartil de assimetria,

Uma formulação mais geral de uma função de assimetria foi descrita por Groeneveld, RA e Meeden, G. (1984):

onde F é a função de distribuição cumulativa . Isso leva a uma medida geral correspondente de assimetria definida como o supremo disso no intervalo 1/2 ≤  u  <1. Outra medida pode ser obtida integrando o numerador e o denominador dessa expressão. A função γ ( u ) satisfaz −1 ≤  γ ( u ) ≤ 1 e é bem definida sem exigir a existência de quaisquer momentos da distribuição. Medidas de assimetria baseadas em quantis são fáceis de interpretar à primeira vista, mas frequentemente mostram variações de amostra significativamente maiores do que métodos baseados em momentos. Isso significa que muitas vezes as amostras de uma distribuição simétrica (como a distribuição uniforme) têm uma grande assimetria baseada em quantis, apenas por acaso.

A medida de assimetria de Bowley é γ ( u ) avaliada em u  = 3/4. A medida de assimetria de Kelley usa u = 0,1.

Coeficiente de Groeneveld e Meeden

Groeneveld e Meeden sugeriram, como uma medida alternativa de assimetria,

onde μ é a média, ν é a mediana, | ... | é o valor absoluto e E () é o operador de expectativa. Isso está intimamente relacionado na forma ao segundo coeficiente de assimetria de Pearson .

Momentos L

O uso de momentos L em vez de momentos fornece uma medida de assimetria conhecida como a assimetria L.

Distorção

Um valor de assimetria igual a zero não significa que a distribuição de probabilidade seja simétrica. Portanto, há uma necessidade de outra medida de assimetria que tenha essa propriedade: tal medida foi introduzida em 2000. É chamada de assimetria de distância e denotada por dSkew. Se X é uma variável aleatória tomando valores no espaço euclidiano d- dimensional, X tem expectativa finita, X ' é uma cópia independente e identicamente distribuída de X e denota a norma no espaço euclidiano, então uma medida simples de assimetria em relação a parâmetro de localização θ é

e dSkew ( X ): = 0 para X  = θ (com probabilidade 1). A assimetria de distância é sempre entre 0 e 1, igual a 0 se e somente se X for diagonalmente simétrico em relação a θ ( X e 2θ− X têm a mesma distribuição de probabilidade) e igual a 1 se e somente se X for uma constante c ( ) com probabilidade um. Assim, há um teste estatístico simples e consistente de simetria diagonal com base na assimetria de distância da amostra :

Medcouple

O medcouple é uma medida robusta e invariável de escala de assimetria, com um ponto de decomposição de 25%. É a mediana dos valores da função kernel

assumido todos os pares de tal forma que , onde está a mediana da amostra . Ele pode ser visto como a mediana de todas as medidas de assimetria de quantis possíveis.

Veja também

Referências

Citações

Fontes

  • Johnson, NL; Kotz, S; Balakrishnan, N (1994). Distribuições univariadas contínuas . 1 (2 ed.). Wiley. ISBN 0-471-58495-9.
  • MacGillivray, HL (1992). "Propriedades de forma das famílias g- e h- e Johnson". Comunicações em Estatística - Teoria e Métodos . 21 (5): 1244–1250. doi : 10.1080 / 03610929208830842 .
  • Premaratne, G., Bera, AK (2001). Ajustando os testes de assimetria e curtose para erros de especificação de distribuição. Documento de trabalho número 01-0116, Universidade de Illinois. A ser publicado em Comunicação em Estatística, Simulação e Computação. 2016 1-15
  • Premaratne, G., Bera, AK (2000). Modelagem de assimetria e excesso de curtose em dados de retorno de ações. Artigo de Trabalho do Escritório de Pesquisa Número 00-0123, Universidade de Illinois.
  • Medidas de assimetria para a distribuição de Weibull

links externos