Quartil - Quartile

Em estatística , um quartil é um tipo de quantil que divide o número de pontos de dados em quatro partes, ou quartos , de tamanho mais ou menos igual. Os dados devem ser ordenados do menor para o maior para calcular quartis; como tal, os quartis são uma forma de estatística de pedido . Os três quartis principais são os seguintes:

  • O primeiro quartil ( Q 1 ) é definido como o número do meio entre o menor número ( mínimo ) e a mediana do conjunto de dados. É também conhecido como quartil empírico inferior ou 25º , pois 25% dos dados estão abaixo desse ponto.
  • O segundo quartil ( Q 2 ) é a mediana de um conjunto de dados; portanto, 50% dos dados estão abaixo desse ponto.
  • O terceiro quartil ( Q 3 ) é o valor médio entre a mediana e o valor mais alto ( máximo ) do conjunto de dados. É conhecido como quartil superior ou 75º empírico , pois 75% dos dados estão abaixo desse ponto.

Junto com o mínimo e o máximo dos dados (que também são quartis), os três quartis descritos acima fornecem um resumo de cinco números dos dados. Este resumo é importante nas estatísticas porque fornece informações sobre o centro e a disseminação dos dados. Saber o quartil inferior e superior fornece informações sobre o tamanho da propagação e se o conjunto de dados está inclinado para um lado. Como os quartis dividem o número de pontos de dados uniformemente, o intervalo não é o mesmo entre os quartis (ou seja, Q 3 - Q 2Q 2 - Q 1 ) e é conhecido como intervalo interquartil (IQR). Embora o máximo e o mínimo também mostrem a distribuição dos dados, os quartis superior e inferior podem fornecer informações mais detalhadas sobre a localização de pontos de dados específicos, a presença de outliers nos dados e a diferença na distribuição entre os 50% intermediários de os dados e os pontos de dados externos.

Definições

Boxplot (com quartis e um intervalo interquartil ) e uma função de densidade de probabilidade (pdf) de uma população normal N (0,1σ 2 )
Símbolo Nomes Definição
Q 1 divide os menores 25% dos dados dos maiores 75%
Q 2 corta o conjunto de dados pela metade
Q 3 divide os maiores 25% de dados dos menores 75%

Métodos de computação

Distribuições discretas

Para distribuições discretas, não há acordo universal sobre a seleção dos valores dos quartil.

Método 1

  1. Use a mediana para dividir o conjunto de dados ordenado em duas metades.
    • Se houver um número ímpar de pontos de dados no conjunto de dados ordenado original, não inclua a mediana (o valor central na lista ordenada) em nenhuma das metades.
    • Se houver um número par de pontos de dados no conjunto de dados ordenado original, divida esse conjunto de dados exatamente pela metade.
  2. O valor do quartil inferior é a mediana da metade inferior dos dados. O valor do quartil superior é a mediana da metade superior dos dados.

Esta regra é empregada pelo boxplot da calculadora TI-83 e pelas funções "1-Var Stats".

Método 2

  1. Use a mediana para dividir o conjunto de dados ordenado em duas metades.
    • Se houver um número ímpar de pontos de dados no conjunto de dados ordenado original, inclua a mediana (o valor central na lista ordenada) em ambas as metades.
    • Se houver um número par de pontos de dados no conjunto de dados ordenado original, divida esse conjunto de dados exatamente pela metade.
  2. O valor do quartil inferior é a mediana da metade inferior dos dados. O valor do quartil superior é a mediana da metade superior dos dados.

Os valores encontrados por este método também são conhecidos como " dobradiças de Tukey "; veja também midhinge .

Método 3

  1. Se houver números pares de pontos de dados, o Método 3 é igual a qualquer um dos métodos acima.
  2. Se existirem (4 n + 1) pontos de dados, então o quartil inferior é de 75% do n th valor de dados, mais 25% de a ( n + 1) -ésima valor de dados; o quartil superior é 75% do (3 n +1) º ponto de dados mais 25% do (3 n +2) º ponto de dados.
  3. Se houver (4 n +3) pontos de dados, o quartil inferior é 75% do ( n +1) o valor dos dados mais 25% do ( n +2) o valor dos dados; o quartil superior é 25% do (3 n +2) º ponto de dados mais 75% do (3 n +3) º ponto de dados.

Método 4

Se tivermos um conjunto de dados ordenado , podemos interpolar entre os pontos de dados para encontrar o ésimo quantil empírico se estiver no quantil. Se denotarmos a parte inteira de um número por , então a função de quantil empírica é dada por,

,

onde e .

Para encontrar o primeiro, segundo e terceiro quartil do conjunto de dados que iria avaliar , e, respectivamente.

Exemplo 1

Conjunto de dados solicitados: 6, 7, 15, 36, 39, 40, 41, 42, 43, 47, 49

Método 1 Método 2 Método 3 Método 4
Q 1 15 25,5 20,25 15
Q 2 40 40 40 40
Q 3 43 42,5 42,75 43

Exemplo 2

Conjunto de dados solicitados: 7, 15, 36, 39, 40, 41

Como há um número par de pontos de dados, os três primeiros métodos fornecem todos os mesmos resultados.

Método 1 Método 2 Método 3 Método 4
Q 1 15 15 15 13
Q 2 37,5 37,5 37,5 37,5
Q 3 40 40 40 40,25

Distribuições de probabilidade contínua

Quartis em uma função de distribuição cumulativa de uma distribuição normal

Se definirmos uma distribuição de probabilidade contínua como onde está uma variável aleatória de valor real , sua função de distribuição cumulativa (CDF) é dada por,

.

O CDF fornece a probabilidade de que a variável aleatória seja menor que o valor . Portanto, o primeiro quartil é o valor de quando , o segundo quartil é quando e o terceiro quartil é quando . Os valores de podem ser encontrados com a função quantil onde para o primeiro quartil, para o segundo quartil e para o terceiro quartil. A função de quantil é o inverso da função de distribuição cumulativa se a função de distribuição cumulativa está aumentando monotonicamente .

Outliers

Existem métodos para verificar se há outliers na disciplina de estatística e análise estatística. Outliers podem ser o resultado de uma mudança na localização (média) ou na escala (variabilidade) do processo de interesse. Outliers também podem ser evidências de uma amostra de população que tem uma distribuição não normal ou de um conjunto de dados de população contaminada. Consequentemente, como é a ideia básica da estatística descritiva , ao encontrar um valor discrepante , temos que explicar esse valor por meio de uma análise mais aprofundada da causa ou origem do valor discrepante. Em casos de observações extremas, que não são raras, os valores típicos devem ser analisados. No caso de quartis, o Intervalo Interquartil (IQR) pode ser usado para caracterizar os dados quando pode haver extremidades que distorcem os dados; o intervalo interquartil é uma estatística relativamente robusta (às vezes também chamada de "resistência") em comparação com o intervalo e o desvio padrão . Há também um método matemático para verificar outliers e determinar "cercas", limites superior e inferior a partir dos quais verificar outliers.

Depois de determinar o primeiro e o terceiro quartis e o intervalo interquartil, conforme descrito acima, as cercas são calculadas usando a seguinte fórmula:

Diagrama Boxplot com Outliers

onde Q 1 e Q 3 são o primeiro e o terceiro quartis, respectivamente. A cerca inferior é o "limite inferior" e a cerca superior é o "limite superior" dos dados, e quaisquer dados fora desses limites definidos podem ser considerados discrepantes. Qualquer coisa abaixo da cerca inferior ou acima da cerca superior pode ser considerado tal caso. As cercas fornecem uma diretriz para definir um outlier , que pode ser definido de outras maneiras. As cercas definem um "intervalo" fora do qual existe um outlier; uma forma de imaginar isso é o limite de uma cerca, fora da qual estão "forasteiros" em oposição a outliers. É comum que as cercas inferior e superior, juntamente com os outliers, sejam representados por um boxplot . Para um boxplot, apenas as alturas verticais correspondem ao conjunto de dados visualizado, enquanto a largura horizontal da caixa é irrelevante. Outliers localizados fora das cercas em um boxplot podem ser marcados como qualquer escolha de símbolo, como um "x" ou "o". As cercas às vezes também são chamadas de "bigodes", enquanto todo o visual do enredo é chamado de "box-and-whisker".

Ao detectar um valor discrepante no conjunto de dados calculando os intervalos interquartis e recursos de boxplot, pode ser simples vê-lo erroneamente como evidência de que a população não é normal ou que a amostra está contaminada. No entanto, este método não deve ocorrer como um teste de hipótese para determinar a normalidade da população. A significância dos outliers varia dependendo do tamanho da amostra. Se a amostra for pequena, então é mais provável obter intervalos interquartis que sejam não representativamente pequenos, levando a cercas mais estreitas. Portanto, seria mais provável encontrar dados marcados como discrepantes.

Software de computador para quartis

Excel:

A função QUARTILE do Excel (array, quart) fornece o valor quartil desejado para um determinado array de dados. Na função Quartil , matriz é o conjunto de dados de números que está sendo analisado e quarto é qualquer um dos 5 valores a seguir, dependendo de qual quartil está sendo calculado.

Quart Valor de saída QUARTILE
0 Valor mínimo
1 Quartil inferior (25º percentil)
2 Mediana
3 Quartil superior (75º percentil)
4 Valor máximo

MATLAB:

Para calcular quartis no Matlab, a função quantil (A, p) pode ser usada. Onde A é o vetor de dados sendo analisados ​​e p é a porcentagem que se relaciona aos quartis conforme declarado abaixo.

p Valor de saída QUARTILE
0 Valor mínimo
0,25 Quartil inferior (25º percentil)
0,5 Mediana
0,75 Quartil superior (75º percentil)
1 Valor máximo

Veja também

Referências

links externos