Ponto fora da curva - Outlier

Figura 1. Box plot de dados do experimento Michelson-Morley exibindo quatro valores discrepantes na coluna do meio, bem como um valor discrepante na primeira coluna.

Em estatísticas , um outlier é um ponto de dados que difere significativamente de outras observações. Um outlier pode ser devido à variabilidade na medição ou pode indicar erro experimental; os últimos às vezes são excluídos do conjunto de dados . Um outlier pode causar sérios problemas nas análises estatísticas.

Outliers podem ocorrer por acaso em qualquer distribuição, mas eles geralmente indicam um erro de medição ou que a população tem uma distribuição de cauda pesada . No primeiro caso, deseja-se descartá-los ou usar estatísticas robustas para outliers, enquanto no último caso eles indicam que a distribuição tem alta assimetria e que se deve ter muito cuidado ao usar ferramentas ou intuições que assumem uma distribuição normal . Uma causa frequente de outliers é uma mistura de duas distribuições, que podem ser duas subpopulações distintas ou podem indicar 'tentativa correta' versus 'erro de medição'; isso é modelado por um modelo de mistura .

Na maioria das amostras de dados maiores, alguns pontos de dados estarão mais distantes da média da amostra do que o que é considerado razoável. Isso pode ser devido a um erro sistemático incidental ou falhas na teoria que gerou uma família assumida de distribuições de probabilidade , ou pode ser que algumas observações estejam longe do centro dos dados. Pontos atípicos podem, portanto, indicar dados defeituosos, procedimentos errôneos ou áreas onde uma determinada teoria pode não ser válida. No entanto, em grandes amostras, um pequeno número de outliers é esperado (e não devido a qualquer condição anômala).

Outliers, sendo as observações mais extremas, podem incluir o máximo da amostra ou o mínimo da amostra , ou ambos, dependendo se são extremamente altos ou baixos. No entanto, o máximo e o mínimo da amostra nem sempre são outliers porque podem não estar incomumente distantes de outras observações.

A interpretação ingênua de estatísticas derivadas de conjuntos de dados que incluem valores discrepantes pode ser enganosa. Por exemplo, se alguém está calculando a temperatura média de 10 objetos em uma sala, e nove deles estão entre 20 e 25 graus Celsius , mas um forno está a 175 ° C, a mediana dos dados ficará entre 20 e 25 ° C, mas a temperatura média será entre 35,5 e 40 ° C. Nesse caso, a mediana reflete melhor a temperatura de um objeto amostrado aleatoriamente (mas não a temperatura na sala) do que a média; interpretar ingenuamente a média como "uma amostra típica", equivalente à mediana, está incorreto. Conforme ilustrado neste caso, os outliers podem indicar pontos de dados que pertencem a uma população diferente do resto do conjunto de amostra .

Estimadores capazes de lidar com outliers são considerados robustos: a mediana é uma estatística robusta de tendência central , enquanto a média não é. No entanto, a média é geralmente um estimador mais preciso.

Ocorrência e causas

Probabilidades relativas em uma distribuição normal

No caso de dados normalmente distribuídos , a regra dos três sigma significa que aproximadamente 1 em 22 observações diferirá em duas vezes o desvio padrão ou mais da média, e 1 em 370 irá desviar em três vezes o desvio padrão. Em uma amostra de 1000 observações, a presença de até cinco observações desviando da média em mais de três vezes o desvio padrão está dentro da faixa do que pode ser esperado, sendo menos do que duas vezes o número esperado e, portanto, dentro de 1 desvio padrão de o número esperado - ver distribuição de Poisson - e não indicar uma anomalia. Se o tamanho da amostra for de apenas 100, entretanto, apenas três desses outliers já são motivo de preocupação, sendo mais de 11 vezes o número esperado.

Em geral, se a natureza da distribuição da população é conhecida a priori , é possível testar se o número de outliers diverge significativamente do que pode ser esperado: para um determinado cutoff (então as amostras caem além do cutoff com probabilidade p ) de um dada a distribuição, o número de outliers seguirá uma distribuição binomial com o parâmetro p , que geralmente pode ser bem aproximado pela distribuição de Poisson com λ = pn . Assim, se tomarmos uma distribuição normal com corte de 3 desvios padrão da média, p é aproximadamente 0,3% e, portanto, para 1000 tentativas, pode-se aproximar o número de amostras cujo desvio excede 3 sigmas por uma distribuição de Poisson com λ = 3.

Causas

Os valores discrepantes podem ter muitas causas anômalas. Um aparelho físico para fazer medições pode ter sofrido um mau funcionamento temporário. Pode ter ocorrido um erro na transmissão ou transcrição dos dados. Outliers surgem devido a mudanças no comportamento do sistema, comportamento fraudulento, erro humano, erro do instrumento ou simplesmente por desvios naturais nas populações. Uma amostra pode ter sido contaminada com elementos de fora da população que está sendo examinada. Alternativamente, um outlier pode ser o resultado de uma falha na teoria assumida, exigindo uma investigação mais aprofundada por parte do pesquisador. Além disso, a aparência patológica de outliers de uma determinada forma aparece em uma variedade de conjuntos de dados, indicando que o mecanismo causador dos dados pode diferir na extremidade extrema ( efeito King ).

Definições e detecção

Não existe uma definição matemática rígida do que constitui um outlier; determinar se uma observação é ou não um outlier é, em última análise, um exercício subjetivo. Existem vários métodos de detecção de valores discrepantes. Alguns são gráficos, como gráficos de probabilidade normal . Outros são baseados em modelos. Os gráficos de caixa são híbridos.

Os métodos baseados em modelos que são comumente usados ​​para identificação assumem que os dados são de uma distribuição normal e identificam as observações que são consideradas "improváveis" com base na média e no desvio padrão:

Critério de Peirce

Propõe-se determinar em uma série de observações o limite de erro, além do qual todas as observações envolvendo um erro tão grande podem ser rejeitadas, desde que existam tantas como tais observações. O princípio sobre o qual se propõe a solução deste problema é que as observações propostas devem ser rejeitadas quando a probabilidade do sistema de erros obtido pela retenção for menor que a do sistema de erros obtido por sua rejeição multiplicada pela probabilidade de fazendo tantas, e nada mais, observações anormais. (Citado na nota editorial na página 516 de Peirce (edição de 1982) de A Manual of Astronomy 2: 558 de Chauvenet.)

Cercas de Tukey

Outros métodos sinalizam observações com base em medidas como o intervalo interquartil . Por exemplo, se e forem os quartis inferior e superior , respectivamente, pode-se definir um outlier como qualquer observação fora do intervalo:

para alguma constante não negativa . John Tukey propôs este teste, onde indica um "outlier", e indica dados que estão "distantes".

Na detecção de anomalias

Em vários domínios, como, mas não se limitando a, estatísticas , processamento de sinais , finanças , econometria , manufatura , redes e mineração de dados , a tarefa de detecção de anomalias pode assumir outras abordagens. Alguns deles podem ser baseados na distância e na densidade, como Fator Outlier Local (LOF). Algumas abordagens podem usar a distância até os k-vizinhos mais próximos para rotular as observações como outliers ou não outliers.

Teste Thompson Tau modificado

O teste Thompson Tau modificado é um método usado para determinar se existe um outlier em um conjunto de dados. A força deste método reside no fato de que leva em consideração o desvio padrão, a média de um conjunto de dados e fornece uma zona de rejeição determinada estatisticamente; fornecendo assim um método objetivo para determinar se um ponto de dados é um outlier. Como funciona: primeiro, a média de um conjunto de dados é determinada. Em seguida, o desvio absoluto entre cada ponto de dados e a média são determinados. Em terceiro lugar, uma região de rejeição é determinada usando a fórmula:

;

onde é o valor crítico da distribuição t de Student com n -2 graus de liberdade, n é o tamanho da amostra e s é o desvio padrão da amostra. Para determinar se um valor é atípico: Calcule . Se δ > Região de rejeição, o ponto de dados é um outlier. Se δ ≤ Região de rejeição, o ponto de dados não é um outlier.

O teste Thompson Tau modificado é usado para encontrar um outlier de cada vez (o maior valor de δ é removido se for um outlier). Ou seja, se um ponto de dados for considerado um outlier, ele é removido do conjunto de dados e o teste é aplicado novamente com uma nova média e região de rejeição. Esse processo é continuado até que nenhum valor discrepante permaneça em um conjunto de dados.

Alguns trabalhos também examinaram outliers para dados nominais (ou categóricos). No contexto de um conjunto de exemplos (ou instâncias) em um conjunto de dados, a dureza da instância mede a probabilidade de uma instância ser classificada incorretamente ( onde y é o rótulo de classe atribuído e x representa o valor do atributo de entrada para uma instância no conjunto de treinamento t ). Idealmente, a dureza da instância seria calculada pela soma do conjunto de todas as hipóteses possíveis H :

Na prática, essa formulação é inviável, pois H é potencialmente infinito e o cálculo é desconhecido para muitos algoritmos. Assim, a dureza da instância pode ser aproximada usando um subconjunto diverso :

onde é a hipótese induzida pelo algoritmo de aprendizagem treinado no conjunto de treinamento t com hiperparâmetros . A dureza da instância fornece um valor contínuo para determinar se uma instância é uma instância atípica.

Trabalhando com outliers

A escolha de como lidar com um outlier deve depender da causa. Alguns estimadores são altamente sensíveis a outliers, notadamente a estimativa de matrizes de covariância .

Retenção

Mesmo quando um modelo de distribuição normal é apropriado para os dados que estão sendo analisados, outliers são esperados para grandes tamanhos de amostra e não devem ser automaticamente descartados se for o caso. O aplicativo deve usar um algoritmo de classificação robusto para outliers para modelar dados com pontos outliers de ocorrência natural.

Exclusão

A exclusão de dados discrepantes é uma prática controversa desaprovada por muitos cientistas e instrutores de ciências; embora os critérios matemáticos forneçam um método objetivo e quantitativo para a rejeição de dados, eles não tornam a prática mais científica ou metodologicamente sólida, especialmente em pequenos conjuntos ou onde uma distribuição normal não pode ser assumida. A rejeição de valores discrepantes é mais aceitável em áreas de prática onde o modelo subjacente do processo que está sendo medido e a distribuição usual do erro de medição são conhecidos com segurança. Um outlier resultante de um erro de leitura do instrumento pode ser excluído, mas é desejável que a leitura seja pelo menos verificada.

As duas abordagens comuns para excluir valores discrepantes são truncamento (ou corte) e Winsorising . O corte descarta os valores discrepantes, enquanto o Winsorising substitui os valores discrepantes pelos dados "não suspeitos" mais próximos. A exclusão também pode ser uma consequência do processo de medição, como quando um experimento não é inteiramente capaz de medir tais valores extremos, resultando em dados censurados .

Em problemas de regressão , uma abordagem alternativa pode ser excluir apenas os pontos que exibem um grande grau de influência nos coeficientes estimados, usando uma medida como a distância de Cook .

Se um ponto (ou pontos) de dados for excluído da análise de dados , isso deve ser claramente indicado em qualquer relatório subsequente.

Distribuições não normais

Deve-se considerar a possibilidade de que a distribuição subjacente dos dados não seja aproximadamente normal, apresentando " caudas grossas ". Por exemplo, ao amostrar a partir de uma distribuição de Cauchy , a variância da amostra aumenta com o tamanho da amostra, a média da amostra falha em convergir conforme o tamanho da amostra aumenta e valores discrepantes são esperados em taxas muito maiores do que para uma distribuição normal. Mesmo uma ligeira diferença na espessura das caudas pode fazer uma grande diferença no número esperado de valores extremos.

Incertezas de associação de conjunto

Uma abordagem de associação de conjunto considera que a incerteza correspondente à i ésima medição de um vetor aleatório desconhecido x é representada por um conjunto X i (em vez de uma função de densidade de probabilidade). Se não ocorrerem discrepâncias, x deve pertencer à interseção de todos os X i 's. Quando ocorrem outliers, essa interseção pode estar vazia e devemos relaxar um pequeno número de conjuntos X i (o menor possível) para evitar qualquer inconsistência. Isso pode ser feito usando a noção de q - interseção relaxada . Conforme ilustrado pela figura, a interseção relaxada q corresponde ao conjunto de todos os x que pertencem a todos os conjuntos, exceto q deles. Os conjuntos X i que não interceptam a interseção relaxada q podem ser considerados outliers.

Figura 5. Interseção relaxada q de 6 conjuntos para q = 2 (vermelho), q = 3 (verde), q = 4 (azul), q = 5 (amarelo).

Modelos alternativos

Nos casos em que a causa dos outliers é conhecida, pode ser possível incorporar esse efeito na estrutura do modelo, por exemplo, usando um modelo Bayes hierárquico ou um modelo de mistura .

Veja também

Referências

links externos