Análise exploratória de dados - Exploratory data analysis

Em estatística , a análise exploratória de dados é uma abordagem de análise de conjuntos de dados para resumir suas características principais, geralmente usando gráficos estatísticos e outros métodos de visualização de dados . Um modelo estatístico pode ser usado ou não, mas principalmente EDA é para ver o que os dados podem nos dizer além da modelagem formal ou tarefa de teste de hipótese. A análise exploratória de dados foi promovida por John Tukey desde 1970 para encorajar os estatísticos a explorar os dados e, possivelmente, formular hipóteses que poderiam levar a novas coletas de dados e experimentos. O EDA é diferente da análise inicial de dados (IDA) , que se concentra mais especificamente na verificação das suposições necessárias para o ajuste do modelo e teste de hipóteses, e no tratamento de valores ausentes e nas transformações de variáveis ​​conforme necessário. EDA abrange IDA.

Visão geral

Tukey definiu a análise de dados em 1961 como: "Procedimentos para analisar dados, técnicas para interpretar os resultados de tais procedimentos, formas de planejar a coleta de dados para tornar sua análise mais fácil, mais precisa ou mais precisa, e todo o maquinário e resultados de ( estatísticas matemáticas) que se aplicam à análise de dados. "

A defesa de EDA de Tukey encorajou o desenvolvimento de pacotes de computação estatística , especialmente S no Bell Labs . A linguagem de programação S inspirou os sistemas S-PLUS e R . Essa família de ambientes de computação estatística apresentou recursos de visualização dinâmica amplamente aprimorados, o que permitiu aos estatísticos identificar outliers , tendências e padrões em dados que mereciam um estudo mais aprofundado.

A EDA de Tukey estava relacionada a dois outros desenvolvimentos na teoria estatística : estatística robusta e estatística não paramétrica , ambas tentando reduzir a sensibilidade das inferências estatísticas a erros na formulação de modelos estatísticos . Tukey promoveu o uso de cinco resumos de números de dados numéricos - os dois extremos ( máximo e mínimo ), a mediana e os quartis - porque essas medianas e quartis, sendo funções da distribuição empírica, são definidas para todas as distribuições, ao contrário da média e desvio padrão ; além disso, os quartis e a mediana são mais robustos para distribuições enviesadas ou de cauda pesada do que os resumos tradicionais (a média e o desvio padrão). Os pacotes S , S-PLUS e R incluíam rotinas usando estatísticas de reamostragem , como Quenouille e Tukey's jackknife e Efron 's bootstrap , que são não paramétricas e robustas (para muitos problemas).

A análise exploratória de dados, estatísticas robustas, estatísticas não paramétricas e o desenvolvimento de linguagens de programação estatística facilitaram o trabalho dos estatísticos em problemas científicos e de engenharia. Esses problemas incluíam a fabricação de semicondutores e a compreensão das redes de comunicação, que preocupavam a Bell Labs. Esses desenvolvimentos estatísticos, todos defendidos por Tukey, foram projetados para complementar a teoria analítica de testar hipóteses estatísticas , particularmente a ênfase da tradição laplaciana em famílias exponenciais .

Desenvolvimento

Fluxograma do processo de ciência de dados

John W. Tukey escreveu o livro Exploratory Data Analysis em 1977. Tukey sustentava que muita ênfase em estatística era colocada em testes de hipóteses estatísticas (análise de dados confirmatórios); mais ênfase precisava ser colocada no uso de dados para sugerir hipóteses a serem testadas. Em particular, ele sustentou que confundir os dois tipos de análises e empregá-los no mesmo conjunto de dados pode levar a um viés sistemático devido às questões inerentes ao teste de hipóteses sugeridas pelos dados .

Os objetivos da EDA são:

Muitas técnicas de EDA foram adotadas na mineração de dados . Eles também estão sendo ensinados a jovens estudantes como uma forma de introduzi-los ao pensamento estatístico.

Técnicas e ferramentas

Existem várias ferramentas que são úteis para a EDA, mas a EDA é caracterizada mais pela atitude tomada do que por técnicas específicas.

As técnicas gráficas típicas usadas em EDA são:

Redução da dimensionalidade :

As técnicas quantitativas típicas são:

História

Muitas ideias de EDA podem ser rastreadas até autores anteriores, por exemplo:

O curso da Open University Statistics in Society (MDST 242), pegou as idéias acima e as fundiu com o trabalho de Gottfried Noether , que introduziu a inferência estatística via sorteio e teste de mediana .

Exemplo

Os resultados do EDA são ortogonais à tarefa de análise primária. Para ilustrar, considere um exemplo de Cook et al. onde a tarefa de análise é encontrar as variáveis ​​que melhor predizem a gorjeta que um jantar vai dar ao garçom. As variáveis ​​disponíveis nos dados coletados para esta tarefa são: valor da gorjeta, fatura total, sexo do pagador, setor fumante / não fumante, horário do dia, dia da semana e tamanho da festa. A tarefa de análise primária é abordada ajustando-se um modelo de regressão em que a taxa de gorjeta é a variável de resposta. O modelo ajustado é

( taxa de gorjeta ) = 0,18 - 0,01 × (tamanho da festa)

que diz que à medida que o tamanho do jantar aumenta em uma pessoa (levando a uma conta mais alta), a taxa de gorjeta diminuirá em 1%.

No entanto, explorar os dados revela outras características interessantes não descritas por este modelo.

O que é aprendido nos gráficos é diferente do que é ilustrado pelo modelo de regressão, embora o experimento não tenha sido projetado para investigar nenhuma dessas outras tendências. Os padrões encontrados ao explorar os dados sugerem hipóteses sobre inclinação que podem não ter sido antecipadas e que podem levar a experimentos de acompanhamento interessantes, onde as hipóteses são formalmente declaradas e testadas por meio da coleta de novos dados.

Programas

  • JMP , um pacote EDA do SAS Institute .
  • KNIME , Konstanz Information Miner - plataforma de exploração de dados de código aberto baseada no Eclipse.
  • Minitab , um pacote de estatísticas gerais e EDA amplamente utilizado em ambientes industriais e corporativos.
  • Orange , um pacote de software de mineração de dados e aprendizado de máquina de código aberto .
  • Python , uma linguagem de programação de código aberto amplamente usada em mineração de dados e aprendizado de máquina.
  • R , uma linguagem de programação de código aberto para computação estatística e gráficos. Junto com Python, uma das linguagens mais populares para ciência de dados.
  • TinkerPlots um software EDA para alunos do ensino fundamental e médio.
  • Weka, um pacote de mineração de dados de código aberto que inclui ferramentas de visualização e EDA, como a busca de projeção direcionada .

Veja também

Referências

Bibliografia

links externos