Classificação estatística - Statistical classification

Em estatística , a classificação é o problema de identificar a qual de um conjunto de categorias (subpopulações) uma observação (ou observações) pertence. Os exemplos são atribuir um determinado e-mail à classe "spam" ou "não spam" e atribuir um diagnóstico a um determinado paciente com base nas características observadas do paciente (sexo, pressão arterial, presença ou ausência de certos sintomas, etc.) .

Freqüentemente, as observações individuais são analisadas em um conjunto de propriedades quantificáveis, conhecidas como variáveis ​​explicativas ou recursos . Essas propriedades podem ser variadamente categóricas (por exemplo, "A", "B", "AB" ou "O", para o tipo de sangue ), ordinais (por exemplo, "grande", "médio" ou "pequeno"), com valor inteiro (por exemplo o número de ocorrências de uma palavra específica em um e - mail ) ou com valor real (por exemplo, uma medição de pressão arterial ). Outros classificadores funcionam comparando observações com observações anteriores por meio de uma função de similaridade ou distância .

Um algoritmo que implementa a classificação, especialmente em uma implementação concreta, é conhecido como classificador . O termo "classificador" às vezes também se refere à função matemática , implementada por um algoritmo de classificação, que mapeia os dados de entrada para uma categoria.

A terminologia entre os campos é bastante variada. Em estatística , onde a classificação é frequentemente feita com regressão logística ou um procedimento semelhante, as propriedades das observações são chamadas de variáveis ​​explicativas (ou variáveis ​​independentes , regressores, etc.) e as categorias a serem previstas são conhecidas como resultados, que são considerados ser valores possíveis da variável dependente . No aprendizado de máquina , as observações são frequentemente conhecidas como instâncias , as variáveis ​​explicativas são chamadas de recursos (agrupados em um vetor de recursos ) e as categorias possíveis a serem previstas são classes . Outros campos podem usar terminologia diferente: por exemplo, em ecologia de comunidade , o termo "classificação" normalmente se refere à análise de agrupamento .

Relação com outros problemas

A classificação e o agrupamento são exemplos do problema mais geral de reconhecimento de padrões , que é a atribuição de algum tipo de valor de saída a um determinado valor de entrada. Outros exemplos são a regressão , que atribui uma saída de valor real a cada entrada; rotulagem sequência , que atribui uma classe para cada membro de uma sequência de valores (por exemplo, parte de codificação de voz , o qual atribui uma parte de expressão para cada palavra numa frase de entrada); análise sintática , que atribui uma árvore de análise sintática a uma sentença de entrada, descrevendo a estrutura sintática da sentença; etc.

Uma subclasse comum de classificação é a classificação probabilística . Algoritmos dessa natureza usam inferência estatística para encontrar a melhor classe para uma determinada instância. Ao contrário de outros algoritmos, que simplesmente geram uma "melhor" classe, os algoritmos probabilísticos geram uma probabilidade de a instância ser membro de cada uma das classes possíveis. A melhor classe é normalmente selecionada como aquela com a maior probabilidade. No entanto, esse algoritmo tem inúmeras vantagens sobre os classificadores não probabilísticos:

  • Ele pode gerar um valor de confiança associado à sua escolha (em geral, um classificador que pode fazer isso é conhecido como um classificador de peso de confiança ).
  • Da mesma forma, ele pode se abster quando sua confiança na escolha de qualquer produto específico for muito baixa.
  • Por causa das probabilidades que são geradas, os classificadores probabilísticos podem ser mais efetivamente incorporados em tarefas de aprendizado de máquina maiores, de uma forma que evita parcial ou completamente o problema de propagação de erro .

Procedimentos freqüentistas

O trabalho inicial de classificação estatística foi realizado por Fisher , no contexto de problemas de dois grupos, levando à função discriminante linear de Fisher como a regra para atribuir um grupo a uma nova observação. Este trabalho inicial assumiu que os valores dos dados dentro de cada um dos dois grupos tinham uma distribuição normal multivariada . A extensão deste mesmo contexto a mais de dois grupos também foi considerada com a restrição imposta de que a regra de classificação deveria ser linear . Trabalhos posteriores para a distribuição normal multivariada permitiram que o classificador fosse não linear : várias regras de classificação podem ser derivadas com base em diferentes ajustes da distância de Mahalanobis , com uma nova observação sendo atribuída ao grupo cujo centro tem a menor distância ajustada da observação.

Procedimentos bayesianos

Ao contrário dos procedimentos frequentistas, os procedimentos de classificação bayesiana fornecem uma maneira natural de levar em consideração qualquer informação disponível sobre os tamanhos relativos dos diferentes grupos dentro da população geral. Os procedimentos bayesianos tendem a ser computacionalmente caros e, nos dias anteriores ao desenvolvimento dos cálculos de Monte Carlo da cadeia de Markov, foram elaboradas aproximações para regras de agrupamento bayesianas.

Alguns procedimentos bayesianos envolvem o cálculo das probabilidades de pertencimento ao grupo : eles fornecem um resultado mais informativo do que a simples atribuição de um único rótulo de grupo a cada nova observação.

Classificação binária e multiclasse

A classificação pode ser considerada como dois problemas separados - classificação binária e classificação multiclasse . Na classificação binária, uma tarefa mais bem compreendida, apenas duas classes estão envolvidas, enquanto a classificação multiclasse envolve a atribuição de um objeto a uma das várias classes. Uma vez que muitos métodos de classificação foram desenvolvidos especificamente para a classificação binária, a classificação multiclasse freqüentemente requer o uso combinado de vários classificadores binários.

Vetores de recursos

A maioria dos algoritmos descreve uma instância individual cuja categoria deve ser prevista usando um vetor de características de propriedades individuais e mensuráveis ​​da instância. Cada propriedade é denominada um recurso , também conhecido nas estatísticas como uma variável explicativa (ou variável independente , embora os recursos possam ou não ser estatisticamente independentes ). Os recursos podem ser binários (por exemplo, "ativado" ou "desativado"); categóricas (por exemplo, "A", "B", "AB" ou "O", para tipo de sangue ); ordinal (por exemplo, "grande", "médio" ou "pequeno"); com valor inteiro (por exemplo, o número de ocorrências de uma palavra específica em um e-mail); ou valor real (por exemplo, uma medição da pressão arterial). Se a instância for uma imagem, os valores do recurso podem corresponder aos pixels de uma imagem; se a instância for um trecho de texto, os valores do recurso podem ser frequências de ocorrência de palavras diferentes. Alguns algoritmos funcionam apenas em termos de dados discretos e exigem que dados de valor real ou de valor inteiro sejam discretizados em grupos (por exemplo, menos de 5, entre 5 e 10 ou maior que 10).

Classificadores lineares

Um grande número de algoritmos de classificação podem ser expressas em termos de uma função linear que atribui uma pontuação para cada categoria possível k por combinar o vector de características de um exemplo com um vector de pesos, utilizando um produto de pontos . A categoria prevista é aquela com a maior pontuação. Este tipo de função de pontuação é conhecido como função preditora linear e tem a seguinte forma geral:

onde X i é o vetor de característica por exemplo i , β k é o vetor de pesos correspondente à categoria k , e pontuação ( X i , k ) é a pontuação associada à atribuição de instância i à categoria k . Na teoria da escolha discreta , onde instâncias representam pessoas e categorias representam escolhas, a pontuação é considerada a utilidade associada à pessoa i escolher a categoria k .

Algoritmos com esta configuração básica são conhecidos como classificadores lineares . O que os distingue é o procedimento para determinar (treinar) os pesos / coeficientes ideais e a forma como a pontuação é interpretada.

Exemplos de tais algoritmos são

Algoritmos

Uma vez que nenhuma forma única de classificação é apropriada para todos os conjuntos de dados, um grande kit de ferramentas de algoritmos de classificação foi desenvolvido. Os mais comumente usados ​​incluem:

Avaliação

O desempenho do classificador depende muito das características dos dados a serem classificados. Não há um único classificador que funcione melhor em todos os problemas dados (um fenômeno que pode ser explicado pelo teorema do almoço grátis ). Vários testes empíricos foram realizados para comparar o desempenho do classificador e encontrar as características dos dados que determinam o desempenho do classificador. Determinar um classificador adequado para um determinado problema é, no entanto, ainda mais uma arte do que uma ciência.

As medidas de precisão e recall são métricas populares usadas para avaliar a qualidade de um sistema de classificação. Mais recentemente, curvas de características de operação do receptor (ROC) têm sido usadas para avaliar a compensação entre taxas de verdadeiro e falso positivo de algoritmos de classificação.

Como uma métrica de desempenho, o coeficiente de incerteza tem a vantagem sobre a precisão simples, pois não é afetado pelos tamanhos relativos das diferentes classes. Além disso, não penalizará um algoritmo por simplesmente reorganizar as classes.

Domínios de aplicativo

A classificação tem muitas aplicações. Em alguns deles, é empregado como um procedimento de mineração de dados , enquanto em outros é realizada uma modelagem estatística mais detalhada.

Veja também

Referências