Pontuação F - F-score
Na análise estatística da classificação binária , o escore F ou medida F é uma medida da precisão de um teste . É calculado a partir da precisão e recall do teste, onde a precisão é o número de resultados positivos verdadeiros dividido pelo número de todos os resultados positivos, incluindo aqueles não identificados corretamente, e o recall é o número de resultados positivos verdadeiros dividido pelo número de todas as amostras que deveriam ter sido identificadas como positivas. A precisão também é conhecida como valor preditivo positivo e a recuperação também é conhecida como sensibilidade na classificação binária de diagnóstico.
A pontuação F 1 é a média harmônica da precisão e recall. A pontuação mais genérica aplica pesos adicionais, valorizando um de precisão ou recall mais do que o outro.
O valor mais alto possível de uma pontuação F é 1,0, indicando precisão e rechamada perfeitas, e o valor mais baixo possível é 0, se a precisão ou rechamada for zero. A pontuação F 1 também é conhecida como coeficiente de Sørensen-Dice ou coeficiente de similaridade de dados (DSC).
Etimologia
Acredita-se que o nome F-measure tenha o nome de uma função F diferente no livro de Van Rijsbergen, quando apresentado na Fourth Message Understanding Conference (MUC-4, 1992).
Definição
O F-medida tradicional ou F-pontuação equilibrado ( F 1 pontuação ) é a média harmónica de precisão e Sensibilidade:
- .
Um escore F mais geral , que usa um fator real positivo β, onde β é escolhido de modo que a lembrança seja considerada β vezes tão importante quanto a precisão, é:
- .
Em termos de erros Tipo I e tipo II, isso se torna:
- .
Dois valores comumente usados para β são 2, que pesa a evocação mais alta do que a precisão, e 0,5, que pesa a evocação mais baixa do que a precisão.
A medida F foi derivada de modo que "mede a eficácia da recuperação em relação a um usuário que atribui β vezes mais importância à recordação do que a precisão". É baseado na medida de eficácia de Van Rijsbergen
- .
Seu relacionamento é onde .
Teste de diagnóstico
Isso está relacionado ao campo da classificação binária, onde a recordação é freqüentemente denominada "sensibilidade".
Condição prevista | Origens: | |||||
População total = P + N | Condição predita positiva (PP) |
Condição prevista negativa (PN) |
Informação, informação do bookmaker (BM) = TPR + TNR - 1 | Limiar de prevalência (PT) = √ TPR · FPR - FPR/TPR - FPR | ||
Condição real positiva (P) |
Verdadeiro positivo (TP) , acerto |
Falso negativo (FN) , erro Tipo II , erro , subestimação |
Taxa positiva verdadeira (TPR), recall , sensibilidade (SEN), probabilidade de detecção, taxa de acerto, potência =TP/P = 1 - FNR | Taxa de falsos negativos (FNR), taxa de falha =FN/P = 1 - TPR | ||
Condição real negativa (N) |
Falso positivo (FP) , erro tipo I , falso alarme, superestimação |
Verdadeiro negativo (TN) , rejeição correta |
Taxa de falsos positivos (FPR), probabilidade de falso alarme, queda =FP/N = 1 - TNR | Taxa negativa verdadeira (TNR), especificidade (SPC), seletividade =TN/N = 1 - FPR | ||
Prevalência =P/P + N | Valor preditivo positivo (PPV), precisão =TP/PP = 1 - FDR | Taxa de falsa omissão (FOR) =FN/PN = 1 - VPL | Razão de verossimilhança positiva (LR +) =TPR/FPR | Razão de verossimilhança negativa (LR−) =FNR/TNR | ||
Precisão (ACC) =TP + TN/P + N | Taxa de descoberta falsa (FDR) =FP/PP = 1 - PPV | Valor preditivo negativo (NPV) =TN/PN = 1 - PARA | Marcação (MK), deltaP (Δp) = PPV + NPV - 1 | Odds ratio de diagnóstico (DOR) =LR +/LR− | ||
Precisão balanceada (BA) =TPR + TNR/2 | Pontuação F 1 =2 · PPV · TPR/PPV + TPR = 2TP/2TP + FP + FN | Índice de Fowlkes-Mallows (FM) = √ PPV · TPR |
Coeficiente de correlação de Matthews (MCC) = √ TPR · TNR · PPV · NPV - √ FNR · FPR · PARA · FDR |
Pontuação de ameaça (TS), índice de sucesso crítico (CSI) =TP/TP + FN + FP |
Dependência da pontuação F no desequilíbrio de classe
Williams mostrou a dependência explícita da curva de precisão-recall e, portanto, da pontuação, na proporção de casos de teste positivos para negativos. Isso significa que a comparação da pontuação F em diferentes problemas com diferentes proporções de classe é problemática. Uma maneira de resolver esse problema (ver, por exemplo, Siblini et al, 2020) é usar uma proporção de classe padrão ao fazer tais comparações.
Formulários
A pontuação F é freqüentemente usada no campo de recuperação de informações para medir o desempenho de pesquisa , classificação de documento e classificação de consulta . Trabalhos anteriores focavam principalmente na pontuação F 1 , mas com a proliferação de mecanismos de busca em grande escala, as metas de desempenho mudaram para colocar mais ênfase na precisão ou no recall e, portanto, são vistas em ampla aplicação.
A pontuação F também é usada no aprendizado de máquina . No entanto, as medidas F não levam em conta os verdadeiros negativos, portanto, medidas como o coeficiente de correlação de Matthews , Informedness ou Cohen's kappa podem ser preferidas para avaliar o desempenho de um classificador binário.
O F-score tem sido amplamente utilizado na literatura de processamento de linguagem natural, como na avaliação do reconhecimento de entidades nomeadas e segmentação de palavras .
Crítica
David Hand e outros criticam o uso generalizado da pontuação F 1, uma vez que dá igual importância à precisão e recall. Na prática, diferentes tipos de classificações erradas incorrem em custos diferentes. Em outras palavras, a importância relativa de precisão e recall é um aspecto do problema.
Segundo Davide Chicco e Giuseppe Jurman, o escore F 1 é menos verdadeiro e informativo do que o coeficiente de correlação de Matthews (MCC) na classificação da avaliação binária.
David Powers apontou que F 1 ignora os Negativos Verdadeiros e, portanto, é enganoso para classes desequilibradas, enquanto kappa e medidas de correlação são simétricas e avaliam ambas as direções de previsibilidade - o classificador prevendo a classe verdadeira e a classe verdadeira prevendo a previsão do classificador, propondo medidas de multiclasse separadas Informedness e Markedness para as duas direções, observando que sua média geométrica é a correlação.
Diferença do índice de Fowlkes-Mallows
Enquanto a medida F é a média harmônica de recall e precisão, o índice de Fowlkes-Mallows é sua média geométrica .
Extensão para classificação multiclasse
O F-score também é usado para avaliar problemas de classificação com mais de duas classes ( classificação Multiclasse ). Nessa configuração, a pontuação final é obtida por micro-média (enviesada pela frequência da aula) ou macro-média (considerando todas as aulas como igualmente importantes). Para a macro-média, duas fórmulas diferentes foram usadas pelos requerentes: o F-score de (aritmética) precisão de classe e meios de recuperação ou a média aritmética de classe de F-scores, onde o último exibe propriedades mais desejáveis.
Veja também
- BLEU
- Matriz de confusão
- Testes de hipóteses para precisão
- METEORO
- NIST (métrico)
- Características operacionais do receptor
- ROUGE (métrico)
- Coeficiente de incerteza , também conhecido como proficiência
- Taxa de erros de palavras
- LEPOR