Pontuação F - F-score

Precisão e recall

Na análise estatística da classificação binária , o escore F ou medida F é uma medida da precisão de um teste . É calculado a partir da precisão e recall do teste, onde a precisão é o número de resultados positivos verdadeiros dividido pelo número de todos os resultados positivos, incluindo aqueles não identificados corretamente, e o recall é o número de resultados positivos verdadeiros dividido pelo número de todas as amostras que deveriam ter sido identificadas como positivas. A precisão também é conhecida como valor preditivo positivo e a recuperação também é conhecida como sensibilidade na classificação binária de diagnóstico.

A pontuação F ₁ é a média harmônica da precisão e recall. A pontuação mais genérica aplica pesos adicionais, valorizando um de precisão ou recall mais do que o outro. ${\ displaystyle F _ {\ beta}}$

O valor mais alto possível de uma pontuação F é 1,0, indicando precisão e rechamada perfeitas, e o valor mais baixo possível é 0, se a precisão ou rechamada for zero. A pontuação F ₁ também é conhecida como coeficiente de Sørensen-Dice ou coeficiente de similaridade de dados (DSC).

Etimologia

Acredita-se que o nome F-measure tenha o nome de uma função F diferente no livro de Van Rijsbergen, quando apresentado na Fourth Message Understanding Conference (MUC-4, 1992).

Definição

O F-medida tradicional ou F-pontuação equilibrado ( F ₁ pontuação ) é a média harmónica de precisão e Sensibilidade:

{\ displaystyle F_ {1} = {\ frac {2} {\ mathrm {recall ^ {- 1}} + \ mathrm {precisão ^ {- 1}}}} = 2 \ cdot {\ frac {\ mathrm {precisão } \ cdot \ mathrm {recall}} {\ mathrm {precisão} + \ mathrm {recall}}} = {\ frac {\ mathrm {tp}} {\ mathrm {tp} + {\ frac {1} {2} } (\ mathrm {fp} + \ mathrm {fn})}}}

.

${\ displaystyle F _ {\ beta}}$

Um escore F mais geral , que usa um fator real positivo β, onde β é escolhido de modo que a lembrança seja considerada β vezes tão importante quanto a precisão, é: ${\ displaystyle F _ {\ beta}}$

{\ displaystyle F _ {\ beta} = (1+ \ beta ^ {2}) \ cdot {\ frac {\ mathrm {precisão} \ cdot \ mathrm {recall}} {(\ beta ^ {2} \ cdot \ mathrm {precisão}) + \ mathrm {recall}}}}

.

Em termos de erros Tipo I e tipo II, isso se torna:

{\ displaystyle F _ {\ beta} = {\ frac {(1+ \ beta ^ {2}) \ cdot \ mathrm {true \ positive}} {(1+ \ beta ^ {2}) \ cdot \ mathrm {true \ positivo} + \ beta ^ {2} \ cdot \ mathrm {falso \ negativo} + \ mathrm {falso \ positivo}}} \,}

.

Dois valores comumente usados para β são 2, que pesa a evocação mais alta do que a precisão, e 0,5, que pesa a evocação mais baixa do que a precisão.

A medida F foi derivada de modo que "mede a eficácia da recuperação em relação a um usuário que atribui β vezes mais importância à recordação do que a precisão". É baseado na medida de eficácia de Van Rijsbergen ${\ displaystyle F _ {\ beta}}$

{\ displaystyle E = 1- \ left ({\ frac {\ alpha} {p}} + {\ frac {1- \ alpha} {r}} \ right) ^ {- 1}}

.

Seu relacionamento é onde . ${\ displaystyle F _ {\ beta} = 1-E}$ ${\ displaystyle \ alpha = {\ frac {1} {1+ \ beta ^ {2}}}}$

Teste de diagnóstico

Isso está relacionado ao campo da classificação binária, onde a recordação é freqüentemente denominada "sensibilidade".

		Condição prevista		^Origens:		^{visualizar conversa editar}
	População total = P + N	Condição predita positiva (PP)	Condição prevista negativa (PN)	Informação, informação do bookmaker (BM) = TPR + TNR - 1		Limiar de prevalência (PT) = √ TPR · FPR - FPR/TPR - FPR
Condição real	Condição real positiva (P)	Verdadeiro positivo (TP) , acerto	Falso negativo (FN) , erro Tipo II , erro , subestimação	Taxa positiva verdadeira (TPR), recall , sensibilidade (SEN), probabilidade de detecção, taxa de acerto, potência =TP/P = 1 - FNR		Taxa de falsos negativos (FNR), taxa de falha =FN/P = 1 - TPR
Condição real	Condição real negativa (N)	Falso positivo (FP) , erro tipo I , falso alarme, superestimação	Verdadeiro negativo (TN) , rejeição correta	Taxa de falsos positivos (FPR), probabilidade de falso alarme, queda =FP/N = 1 - TNR		Taxa negativa verdadeira (TNR), especificidade (SPC), seletividade =TN/N = 1 - FPR
	Prevalência =P/P + N	Valor preditivo positivo (PPV), precisão =TP/PP = 1 - FDR	Taxa de falsa omissão (FOR) =FN/PN = 1 - VPL	Razão de verossimilhança positiva (LR +) =TPR/FPR		Razão de verossimilhança negativa (LR−) =FNR/TNR
	Precisão (ACC) =TP + TN/P + N	Taxa de descoberta falsa (FDR) =FP/PP = 1 - PPV	Valor preditivo negativo (NPV) =TN/PN = 1 - PARA	Marcação (MK), deltaP (Δp) = PPV + NPV - 1	Odds ratio de diagnóstico (DOR) =LR +/LR−
	Precisão balanceada (BA) =TPR + TNR/2	Pontuação F ₁ =2 · PPV · TPR/PPV + TPR = 2TP/2TP + FP + FN	Índice de Fowlkes-Mallows (FM) = √ PPV · TPR	Coeficiente de correlação de Matthews (MCC) = √ TPR · TNR · PPV · NPV - √ FNR · FPR · PARA · FDR	Pontuação de ameaça (TS), índice de sucesso crítico (CSI) =TP/TP + FN + FP

Gráfico de média harmônica normalizada, onde x é a precisão, y é a recuperação e o eixo vertical é a pontuação F ₁ , em pontos percentuais

Dependência da pontuação F no desequilíbrio de classe

Williams mostrou a dependência explícita da curva de precisão-recall e, portanto, da pontuação, na proporção de casos de teste positivos para negativos. Isso significa que a comparação da pontuação F em diferentes problemas com diferentes proporções de classe é problemática. Uma maneira de resolver esse problema (ver, por exemplo, Siblini et al, 2020) é usar uma proporção de classe padrão ao fazer tais comparações. ${\ displaystyle F _ {\ beta}}$ ${\ displaystyle r}$ ${\ displaystyle r_ {0}}$

Formulários

A pontuação F é freqüentemente usada no campo de recuperação de informações para medir o desempenho de pesquisa , classificação de documento e classificação de consulta . Trabalhos anteriores focavam principalmente na pontuação F ₁ , mas com a proliferação de mecanismos de busca em grande escala, as metas de desempenho mudaram para colocar mais ênfase na precisão ou no recall e, portanto, são vistas em ampla aplicação. ${\ displaystyle F _ {\ beta}}$

A pontuação F também é usada no aprendizado de máquina . No entanto, as medidas F não levam em conta os verdadeiros negativos, portanto, medidas como o coeficiente de correlação de Matthews , Informedness ou Cohen's kappa podem ser preferidas para avaliar o desempenho de um classificador binário.

O F-score tem sido amplamente utilizado na literatura de processamento de linguagem natural, como na avaliação do reconhecimento de entidades nomeadas e segmentação de palavras .

Crítica

David Hand e outros criticam o uso generalizado da pontuação F _1, uma vez que dá igual importância à precisão e recall. Na prática, diferentes tipos de classificações erradas incorrem em custos diferentes. Em outras palavras, a importância relativa de precisão e recall é um aspecto do problema.

Segundo Davide Chicco e Giuseppe Jurman, o escore F ₁ é menos verdadeiro e informativo do que o coeficiente de correlação de Matthews (MCC) na classificação da avaliação binária.

David Powers apontou que F ₁ ignora os Negativos Verdadeiros e, portanto, é enganoso para classes desequilibradas, enquanto kappa e medidas de correlação são simétricas e avaliam ambas as direções de previsibilidade - o classificador prevendo a classe verdadeira e a classe verdadeira prevendo a previsão do classificador, propondo medidas de multiclasse separadas Informedness e Markedness para as duas direções, observando que sua média geométrica é a correlação.

Diferença do índice de Fowlkes-Mallows

Enquanto a medida F é a média harmônica de recall e precisão, o índice de Fowlkes-Mallows é sua média geométrica .

Extensão para classificação multiclasse

O F-score também é usado para avaliar problemas de classificação com mais de duas classes ( classificação Multiclasse ). Nessa configuração, a pontuação final é obtida por micro-média (enviesada pela frequência da aula) ou macro-média (considerando todas as aulas como igualmente importantes). Para a macro-média, duas fórmulas diferentes foram usadas pelos requerentes: o F-score de (aritmética) precisão de classe e meios de recuperação ou a média aritmética de classe de F-scores, onde o último exibe propriedades mais desejáveis.

Veja também

BLEU
Matriz de confusão
Testes de hipóteses para precisão
METEORO
NIST (métrico)
Características operacionais do receptor
ROUGE (métrico)
Coeficiente de incerteza , também conhecido como proficiência
Taxa de erros de palavras
LEPOR

Languages

In other projects

Pontuação F - F-score

Conteúdo

Etimologia

Definição

${\ displaystyle F _ {\ beta}}$

Teste de diagnóstico

Dependência da pontuação F no desequilíbrio de classe

Formulários

Crítica

Diferença do índice de Fowlkes-Mallows

Extensão para classificação multiclasse

Veja também

Referências

Languages

In other projects

Pontuação F - F-score

Etimologia

Definição

F β {\ displaystyle F _ {\ beta}}

Teste de diagnóstico

Dependência da pontuação F no desequilíbrio de classe

Formulários

Crítica

Diferença do índice de Fowlkes-Mallows

Extensão para classificação multiclasse

Veja também

Referências

${\ displaystyle F _ {\ beta}}$