Banco de dados MNIST - MNIST database

Imagens de amostra MNIST
Imagens de amostra do conjunto de dados de teste MNIST

O banco de dados MNIST ( Modificado Instituto Nacional de Padrões e Tecnologia de banco de dados ) é um grande banco de dados de dígitos escritos à mão que é comumente usado para treinar vários processamento de imagem sistemas. O banco de dados também é amplamente utilizado para treinamento e testes na área de aprendizado de máquina . Ele foi criado "remisturando" as amostras dos conjuntos de dados originais do NIST. Os criadores sentiram que, uma vez que o conjunto de dados de treinamento do NIST foi retirado dos funcionários do American Census Bureau , enquanto o conjunto de dados de teste foi retirado de alunos do ensino médio americanos , ele não era adequado para experimentos de aprendizado de máquina. Além disso, as imagens em preto e branco do NIST foram normalizadas para caber em uma caixa delimitadora de 28x28 pixels e suavização de serrilhado , que introduziu níveis de tons de cinza.

O banco de dados MNIST contém 60.000 imagens de treinamento e 10.000 imagens de teste. Metade do conjunto de treinamento e metade do conjunto de teste foram retirados do conjunto de dados de treinamento do NIST, enquanto a outra metade do conjunto de treinamento e a outra metade do conjunto de teste foram extraídas do conjunto de dados de teste do NIST. Os criadores originais do banco de dados mantêm uma lista de alguns dos métodos testados nele. Em seu artigo original, eles usam uma máquina de vetores de suporte para obter uma taxa de erro de 0,8%. Um conjunto de dados estendido semelhante ao MNIST chamado EMNIST foi publicado em 2017, que contém 240.000 imagens de treinamento e 40.000 imagens de teste de dígitos e caracteres manuscritos.

História

O conjunto de imagens no banco de dados MNIST foi criado em 1998 como uma combinação de dois bancos de dados do NIST : Banco de Dados Especial 1 e Banco de Dados Especial 3. Banco de Dados Especial 1 e Banco de Dados Especial 3 consistem em dígitos escritos por alunos do ensino médio e funcionários da Bureau do Censo dos Estados Unidos , respectivamente.

atuação

Alguns pesquisadores alcançaram "desempenho quase humano" no banco de dados MNIST, usando um comitê de redes neurais; no mesmo artigo, os autores alcançaram o dobro do desempenho de humanos em outras tarefas de reconhecimento. A maior taxa de erro listada no site original do banco de dados é de 12 por cento, que é obtida usando um classificador linear simples sem pré-processamento.

Em 2004, uma taxa de erro de melhor caso de 0,42% foi alcançada no banco de dados por pesquisadores usando um novo classificador chamado LIRA, que é um classificador neural com três camadas de neurônios com base nos princípios do perceptron de Rosenblatt.

Alguns pesquisadores testaram sistemas de inteligência artificial usando o banco de dados colocado sob distorções aleatórias. Os sistemas nesses casos são geralmente redes neurais e as distorções usadas tendem a ser distorções afins ou distorções elásticas . Às vezes, esses sistemas podem ser muito bem-sucedidos; um desses sistemas atingiu uma taxa de erro no banco de dados de 0,39 por cento.

Em 2011, uma taxa de erro de 0,27 por cento, melhorando em relação ao melhor resultado anterior, foi relatada por pesquisadores usando um sistema semelhante de redes neurais. Em 2013, uma abordagem baseada na regularização de redes neurais usando DropConnect foi declarada para atingir uma taxa de erro de 0,21 por cento. Em 2016, o melhor desempenho de rede neural convolucional única foi de taxa de erro de 0,25 por cento. Em agosto de 2018, o melhor desempenho de uma única rede neural convolucional treinada em dados de treinamento MNIST sem aumento de dados é de taxa de erro de 0,25 por cento. Além disso, o Centro de Computação Paralela (Khmelnytskyi, Ucrânia) obteve um conjunto de apenas 5 redes neurais convolucionais que funcionam no MNIST a uma taxa de erro de 0,21%. Algumas imagens no conjunto de dados de teste dificilmente são legíveis e podem impedir o alcance de taxas de erro de teste de 0%. Em 2018, pesquisadores do Departamento de Engenharia de Sistemas e Informação da Universidade da Virgínia anunciaram um erro de 0,18% com três tipos de redes neurais empilhadas simultaneamente (redes neurais totalmente conectadas, recorrentes e de convolução).

Classificadores

Esta é uma tabela com alguns dos métodos de aprendizado de máquina usados ​​no conjunto de dados e suas taxas de erro, por tipo de classificador:

Modelo Classificador Distorção Pré-processando Taxa de erro (%)
Classificador linear Classificador linear pareado Nenhum Deskewing 7,6
Vizinhos mais próximos K-NN com deformação não linear (P2DHMDM) Nenhum Bordas deslocáveis 0,52
Tocos reforçados Produto de tocos em características de Haar Nenhum Características Haar 0,87
Classificador não linear 40 PCA + classificador quadrático Nenhum Nenhum 3,3
Floresta Aleatória Florestas Aleatórias Unificadas Rápidas para Sobrevivência, Regressão e Classificação (RF-SRC) Nenhum Importância do pixel de estatística simples 2,8
Máquina de vetores de suporte (SVM) SVM virtual , deg-9 poly, 2 pixels jittered Nenhum Deskewing 0,56
Rede neural profunda (DNN) 2 camadas 784-800-10 Nenhum Nenhum 1,6
Rede neural profunda 2 camadas 784-800-10 Distorções elásticas Nenhum 0,7
Rede neural profunda 6 camadas 784-2500-2000-1500-1000-500-10 Distorções elásticas Nenhum 0,35
Rede neural convolucional (CNN) 6 camadas 784-40-80-500-1000-2000-10 Nenhum Expansão dos dados de treinamento 0,31
Rede neural convolucional 6 camadas 784-50-100-500-1000-10-10 Nenhum Expansão dos dados de treinamento 0,27
Rede neural convolucional (CNN) 13 camadas 64-128 (5x) -256 (3x) -512-2048-256-256-10 Nenhum Nenhum 0,25
Rede neural convolucional Comitê de 35 CNNs, 1-20-P-40-P-150-10 Distorções elásticas Normalizações de largura 0,23
Rede neural convolucional Comitê de 5 CNNs, 6 camadas 784-50-100-500-1000-10-10 Nenhum Expansão dos dados de treinamento 0,21
Random Multimodel Deep Learning (RMDL) 10 NN-10 RNN - 10 CNN Nenhum Nenhum 0,18
Rede neural convolucional Comitê de 20 CNNS com redes de compressão e excitação Nenhum Aumento de dados 0,17

Veja também

Referências

Leitura adicional

links externos