Banco de dados MNIST - MNIST database

Imagens de amostra do conjunto de dados de teste MNIST

O banco de dados MNIST ( Modificado Instituto Nacional de Padrões e Tecnologia de banco de dados ) é um grande banco de dados de dígitos escritos à mão que é comumente usado para treinar vários processamento de imagem sistemas. O banco de dados também é amplamente utilizado para treinamento e testes na área de aprendizado de máquina . Ele foi criado "remisturando" as amostras dos conjuntos de dados originais do NIST. Os criadores sentiram que, uma vez que o conjunto de dados de treinamento do NIST foi retirado dos funcionários do American Census Bureau , enquanto o conjunto de dados de teste foi retirado de alunos do ensino médio americanos , ele não era adequado para experimentos de aprendizado de máquina. Além disso, as imagens em preto e branco do NIST foram normalizadas para caber em uma caixa delimitadora de 28x28 pixels e suavização de serrilhado , que introduziu níveis de tons de cinza.

O banco de dados MNIST contém 60.000 imagens de treinamento e 10.000 imagens de teste. Metade do conjunto de treinamento e metade do conjunto de teste foram retirados do conjunto de dados de treinamento do NIST, enquanto a outra metade do conjunto de treinamento e a outra metade do conjunto de teste foram extraídas do conjunto de dados de teste do NIST. Os criadores originais do banco de dados mantêm uma lista de alguns dos métodos testados nele. Em seu artigo original, eles usam uma máquina de vetores de suporte para obter uma taxa de erro de 0,8%. Um conjunto de dados estendido semelhante ao MNIST chamado EMNIST foi publicado em 2017, que contém 240.000 imagens de treinamento e 40.000 imagens de teste de dígitos e caracteres manuscritos.

História

O conjunto de imagens no banco de dados MNIST foi criado em 1998 como uma combinação de dois bancos de dados do NIST : Banco de Dados Especial 1 e Banco de Dados Especial 3. Banco de Dados Especial 1 e Banco de Dados Especial 3 consistem em dígitos escritos por alunos do ensino médio e funcionários da Bureau do Censo dos Estados Unidos , respectivamente.

atuação

Alguns pesquisadores alcançaram "desempenho quase humano" no banco de dados MNIST, usando um comitê de redes neurais; no mesmo artigo, os autores alcançaram o dobro do desempenho de humanos em outras tarefas de reconhecimento. A maior taxa de erro listada no site original do banco de dados é de 12 por cento, que é obtida usando um classificador linear simples sem pré-processamento.

Em 2004, uma taxa de erro de melhor caso de 0,42% foi alcançada no banco de dados por pesquisadores usando um novo classificador chamado LIRA, que é um classificador neural com três camadas de neurônios com base nos princípios do perceptron de Rosenblatt.

Alguns pesquisadores testaram sistemas de inteligência artificial usando o banco de dados colocado sob distorções aleatórias. Os sistemas nesses casos são geralmente redes neurais e as distorções usadas tendem a ser distorções afins ou distorções elásticas . Às vezes, esses sistemas podem ser muito bem-sucedidos; um desses sistemas atingiu uma taxa de erro no banco de dados de 0,39 por cento.

Em 2011, uma taxa de erro de 0,27 por cento, melhorando em relação ao melhor resultado anterior, foi relatada por pesquisadores usando um sistema semelhante de redes neurais. Em 2013, uma abordagem baseada na regularização de redes neurais usando DropConnect foi declarada para atingir uma taxa de erro de 0,21 por cento. Em 2016, o melhor desempenho de rede neural convolucional única foi de taxa de erro de 0,25 por cento. Em agosto de 2018, o melhor desempenho de uma única rede neural convolucional treinada em dados de treinamento MNIST sem aumento de dados é de taxa de erro de 0,25 por cento. Além disso, o Centro de Computação Paralela (Khmelnytskyi, Ucrânia) obteve um conjunto de apenas 5 redes neurais convolucionais que funcionam no MNIST a uma taxa de erro de 0,21%. Algumas imagens no conjunto de dados de teste dificilmente são legíveis e podem impedir o alcance de taxas de erro de teste de 0%. Em 2018, pesquisadores do Departamento de Engenharia de Sistemas e Informação da Universidade da Virgínia anunciaram um erro de 0,18% com três tipos de redes neurais empilhadas simultaneamente (redes neurais totalmente conectadas, recorrentes e de convolução).

Classificadores

Esta é uma tabela com alguns dos métodos de aprendizado de máquina usados no conjunto de dados e suas taxas de erro, por tipo de classificador:

Modelo	Classificador	Distorção	Pré-processando	Taxa de erro (%)
Classificador linear	Classificador linear pareado	Nenhum	Deskewing	7,6
Vizinhos mais próximos	K-NN com deformação não linear (P2DHMDM)	Nenhum	Bordas deslocáveis	0,52
Tocos reforçados	Produto de tocos em características de Haar	Nenhum	Características Haar	0,87
Classificador não linear	40 PCA + classificador quadrático	Nenhum	Nenhum	3,3
Floresta Aleatória	Florestas Aleatórias Unificadas Rápidas para Sobrevivência, Regressão e Classificação (RF-SRC)	Nenhum	Importância do pixel de estatística simples	2,8
Máquina de vetores de suporte (SVM)	SVM virtual , deg-9 poly, 2 pixels jittered	Nenhum	Deskewing	0,56
Rede neural profunda (DNN)	2 camadas 784-800-10	Nenhum	Nenhum	1,6
Rede neural profunda	2 camadas 784-800-10	Distorções elásticas	Nenhum	0,7
Rede neural profunda	6 camadas 784-2500-2000-1500-1000-500-10	Distorções elásticas	Nenhum	0,35
Rede neural convolucional (CNN)	6 camadas 784-40-80-500-1000-2000-10	Nenhum	Expansão dos dados de treinamento	0,31
Rede neural convolucional	6 camadas 784-50-100-500-1000-10-10	Nenhum	Expansão dos dados de treinamento	0,27
Rede neural convolucional (CNN)	13 camadas 64-128 (5x) -256 (3x) -512-2048-256-256-10	Nenhum	Nenhum	0,25
Rede neural convolucional	Comitê de 35 CNNs, 1-20-P-40-P-150-10	Distorções elásticas	Normalizações de largura	0,23
Rede neural convolucional	Comitê de 5 CNNs, 6 camadas 784-50-100-500-1000-10-10	Nenhum	Expansão dos dados de treinamento	0,21
Random Multimodel Deep Learning (RMDL)	10 NN-10 RNN - 10 CNN	Nenhum	Nenhum	0,18
Rede neural convolucional	Comitê de 20 CNNS com redes de compressão e excitação	Nenhum	Aumento de dados	0,17

Veja também

Referências

Leitura adicional

Ciresan, Dan; Meier, Ueli; Schmidhuber, Jürgen (junho de 2012). "Redes neurais profundas com várias colunas para classificação de imagens" (PDF) . Conferência IEEE 2012 sobre Visão Computacional e Reconhecimento de Padrões . New York, NY: Institute of Electrical and Electronics Engineers . pp. 3642–3649. arXiv : 1202,2745 . CiteSeerX 10.1.1.300.3283 . doi : 10.1109 / CVPR.2012.6248110 . ISBN 9781467312264. OCLC 812295155 . S2CID 2161592 . Página visitada em 09/12/2013 .

links externos

Website oficial
Rede neural para reconhecimento de dígitos manuscritos em JavaScript - uma implementação de JavaScript de uma rede neural para classificação de dígitos manuscritos com base no banco de dados MNIST
Visualização do banco de dados MNIST - grupos de imagens de dígitos manuscritos MNIST no GitHub

Languages

In other projects