Banco de dados MNIST - MNIST database
O banco de dados MNIST ( Modificado Instituto Nacional de Padrões e Tecnologia de banco de dados ) é um grande banco de dados de dígitos escritos à mão que é comumente usado para treinar vários processamento de imagem sistemas. O banco de dados também é amplamente utilizado para treinamento e testes na área de aprendizado de máquina . Ele foi criado "remisturando" as amostras dos conjuntos de dados originais do NIST. Os criadores sentiram que, uma vez que o conjunto de dados de treinamento do NIST foi retirado dos funcionários do American Census Bureau , enquanto o conjunto de dados de teste foi retirado de alunos do ensino médio americanos , ele não era adequado para experimentos de aprendizado de máquina. Além disso, as imagens em preto e branco do NIST foram normalizadas para caber em uma caixa delimitadora de 28x28 pixels e suavização de serrilhado , que introduziu níveis de tons de cinza.
O banco de dados MNIST contém 60.000 imagens de treinamento e 10.000 imagens de teste. Metade do conjunto de treinamento e metade do conjunto de teste foram retirados do conjunto de dados de treinamento do NIST, enquanto a outra metade do conjunto de treinamento e a outra metade do conjunto de teste foram extraídas do conjunto de dados de teste do NIST. Os criadores originais do banco de dados mantêm uma lista de alguns dos métodos testados nele. Em seu artigo original, eles usam uma máquina de vetores de suporte para obter uma taxa de erro de 0,8%. Um conjunto de dados estendido semelhante ao MNIST chamado EMNIST foi publicado em 2017, que contém 240.000 imagens de treinamento e 40.000 imagens de teste de dígitos e caracteres manuscritos.
História
O conjunto de imagens no banco de dados MNIST foi criado em 1998 como uma combinação de dois bancos de dados do NIST : Banco de Dados Especial 1 e Banco de Dados Especial 3. Banco de Dados Especial 1 e Banco de Dados Especial 3 consistem em dígitos escritos por alunos do ensino médio e funcionários da Bureau do Censo dos Estados Unidos , respectivamente.
atuação
Alguns pesquisadores alcançaram "desempenho quase humano" no banco de dados MNIST, usando um comitê de redes neurais; no mesmo artigo, os autores alcançaram o dobro do desempenho de humanos em outras tarefas de reconhecimento. A maior taxa de erro listada no site original do banco de dados é de 12 por cento, que é obtida usando um classificador linear simples sem pré-processamento.
Em 2004, uma taxa de erro de melhor caso de 0,42% foi alcançada no banco de dados por pesquisadores usando um novo classificador chamado LIRA, que é um classificador neural com três camadas de neurônios com base nos princípios do perceptron de Rosenblatt.
Alguns pesquisadores testaram sistemas de inteligência artificial usando o banco de dados colocado sob distorções aleatórias. Os sistemas nesses casos são geralmente redes neurais e as distorções usadas tendem a ser distorções afins ou distorções elásticas . Às vezes, esses sistemas podem ser muito bem-sucedidos; um desses sistemas atingiu uma taxa de erro no banco de dados de 0,39 por cento.
Em 2011, uma taxa de erro de 0,27 por cento, melhorando em relação ao melhor resultado anterior, foi relatada por pesquisadores usando um sistema semelhante de redes neurais. Em 2013, uma abordagem baseada na regularização de redes neurais usando DropConnect foi declarada para atingir uma taxa de erro de 0,21 por cento. Em 2016, o melhor desempenho de rede neural convolucional única foi de taxa de erro de 0,25 por cento. Em agosto de 2018, o melhor desempenho de uma única rede neural convolucional treinada em dados de treinamento MNIST sem aumento de dados é de taxa de erro de 0,25 por cento. Além disso, o Centro de Computação Paralela (Khmelnytskyi, Ucrânia) obteve um conjunto de apenas 5 redes neurais convolucionais que funcionam no MNIST a uma taxa de erro de 0,21%. Algumas imagens no conjunto de dados de teste dificilmente são legíveis e podem impedir o alcance de taxas de erro de teste de 0%. Em 2018, pesquisadores do Departamento de Engenharia de Sistemas e Informação da Universidade da Virgínia anunciaram um erro de 0,18% com três tipos de redes neurais empilhadas simultaneamente (redes neurais totalmente conectadas, recorrentes e de convolução).
Classificadores
Esta é uma tabela com alguns dos métodos de aprendizado de máquina usados no conjunto de dados e suas taxas de erro, por tipo de classificador:
Modelo | Classificador | Distorção | Pré-processando | Taxa de erro (%) |
---|---|---|---|---|
Classificador linear | Classificador linear pareado | Nenhum | Deskewing | 7,6 |
Vizinhos mais próximos | K-NN com deformação não linear (P2DHMDM) | Nenhum | Bordas deslocáveis | 0,52 |
Tocos reforçados | Produto de tocos em características de Haar | Nenhum | Características Haar | 0,87 |
Classificador não linear | 40 PCA + classificador quadrático | Nenhum | Nenhum | 3,3 |
Floresta Aleatória | Florestas Aleatórias Unificadas Rápidas para Sobrevivência, Regressão e Classificação (RF-SRC) | Nenhum | Importância do pixel de estatística simples | 2,8 |
Máquina de vetores de suporte (SVM) | SVM virtual , deg-9 poly, 2 pixels jittered | Nenhum | Deskewing | 0,56 |
Rede neural profunda (DNN) | 2 camadas 784-800-10 | Nenhum | Nenhum | 1,6 |
Rede neural profunda | 2 camadas 784-800-10 | Distorções elásticas | Nenhum | 0,7 |
Rede neural profunda | 6 camadas 784-2500-2000-1500-1000-500-10 | Distorções elásticas | Nenhum | 0,35 |
Rede neural convolucional (CNN) | 6 camadas 784-40-80-500-1000-2000-10 | Nenhum | Expansão dos dados de treinamento | 0,31 |
Rede neural convolucional | 6 camadas 784-50-100-500-1000-10-10 | Nenhum | Expansão dos dados de treinamento | 0,27 |
Rede neural convolucional (CNN) | 13 camadas 64-128 (5x) -256 (3x) -512-2048-256-256-10 | Nenhum | Nenhum | 0,25 |
Rede neural convolucional | Comitê de 35 CNNs, 1-20-P-40-P-150-10 | Distorções elásticas | Normalizações de largura | 0,23 |
Rede neural convolucional | Comitê de 5 CNNs, 6 camadas 784-50-100-500-1000-10-10 | Nenhum | Expansão dos dados de treinamento | 0,21 |
Random Multimodel Deep Learning (RMDL) | 10 NN-10 RNN - 10 CNN | Nenhum | Nenhum | 0,18 |
Rede neural convolucional | Comitê de 20 CNNS com redes de compressão e excitação | Nenhum | Aumento de dados | 0,17 |
Veja também
Referências
Leitura adicional
- Ciresan, Dan; Meier, Ueli; Schmidhuber, Jürgen (junho de 2012). "Redes neurais profundas com várias colunas para classificação de imagens" (PDF) . Conferência IEEE 2012 sobre Visão Computacional e Reconhecimento de Padrões . New York, NY: Institute of Electrical and Electronics Engineers . pp. 3642–3649. arXiv : 1202,2745 . CiteSeerX 10.1.1.300.3283 . doi : 10.1109 / CVPR.2012.6248110 . ISBN 9781467312264. OCLC 812295155 . S2CID 2161592 . Página visitada em 09/12/2013 .
links externos
- Website oficial
- Rede neural para reconhecimento de dígitos manuscritos em JavaScript - uma implementação de JavaScript de uma rede neural para classificação de dígitos manuscritos com base no banco de dados MNIST
- Visualização do banco de dados MNIST - grupos de imagens de dígitos manuscritos MNIST no GitHub