ImageNet - ImageNet

O projeto ImageNet é um grande banco de dados visual projetado para uso em pesquisa de software de reconhecimento visual de objetos . Mais de 14 milhões de imagens foram anotadas à mão pelo projeto para indicar quais objetos são retratados e em pelo menos um milhão de imagens, caixas delimitadoras também são fornecidas. ImageNet contém mais de 20.000 categorias com uma categoria típica, como "balão" ou "morango", consistindo em várias centenas de imagens. O banco de dados de anotações de URLs de imagens de terceiros está disponível gratuitamente diretamente na ImageNet, embora as imagens reais não sejam de propriedade da ImageNet. Desde 2010, o projeto ImageNet realiza um concurso anual de software, o ImageNet Large Scale Visual Recognition Challenge ( ILSVRC ), onde programas de software competem para classificar e detectar corretamente objetos e cenas. O desafio usa uma lista "aparada" de mil classes não sobrepostas.

Significado para aprendizagem profunda

Em 30 de setembro de 2012, uma rede neural convolucional (CNN) chamada AlexNet obteve um erro entre os 5 primeiros de 15,3% no ImageNet 2012 Challenge, mais de 10,8 pontos percentuais abaixo do segundo colocado. Isso foi possível devido ao uso de unidades de processamento gráfico (GPUs) durante o treinamento, um ingrediente essencial da revolução do aprendizado profundo . De acordo com o The Economist , "De repente, as pessoas começaram a prestar atenção, não apenas na comunidade de IA, mas na indústria de tecnologia como um todo."

Em 2015, o AlexNet foi superado pela CNN da Microsoft com mais de 100 camadas, que ganhou o concurso ImageNet 2015.

História do banco de dados

O pesquisador de IA Fei-Fei Li começou a trabalhar na ideia do ImageNet em 2006. Em um momento em que a maioria das pesquisas de IA se concentrava em modelos e algoritmos, Li queria expandir e melhorar os dados disponíveis para treinar algoritmos de IA. Em 2007, Li se encontrou com a professora de Princeton Christiane Fellbaum , uma das criadoras do WordNet para discutir o projeto. Como resultado dessa reunião, Li passou a construir o ImageNet a partir do banco de dados de palavras do WordNet e usando muitos de seus recursos.

Como professor assistente em Princeton, Li montou uma equipe de pesquisadores para trabalhar no projeto ImageNet. Eles usaram o Amazon Mechanical Turk para ajudar na classificação das imagens.

Eles apresentaram seu banco de dados pela primeira vez como pôster na Conferência sobre Visão Computacional e Reconhecimento de Padrões (CVPR) de 2009 na Flórida.

Conjunto de Dados

ImageNet crowdsources seu processo de anotação. As anotações no nível da imagem indicam a presença ou ausência de uma classe de objeto em uma imagem, como "há tigres nesta imagem" ou "não há tigres nesta imagem". As anotações no nível do objeto fornecem uma caixa delimitadora ao redor do (parte visível do) objeto indicado. ImageNet usa uma variante do amplo esquema WordNet para categorizar objetos, acrescida de 120 categorias de raças de cães para mostrar uma classificação refinada. Uma desvantagem do uso do WordNet é que as categorias podem ser mais "elevadas" do que seriam ideais para o ImageNet: "A maioria das pessoas está mais interessada em Lady Gaga ou no iPod Mini do que neste tipo raro de diplodocus ." Em 2012, a ImageNet foi o maior usuário acadêmico do Mechanical Turk . O trabalhador médio identificou 50 imagens por minuto.

História do desafio ImageNet

Histórico de taxa de erro no ImageNet (mostrando o melhor resultado por equipe e até 10 entradas por ano)

O ILSVRC visa "seguir os passos" do desafio PASCAL VOC de menor escala, estabelecido em 2005, que continha apenas cerca de 20.000 imagens e vinte classes de objetos. Para "democratizar" o ImageNet, Fei-Fei Li propôs à equipe PASCAL VOC uma colaboração, começando em 2010, onde as equipes de pesquisa iriam avaliar seus algoritmos no conjunto de dados fornecido e competir para obter maior precisão em várias tarefas de reconhecimento visual.

A competição anual resultante é agora conhecida como Desafio de Reconhecimento Visual em Grande Escala ImageNet (ILSVRC). O ILSVRC usa uma lista "aparada" de apenas 1000 categorias ou "classes" de imagens, incluindo 90 das 120 raças de cães classificadas pelo esquema ImageNet completo. A década de 2010 viu um progresso dramático no processamento de imagens. Por volta de 2011, uma boa taxa de erro dos 5 primeiros na classificação do ILSVRC era de 25%. Em 2012, uma rede neural convolucional profunda chamada AlexNet atingiu 16%; nos anos seguintes, as 5 maiores taxas de erro caíram para alguns por cento. Enquanto a descoberta de 2012 "combinava peças que estavam todas lá antes", a dramática melhoria quantitativa marcou o início de um boom de inteligência artificial em toda a indústria. Em 2015, os pesquisadores da Microsoft relataram que seus CNNs excediam a capacidade humana nas tarefas estreitas do ILSVRC. No entanto, como apontou em 2015 uma das organizadoras do desafio, Olga Russakovsky , os programas só têm de identificar as imagens como pertencentes a uma das mil categorias; os humanos podem reconhecer um grande número de categorias e também (ao contrário dos programas) podem julgar o contexto de uma imagem.

Em 2014, mais de cinquenta instituições participaram do ILSVRC. Em 2015, os cientistas do Baidu foram banidos por um ano por usarem contas diferentes que excediam em muito o limite especificado de duas inscrições por semana. Posteriormente, o Baidu declarou que demitiu o líder da equipe envolvida e que estabeleceria um painel consultivo científico.

Em 2017, 29 das 38 equipes concorrentes tinham mais de 95% de precisão. Em 2017, a ImageNet afirmou que lançaria um novo e muito mais difícil desafio em 2018, que envolve a classificação de objetos 3D usando linguagem natural. Como criar dados 3D é mais caro do que anotar uma imagem 2D pré-existente, espera-se que o conjunto de dados seja menor. As aplicações do progresso nesta área vão desde a navegação robótica até a realidade aumentada .

Viés na ImageNet

Um estudo da história das múltiplas camadas ( taxonomia , classes de objetos e rotulagem) do ImageNet e WordNet em 2019 descreveu como o viés está profundamente enraizado na maioria das abordagens de classificação de todos os tipos de imagens. ImageNet está trabalhando para abordar várias fontes de preconceito.

Veja também

Referências

links externos

Website oficial

Languages

In other projects