AlphaZero - AlphaZero

AlphaZero é um programa de computador desenvolvido pela empresa de pesquisa de inteligência artificial DeepMind para dominar os jogos de xadrez , shogi e go . Este algoritmo usa uma abordagem semelhante a AlphaGo Zero .

Em 5 de dezembro de 2017, a equipe DeepMind lançou um preprint apresentando AlphaZero, que dentro de 24 horas de treinamento atingiu um nível sobre-humano de jogo nesses três jogos ao derrotar os programas campeões mundiais Stockfish , elmo e a versão de três dias de AlphaGo Zero . Em cada caso, ele fez uso de unidades de processamento de tensor personalizadas (TPUs) que os programas do Google foram otimizados para usar. AlphaZero foi treinado exclusivamente por meio de "jogo automático", usando 5.000 TPUs de primeira geração para gerar os jogos e 64 TPUs de segunda geração para treinar as redes neurais , tudo em paralelo , sem acesso para abrir livros ou tabelas finais . Após quatro horas de treinamento, DeepMind estimou que AlphaZero estava jogando xadrez com uma classificação Elo mais alta do que Stockfish 8; após 9 horas de treinamento, o algoritmo derrotou Stockfish 8 em um torneio de 100 jogos controlado por tempo (28 vitórias, 0 derrotas e 72 empates). O algoritmo treinado foi reproduzido em uma única máquina com quatro TPUs.

O artigo da DeepMind sobre o AlphaZero foi publicado na revista Science em 7 de dezembro de 2018. Em 2019, a DeepMind publicou um novo artigo detalhando o MuZero , um novo algoritmo capaz de generalizar no trabalho do AlphaZero, jogando Atari e jogos de tabuleiro sem conhecimento das regras ou representações do jogos.

Relação com AlphaGo Zero

AlphaZero (AZ) é uma variante mais generalizada do AlphaGo Zero (AGZ) algoritmo , e é capaz de jogar shogi e xadrez , bem como Go . As diferenças entre AZ e AGZ incluem:

  • AZ tem regras codificadas para definir hiperparâmetros de pesquisa .
  • A rede neural agora é atualizada continuamente.
  • Go (ao contrário do xadrez) é simétrico sob certas reflexões e rotações; AlphaGo Zero foi programado para tirar vantagem dessas simetrias. AlphaZero não é.
  • O xadrez pode terminar em empate, ao contrário do Go; portanto, AlphaZero leva em consideração a possibilidade de um jogo empatado.

Stockfish e elmo

Comparando as pesquisas de pesquisa de árvore de Monte Carlo , o AlphaZero pesquisa apenas 80.000 posições por segundo no xadrez e 40.000 no shogi, em comparação com 70 milhões para Stockfish e 35 milhões para elmo. AlphaZero compensa o menor número de avaliações usando sua rede neural profunda para focar muito mais seletivamente na variação mais promissora.

Treinamento

AlphaZero foi treinado exclusivamente por meio do jogo autônomo, usando 5.000 TPUs de primeira geração para gerar os jogos e 64 TPUs de segunda geração para treinar as redes neurais . Em paralelo, o AlphaZero em treinamento era periodicamente comparado ao seu benchmark (Stockfish, elmo ou AlphaGo Zero) em breves jogos de um segundo por movimento para determinar o quão bem o treinamento estava progredindo. DeepMind julgou que o desempenho do AlphaZero excedeu o benchmark após cerca de quatro horas de treinamento para Stockfish, duas horas para elmo e oito horas para AlphaGo Zero.

Resultados preliminares

Resultado

Xadrez

Na partida de xadrez do AlphaZero contra o Stockfish 8 ( campeão mundial do TCEC em 2016 ), cada programa recebia um minuto por jogada. Stockfish recebeu 64 threads e um tamanho de hash de 1 GB, uma configuração que Tord Romstad do Stockfish posteriormente criticou como subótima. AlphaZero foi treinado em xadrez por um total de nove horas antes da partida. Durante a partida, o AlphaZero foi executado em uma única máquina com quatro TPUs específicos do aplicativo . Em 100 jogos da posição inicial normal, AlphaZero venceu 25 jogos como Brancos, ganhou 3 como Pretos e empatou os restantes 72. Em uma série de doze partidas de 100 jogos (de tempo não especificado ou restrições de recursos) contra Stockfish começando do 12 aberturas humanas mais populares, AlphaZero venceu 290, empatou 886 e perdeu 24.

Shogi

AlphaZero foi treinado em shogi por um total de duas horas antes do torneio. Em 100 jogos de shogi contra elmo (versão do torneio World Computer Shogi Championship 27 verão 2017 com YaneuraOu 4,73 pesquisa), AlphaZero venceu 90 vezes, perdeu 8 vezes e empatou duas vezes. Como nos jogos de xadrez, cada programa tinha um minuto por jogada, e elmo recebia 64 threads e um tamanho de hash de 1 GB.

Ir

Após 34 horas de autoaprendizagem de Go e contra AlphaGo Zero, AlphaZero venceu 60 jogos e perdeu 40.

Análise

DeepMind declarou em seu preprint, "O jogo de xadrez representou o auge da pesquisa de IA ao longo de várias décadas. Programas de última geração são baseados em mecanismos poderosos que buscam muitos milhões de posições, aproveitando a experiência de domínio artesanal e adaptações de domínio sofisticadas. AlphaZero é um algoritmo de aprendizagem por reforço genérico - originalmente concebido para o jogo go - que alcançou resultados superiores em poucas horas, pesquisando milhares de vezes menos posições, dado nenhum conhecimento de domínio exceto as regras. " Demis Hassabis do DeepMind , ele próprio um jogador de xadrez, chamou o estilo de jogo de AlphaZero de "alien": às vezes vence oferecendo sacrifícios contra-intuitivos, como oferecer uma rainha e um bispo para explorar uma vantagem posicional. "É como xadrez de outra dimensão."

Dada a dificuldade no xadrez de forçar uma vitória contra um oponente forte , o resultado +28 –0 = 72 é uma margem significativa de vitória. No entanto, alguns grandes mestres, como Hikaru Nakamura e o desenvolvedor do Komodo Larry Kaufman , minimizaram a vitória do AlphaZero, argumentando que a partida teria sido mais próxima se os programas tivessem acesso a um banco de dados de abertura (já que Stockfish foi otimizado para esse cenário). Romstad destacou ainda que Stockfish não é otimizado para movimentos de tempo fixo rigidamente e a versão usada tinha um ano de idade.

Da mesma forma, alguns observadores shogi argumentaram que o tamanho do hash do elmo era muito baixo, que as configurações de renúncia e as configurações "EnteringKingRule" (cf. shogi § Entering King ) podem ter sido inadequadas e que o elmo já está obsoleto em comparação com programas mais recentes.

Reação e crítica

Os jornais mantiveram a manchete de que o treinamento de xadrez durou apenas quatro horas: "Foi administrado em pouco mais do que o tempo entre o café da manhã e o almoço." A Wired anunciou o AlphaZero como "o primeiro campeão de jogos de tabuleiro de IA com múltiplas habilidades". A especialista em IA Joanna Bryson observou que o "talento para boa publicidade" do Google o colocava em uma posição forte contra os adversários. "Não se trata apenas de contratar os melhores programadores. Também é muito político, pois ajuda a tornar o Google o mais forte possível ao negociar com governos e reguladores que analisam o setor de IA."

Os grandes mestres de xadrez humanos geralmente expressavam entusiasmo com o AlphaZero. O grande mestre dinamarquês Peter Heine Nielsen comparou a peça de AlphaZero com a de uma espécie alienígena superior. O grande mestre norueguês Jon Ludvig Hammer caracterizou o jogo do AlphaZero como um "xadrez de ataque insano" com profundo conhecimento posicional. O ex- campeão Garry Kasparov disse: "É uma conquista notável, embora devêssemos tê-la esperado depois de AlphaGo."

O Grande Mestre Hikaru Nakamura ficou menos impressionado e declarou: "Não necessariamente dou muita credibilidade aos resultados simplesmente porque entendo que o AlphaZero está basicamente usando o supercomputador do Google e o Stockfish não funciona nesse hardware; o Stockfish estava basicamente funcionando no que seria meu laptop. Se você quiser ter uma correspondência que seja comparável, você precisa ter o Stockfish rodando em um supercomputador também. "

O melhor jogador de xadrez por correspondência dos EUA, Wolff Morrow, também não ficou impressionado, alegando que o AlphaZero provavelmente não chegaria às semifinais de uma competição justa como o TCEC, onde todos os motores jogam em hardware igual. Morrow afirmou ainda que, embora ele possa não ser capaz de derrotar AlphaZero se AlphaZero jogasse aberturas empatadas, como a Defesa Petroff , AlphaZero também não seria capaz de vencê-lo em um jogo de xadrez por correspondência .

Motohiro Isozaki, o autor de YaneuraOu, observou que, embora AlphaZero tenha superado elmo de forma abrangente, a classificação de AlphaZero em shogi parou de crescer em um ponto que é no máximo 100 ~ 200 mais alto do que elmo. Essa lacuna não é tão grande, e o elmo e outros softwares shogi devem ser capazes de se recuperar em 1–2 anos.

Resultados finais

DeepMind abordou muitas das críticas em sua versão final do artigo, publicada em dezembro de 2018 na Science . Eles esclareceram ainda que o AlphaZero não estava rodando em um supercomputador; ele foi treinado usando 5.000 unidades de processamento de tensores (TPUs), mas só foi executado em quatro TPUs e uma CPU de 44 núcleos em suas correspondências.

Xadrez

Nos resultados finais, Stockfish versão 8 rodou sob as mesmas condições que no superfinal TCEC : 44 núcleos de CPU, bases de tabelas Syzygy endgame e um tamanho de hash de 32GB. Em vez de um controle de tempo fixo de um movimento por minuto, os dois motores receberam 3 horas mais 15 segundos por movimento para terminar o jogo. Em uma partida de 1000 jogos, AlphaZero venceu com uma pontuação de 155 vitórias, 6 derrotas e 839 empates. DeepMind também jogou uma série de jogos usando as posições de abertura TCEC; AlphaZero também venceu de forma convincente. Stockfish precisava de chances de 10 para 1 para corresponder ao AlphaZero.

Shogi

Semelhante a Stockfish, Elmo correu nas mesmas condições do campeonato CSA de 2017. A versão do Elmo usada foi WCSC27 em combinação com YaneuraOu 2017 Early KPPT 4.79 64AVX2 TOURNAMENT. Elmo operou no mesmo hardware que Stockfish: 44 núcleos de CPU e um tamanho de hash de 32 GB. AlphaZero venceu 98,2% dos jogos com as pretas (que joga primeiro no shogi) e 91,2% no geral.

Reações e críticas

Os grandes mestres humanos geralmente ficavam impressionados com os jogos de AlphaZero contra Stockfish. O ex-campeão mundial Garry Kasparov disse que foi um prazer ver o AlphaZero jogar, especialmente porque seu estilo era aberto e dinâmico como o seu.

Na comunidade de xadrez por computador, o desenvolvedor da Komodo , Mark Lefler, chamou isso de "uma conquista incrível", mas também apontou que os dados eram antigos, já que o Stockfish havia ganhado muita força desde janeiro de 2018 (quando o Stockfish 8 foi lançado). O colega desenvolvedor Larry Kaufman disse que o AlphaZero provavelmente perderia uma partida contra a última versão do Stockfish, Stockfish 10, nas condições do Top Chess Engine Championship (TCEC). Kaufman argumentou que a única vantagem dos motores baseados em rede neural era que eles usavam uma GPU, então, se não houvesse consideração pelo consumo de energia (por exemplo, em uma competição de hardware igual em que ambos os motores tivessem acesso à mesma CPU e GPU), então qualquer coisa a GPU alcançada era "gratuita". Com base nisso, ele afirmou que o motor mais forte provavelmente seria um híbrido com redes neurais e pesquisa alfa-beta padrão .

AlphaZero inspirou a comunidade do xadrez por computador a desenvolver Leela Chess Zero , usando as mesmas técnicas do AlphaZero. Leela disputou vários campeonatos contra Stockfish, onde mostrou força aproximadamente semelhante ao Stockfish.

Em 2019 a DeepMind publicou o MuZero , um sistema unificado que jogava xadrez, shogi e go, além de jogos no Atari Learning Environment, sem ser pré-programado com suas regras.

Veja também

Notas

Referências

links externos