AIXI - AIXI

AIXI ['ai̯k͡siː] é um formalismo matemático teóricopara inteligência artificial geral . Ele combina a indução de Solomonoff com a teoria da decisão sequencial . O AIXI foi proposto pela primeira vez por Marcus Hutter em 2000 e vários resultados em relação ao AIXI são comprovados no livro de Hutter de 2005, Inteligência Artificial Universal .

AIXI é um agente de aprendizagem por reforço . Ele maximiza as recompensas totais esperadas recebidas do meio ambiente. Intuitivamente, ele considera simultaneamente todas as hipóteses computáveis ​​(ou ambiente). Em cada etapa de tempo, ele examina todos os programas possíveis e avalia quantas recompensas aquele programa gera, dependendo da próxima ação realizada. As recompensas prometidas são então ponderadas pela crença subjetiva de que este programa constitui o verdadeiro ambiente. Essa crença é calculada a partir da duração do programa: programas mais longos são considerados menos prováveis, de acordo com a navalha de Occam . AIXI então seleciona a ação que tem a maior recompensa total esperada na soma ponderada de todos esses programas.

Definição

AIXI é um agente de aprendizagem por reforço que interage com algum ambiente estocástico e desconhecido, mas computável . A interação prossegue em etapas de tempo, de a , onde é a vida útil do agente AIXI. Na etapa t de tempo , o agente escolhe uma ação (por exemplo, um movimento de membro) e a executa no ambiente, e o ambiente responde com uma "percepção" , que consiste em uma "observação" (por exemplo, uma imagem de câmera) e uma recompensa , distribuído de acordo com a probabilidade condicional , onde está o "histórico" de ações, observações e recompensas. O ambiente é então matematicamente representado como uma distribuição de probabilidade sobre "percepções" (observações e recompensas) que dependem da história completa , portanto, não há suposição de Markov (em oposição a outros algoritmos RL). Observe novamente que esta distribuição de probabilidade é desconhecida para o agente AIXI. Além disso, observe novamente que é computável, ou seja, as observações e recompensas recebidas pelo agente do ambiente podem ser computadas por algum programa (que roda em uma máquina de Turing ), dadas as ações anteriores do agente AIXI.

O único objetivo do agente AIXI é maximizar , ou seja, a soma das recompensas da etapa de tempo 1 a m.

O agente AIXI está associado a uma política estocástica , que é a função que utiliza para escolher ações a cada passo de tempo, onde é o espaço de todas as ações possíveis que AIXI pode realizar e é o espaço de todas as "percepções" possíveis que podem ser produzidas pelo meio ambiente. O ambiente (ou distribuição de probabilidade) também pode ser pensado como uma política estocástica (que é uma função) :, onde é a operação estrela de Kleene .

Em geral, no intervalo de tempo (que varia de 1 a m), o AIXI, tendo ações executadas anteriormente (que muitas vezes é abreviado na literatura como ) e tendo observado o histórico de percepções (que pode ser abreviado como ), escolhe e executa em o ambiente a ação , definido como segue

ou, usando parênteses, para eliminar a ambigüidade das precedências

Intuitivamente, na definição acima, AIXI considera a soma da recompensa total sobre todos os "futuros" possíveis até passos de tempo à frente (ou seja, de a ), pondera cada um deles pela complexidade dos programas (ou seja, por ) consistentes com o passado do agente (ou seja, as ações executadas anteriormente , e percepções recebidas ) que podem gerar esse futuro e, em seguida, escolhe a ação que maximiza as recompensas futuras esperadas.

Vamos quebrar essa definição para tentar entendê-la totalmente.

é a "percepção" (que consiste na observação e recompensa ) recebida pelo agente AIXI no intervalo de tempo do ambiente (que é desconhecido e estocástico). Da mesma forma, é a percepção recebida pelo AIXI na etapa de tempo (a última etapa de tempo em que AIXI está ativo).

é a soma das recompensas de cada etapa de tempo , portanto, o AIXI precisa olhar para o futuro para escolher sua ação em cada etapa de tempo .

denota uma máquina de Turing universal monótona e abrange todos os programas (determinísticos) na máquina universal , que recebe como entrada o programa e a sequência de ações (ou seja, todas as ações) e produz a sequência de percepções . A máquina de Turing universal é então usada para "simular" ou computar as respostas ou percepções do ambiente, dado o programa (que "modela" o ambiente) e todas as ações do agente AIXI: neste sentido, o ambiente é "computável" (como Afirmado acima). Observe que, em geral, o programa que "modela" o ambiente atual e real (onde o AIXI precisa atuar) é desconhecido porque o ambiente atual também é desconhecido.

é o comprimento do programa (que é codificado como uma sequência de bits). Observe isso . Portanto, na definição acima, deve ser interpretado como uma mistura (neste caso, uma soma) de todos os ambientes computáveis ​​(que são consistentes com o passado do agente), cada um ponderado por sua complexidade . Observe que também pode ser escrito como , e é a sequência de ações já executadas no ambiente pelo agente AIXI. Da mesma forma, e é a sequência de percepções produzidas pelo ambiente até o momento.

Vamos agora colocar todos esses componentes juntos para entender essa equação ou definição.

Na etapa de tempo t, o AIXI escolhe a ação em que a função atinge seu máximo.

Parâmetros

Os parâmetros para AIXI são a máquina de Turing universal U e o tempo de vida do agente m , que precisam ser escolhidos. O último parâmetro pode ser removido com o uso de desconto .

O significado da palavra AIXI

Segundo Hütter, a palavra "AIXI" pode ter várias interpretações. AIXI pode representar AI com base na distribuição de Solomonoff, denotada por (que é a letra grega xi), ou por exemplo, pode representar AI "cruzado" (X) com indução (I). Existem outras interpretações.

Otimalidade

O desempenho do AIXI é medido pelo número total esperado de recompensas que recebe. O AIXI provou ser ideal das seguintes maneiras.

  • Otimização de Pareto : não há outro agente com desempenho pelo menos tão bom quanto o AIXI em todos os ambientes, embora tenha um desempenho estritamente melhor em pelo menos um ambiente.
  • Otimização de Pareto balanceada: Como a otimização de Pareto, mas considerando uma soma ponderada de ambientes.
  • Auto-otimização: uma política p é chamada de auto-otimização para um ambiente se o desempenho de p se aproxima do máximo teórico para quando o tempo de vida do agente (não o tempo) chega ao infinito. Para classes de ambiente em que existem políticas de auto-otimização, o AIXI é auto-otimizado.

Posteriormente, foi mostrado por Hütter e Jan Leike que a otimização de Pareto equilibrada é subjetiva e que qualquer política pode ser considerada ótima de Pareto, o que eles descrevem como prejudicando todas as reivindicações anteriores de otimização de AIXI.

No entanto, o AIXI tem limitações. É restrito a maximizar recompensas com base em percepções em oposição a estados externos. Também pressupõe que interaja com o meio ambiente unicamente por meio de canais de ação e percepção, evitando que considere a possibilidade de ser danificado ou modificado. Coloquialmente, isso significa que ele não se considera contido pelo ambiente com o qual interage. Também assume que o ambiente é computável.

Aspectos computacionais

Como a indução de Solomonoff , o AIXI é incomputável . No entanto, existem aproximações computáveis ​​disso. Uma dessas aproximações é AIXI tl , que tem desempenho pelo menos tão bom quanto o comprovadamente melhor tempo t e espaço l como agente limitado. Outra aproximação de AIXI com uma classe de ambiente restrita é MC-AIXI (FAC-CTW) (que significa Monte Carlo AIXI FAC- Context-Tree Weighting ), que teve algum sucesso jogando jogos simples, como Pac-Man parcialmente observável .

Veja também

Referências