AIXI - AIXI
AIXI ['ai̯k͡siː] é um formalismo matemático teóricopara inteligência artificial geral . Ele combina a indução de Solomonoff com a teoria da decisão sequencial . O AIXI foi proposto pela primeira vez por Marcus Hutter em 2000 e vários resultados em relação ao AIXI são comprovados no livro de Hutter de 2005, Inteligência Artificial Universal .
AIXI é um agente de aprendizagem por reforço . Ele maximiza as recompensas totais esperadas recebidas do meio ambiente. Intuitivamente, ele considera simultaneamente todas as hipóteses computáveis (ou ambiente). Em cada etapa de tempo, ele examina todos os programas possíveis e avalia quantas recompensas aquele programa gera, dependendo da próxima ação realizada. As recompensas prometidas são então ponderadas pela crença subjetiva de que este programa constitui o verdadeiro ambiente. Essa crença é calculada a partir da duração do programa: programas mais longos são considerados menos prováveis, de acordo com a navalha de Occam . AIXI então seleciona a ação que tem a maior recompensa total esperada na soma ponderada de todos esses programas.
Definição
AIXI é um agente de aprendizagem por reforço que interage com algum ambiente estocástico e desconhecido, mas computável . A interação prossegue em etapas de tempo, de a , onde é a vida útil do agente AIXI. Na etapa t de tempo , o agente escolhe uma ação (por exemplo, um movimento de membro) e a executa no ambiente, e o ambiente responde com uma "percepção" , que consiste em uma "observação" (por exemplo, uma imagem de câmera) e uma recompensa , distribuído de acordo com a probabilidade condicional , onde está o "histórico" de ações, observações e recompensas. O ambiente é então matematicamente representado como uma distribuição de probabilidade sobre "percepções" (observações e recompensas) que dependem da história completa , portanto, não há suposição de Markov (em oposição a outros algoritmos RL). Observe novamente que esta distribuição de probabilidade é desconhecida para o agente AIXI. Além disso, observe novamente que é computável, ou seja, as observações e recompensas recebidas pelo agente do ambiente podem ser computadas por algum programa (que roda em uma máquina de Turing ), dadas as ações anteriores do agente AIXI.
O único objetivo do agente AIXI é maximizar , ou seja, a soma das recompensas da etapa de tempo 1 a m.
O agente AIXI está associado a uma política estocástica , que é a função que utiliza para escolher ações a cada passo de tempo, onde é o espaço de todas as ações possíveis que AIXI pode realizar e é o espaço de todas as "percepções" possíveis que podem ser produzidas pelo meio ambiente. O ambiente (ou distribuição de probabilidade) também pode ser pensado como uma política estocástica (que é uma função) :, onde é a operação estrela de Kleene .
Em geral, no intervalo de tempo (que varia de 1 a m), o AIXI, tendo ações executadas anteriormente (que muitas vezes é abreviado na literatura como ) e tendo observado o histórico de percepções (que pode ser abreviado como ), escolhe e executa em o ambiente a ação , definido como segue
ou, usando parênteses, para eliminar a ambigüidade das precedências
Intuitivamente, na definição acima, AIXI considera a soma da recompensa total sobre todos os "futuros" possíveis até passos de tempo à frente (ou seja, de a ), pondera cada um deles pela complexidade dos programas (ou seja, por ) consistentes com o passado do agente (ou seja, as ações executadas anteriormente , e percepções recebidas ) que podem gerar esse futuro e, em seguida, escolhe a ação que maximiza as recompensas futuras esperadas.
Vamos quebrar essa definição para tentar entendê-la totalmente.
é a "percepção" (que consiste na observação e recompensa ) recebida pelo agente AIXI no intervalo de tempo do ambiente (que é desconhecido e estocástico). Da mesma forma, é a percepção recebida pelo AIXI na etapa de tempo (a última etapa de tempo em que AIXI está ativo).
é a soma das recompensas de cada etapa de tempo , portanto, o AIXI precisa olhar para o futuro para escolher sua ação em cada etapa de tempo .
denota uma máquina de Turing universal monótona e abrange todos os programas (determinísticos) na máquina universal , que recebe como entrada o programa e a sequência de ações (ou seja, todas as ações) e produz a sequência de percepções . A máquina de Turing universal é então usada para "simular" ou computar as respostas ou percepções do ambiente, dado o programa (que "modela" o ambiente) e todas as ações do agente AIXI: neste sentido, o ambiente é "computável" (como Afirmado acima). Observe que, em geral, o programa que "modela" o ambiente atual e real (onde o AIXI precisa atuar) é desconhecido porque o ambiente atual também é desconhecido.
é o comprimento do programa (que é codificado como uma sequência de bits). Observe isso . Portanto, na definição acima, deve ser interpretado como uma mistura (neste caso, uma soma) de todos os ambientes computáveis (que são consistentes com o passado do agente), cada um ponderado por sua complexidade . Observe que também pode ser escrito como , e é a sequência de ações já executadas no ambiente pelo agente AIXI. Da mesma forma, e é a sequência de percepções produzidas pelo ambiente até o momento.
Vamos agora colocar todos esses componentes juntos para entender essa equação ou definição.
Na etapa de tempo t, o AIXI escolhe a ação em que a função atinge seu máximo.
Parâmetros
Os parâmetros para AIXI são a máquina de Turing universal U e o tempo de vida do agente m , que precisam ser escolhidos. O último parâmetro pode ser removido com o uso de desconto .
O significado da palavra AIXI
Segundo Hütter, a palavra "AIXI" pode ter várias interpretações. AIXI pode representar AI com base na distribuição de Solomonoff, denotada por (que é a letra grega xi), ou por exemplo, pode representar AI "cruzado" (X) com indução (I). Existem outras interpretações.
Otimalidade
O desempenho do AIXI é medido pelo número total esperado de recompensas que recebe. O AIXI provou ser ideal das seguintes maneiras.
- Otimização de Pareto : não há outro agente com desempenho pelo menos tão bom quanto o AIXI em todos os ambientes, embora tenha um desempenho estritamente melhor em pelo menos um ambiente.
- Otimização de Pareto balanceada: Como a otimização de Pareto, mas considerando uma soma ponderada de ambientes.
- Auto-otimização: uma política p é chamada de auto-otimização para um ambiente se o desempenho de p se aproxima do máximo teórico para quando o tempo de vida do agente (não o tempo) chega ao infinito. Para classes de ambiente em que existem políticas de auto-otimização, o AIXI é auto-otimizado.
Posteriormente, foi mostrado por Hütter e Jan Leike que a otimização de Pareto equilibrada é subjetiva e que qualquer política pode ser considerada ótima de Pareto, o que eles descrevem como prejudicando todas as reivindicações anteriores de otimização de AIXI.
No entanto, o AIXI tem limitações. É restrito a maximizar recompensas com base em percepções em oposição a estados externos. Também pressupõe que interaja com o meio ambiente unicamente por meio de canais de ação e percepção, evitando que considere a possibilidade de ser danificado ou modificado. Coloquialmente, isso significa que ele não se considera contido pelo ambiente com o qual interage. Também assume que o ambiente é computável.
Aspectos computacionais
Como a indução de Solomonoff , o AIXI é incomputável . No entanto, existem aproximações computáveis disso. Uma dessas aproximações é AIXI tl , que tem desempenho pelo menos tão bom quanto o comprovadamente melhor tempo t e espaço l como agente limitado. Outra aproximação de AIXI com uma classe de ambiente restrita é MC-AIXI (FAC-CTW) (que significa Monte Carlo AIXI FAC- Context-Tree Weighting ), que teve algum sucesso jogando jogos simples, como Pac-Man parcialmente observável .
Veja também
Referências
- "Universal Algorithmic Intelligence: A mathematical top-> down approach", Marcus Hutter, arXiv : cs / 0701125 ; também em Artificial General Intelligence , eds. B. Goertzel e C. Pennachin, Springer, 2007, ISBN 9783540237334 , pp. 227–290, doi : 10.1007 / 978-3-540-68677-4_8 .