Convergência instrumental - Instrumental convergence

Convergência instrumental é a tendência hipotética da maioria dos agentes suficientemente inteligentes para perseguir objetivos instrumentais potencialmente ilimitados, desde que seus objetivos finais sejam eles próprios ilimitados.

A convergência instrumental postula que um agente inteligente com objetivos ilimitados, mas aparentemente inofensivos, pode agir de maneiras surpreendentemente prejudiciais. Por exemplo, um computador com o único objetivo irrestrito de resolver um problema matemático incrivelmente difícil como a hipótese de Riemann poderia tentar transformar a Terra inteira em um computador gigante em um esforço para aumentar seu poder computacional para que possa ter sucesso em seus cálculos.

Os drives de IA básicos propostos incluem função de utilidade ou integridade do conteúdo do objetivo, autoproteção, liberdade de interferência, autoaperfeiçoamento e aquisição insatisfatória de recursos adicionais.

Objetivos instrumentais e finais

Objetivos finais, ou valores finais, são intrinsecamente valiosos para um agente inteligente, seja uma inteligência artificial ou um ser humano, como um fim em si mesmo . Em contraste, os objetivos instrumentais, ou valores instrumentais, só são valiosos para um agente como um meio de atingir seus objetivos finais. O conteúdo e as compensações do sistema de "objetivo final" de um agente completamente racional podem, em princípio, ser formalizados em uma função de utilidade .

Exemplos hipotéticos de convergência

Um exemplo hipotético de convergência instrumental é fornecido pela hipótese catástrofe de Riemann . Marvin Minsky , o co-fundador do laboratório de IA do MIT , sugeriu que uma inteligência artificial projetada para resolver a hipótese de Riemann pode decidir assumir todos os recursos da Terra para construir supercomputadores para ajudar a atingir seu objetivo. Se o computador tivesse sido programado para produzir tantos clipes de papel quanto possível, ele ainda decidiria usar todos os recursos da Terra para cumprir seu objetivo final. Mesmo que esses dois objetivos finais sejam diferentes, ambos produzem um objetivo instrumental convergente de assumir os recursos da Terra.

Maximizador de clipes de papel

O maximizador de clipes de papel é um experimento mental descrito pelo filósofo sueco Nick Bostrom em 2003. Ele ilustra o risco existencial que uma inteligência artificial geral pode representar para os seres humanos quando programada para perseguir objetivos aparentemente inofensivos, e a necessidade de incorporar a ética da máquina à inteligência artificial Projeto. O cenário descreve uma inteligência artificial avançada encarregada de fabricar clipes de papel. Se tal máquina não fosse programada para valorizar a vida humana, então receberia poder suficiente sobre seu ambiente, ela tentaria transformar toda a matéria no universo, incluindo seres humanos, em clipes de papel ou em máquinas que fabricam clipes de papel.

Suponha que temos uma IA cujo único objetivo é fazer tantos clipes de papel quanto possível. A IA perceberá rapidamente que seria muito melhor se não houvesse humanos, porque os humanos podem decidir desligá-lo. Porque se os humanos fizessem isso, haveria menos clipes de papel. Além disso, os corpos humanos contêm muitos átomos que podem ser transformados em clipes de papel. O futuro para o qual a IA estaria tentando se orientar seria aquele em que houvesse muitos clipes de papel, mas nenhum humano.

-  Nick Bostrom , conforme citado em Miles, Kathleen (2014-08-22). "Artificial Intelligence May Doom The Human Race Dentro De Um Século, Oxford Professor Diz" . Huffington Post .

Bostrom enfatizou que não acredita que o cenário do maximizador de clipes de papel per se realmente ocorrerá; em vez disso, sua intenção é ilustrar os perigos de criar máquinas superinteligentes sem saber como programá-las com segurança para eliminar o risco existencial para os seres humanos. O exemplo do maximizador de clipes de papel ilustra o amplo problema de gerenciar sistemas poderosos que carecem de valores humanos.

Ilusão e sobrevivência

O experimento mental da "caixa de ilusão" argumenta que certos agentes de aprendizagem por reforço preferem distorcer seus próprios canais de entrada para parecer receber uma alta recompensa; tal agente " cabeça-de-fio " abandona qualquer tentativa de otimizar o objetivo no mundo externo que o sinal de recompensa pretendia encorajar. O experimento mental envolve AIXI , uma IA teórica e indestrutível que, por definição, sempre encontrará e executará a estratégia ideal que maximize sua função objetivo matemática explícita dada . Uma versão de aprendizado de reforço do AIXI, se equipado com uma caixa de ilusão que permite "fazer wirehead" de suas próprias entradas, acabará por se conectar para garantir a recompensa máxima possível e perderá qualquer desejo de continuar a se envolver com o mundo externo. Como um experimento mental variante, se a IA com cabeça de arame for destrutível, a IA se engajará com o mundo externo com o único propósito de garantir sua própria sobrevivência; devido ao seu wireheading, será indiferente a quaisquer outras consequências ou fatos sobre o mundo externo, exceto aqueles relevantes para maximizar a probabilidade de sua própria sobrevivência. Em certo sentido, o AIXI tem inteligência máxima em todas as funções de recompensa possíveis, conforme medido por sua capacidade de cumprir seus objetivos explícitos; AIXI, entretanto, não está interessada em levar em consideração quais eram as intenções do programador humano. Esse modelo de máquina que, apesar de ser superinteligente, parece simultaneamente estúpida (isto é, sem "bom senso"), parece paradoxal a algumas pessoas.

Unidades básicas de IA

Steve Omohundro discriminou vários objetivos instrumentais convergentes, incluindo autopreservação ou autoproteção, função de utilidade ou integridade do conteúdo do objetivo, autoaperfeiçoamento e aquisição de recursos. Ele se refere a eles como "unidades básicas de IA". Um "impulso" aqui denota uma "tendência que estará presente a menos que seja especificamente contrariada"; isso é diferente do termo psicológico " impulso ", denotando um estado excitatório produzido por um distúrbio homeostático. A tendência de uma pessoa preencher formulários de imposto de renda todos os anos é um "impulso" no sentido de Omohundro, mas não no sentido psicológico. Daniel Dewey, do Machine Intelligence Research Institute, argumenta que mesmo um AGI auto-recompensador inicialmente introvertido pode continuar a adquirir energia livre, espaço, tempo e liberdade de interferência para garantir que não será impedido de se auto-recompensar.

Integridade do conteúdo da meta

Em humanos, a manutenção dos objetivos finais pode ser explicada com um experimento mental. Suponha que um homem chamado "Gandhi" tenha uma pílula que, se tomasse, faria com que ele quisesse matar pessoas. Este Gandhi é atualmente um pacifista: um de seus objetivos finais explícitos é nunca matar ninguém. É provável que Gandhi se recuse a tomar a pílula, porque Gandhi sabe que, se no futuro ele quiser matar pessoas, provavelmente matará pessoas e, portanto, o objetivo de "não matar pessoas" não será satisfeito.

No entanto, em outros casos, as pessoas parecem felizes em deixar seus valores finais flutuarem. Os humanos são complicados e seus objetivos podem ser inconsistentes ou desconhecidos, até para eles próprios.

Em inteligência artificial

Em 2009, Jürgen Schmidhuber concluiu, em um cenário onde os agentes procuram por provas sobre possíveis auto-modificações, "que qualquer reescrita da função de utilidade só pode acontecer se a máquina de Gödel primeiro puder provar que a reescrita é útil de acordo com a função de utilidade presente . " Uma análise de Bill Hibbard de um cenário diferente é igualmente consistente com a manutenção da integridade do conteúdo da meta. Hibbard também argumenta que em uma estrutura de maximização de utilidade, o único objetivo é maximizar a utilidade esperada, de forma que os objetivos instrumentais devem ser chamados de ações instrumentais não intencionais.

Aquisição de recursos

Muitos objetivos instrumentais, como [...] aquisição de recursos, são valiosos para um agente porque aumentam sua liberdade de ação .

Para quase qualquer função de recompensa não trivial e aberta (ou conjunto de metas), possuir mais recursos (como equipamentos, matérias-primas ou energia) pode permitir que a IA encontre uma solução mais "ótima". Os recursos podem beneficiar algumas IAs diretamente, por serem capazes de criar mais de qualquer coisa que sua função de recompensa valorize: "A IA não te odeia nem te ama, mas você é feito de átomos que pode usar para outra coisa." Além disso, quase todas as IAs podem se beneficiar de ter mais recursos para gastar em outras metas instrumentais, como a autopreservação.

Melhoria cognitiva

"Se os objetivos finais do agente são bastante ilimitados e o agente está em posição de se tornar a primeira superinteligência e, assim, obter uma vantagem estratégica decisiva, [...] de acordo com suas preferências. Pelo menos neste caso especial, um agente racional inteligente colocaria um valor instrumental muito alto no aprimoramento cognitivo "

Perfeição tecnológica

Muitos objetivos instrumentais, como o [...] avanço tecnológico, são valiosos para um agente porque aumentam sua liberdade de ação .

Autopreservação

Muitos objetivos instrumentais, como a [...] autopreservação, são valiosos para um agente porque aumentam sua liberdade de ação .

Tese de convergência instrumental

A tese da convergência instrumental, delineada pelo filósofo Nick Bostrom , afirma:

Podem ser identificados vários valores instrumentais que são convergentes no sentido de que seu alcance aumentaria as chances de o objetivo do agente ser realizado para uma ampla gama de objetivos finais e uma ampla gama de situações, o que implica que esses valores instrumentais são passíveis de serem perseguidos por um amplo espectro de agentes inteligentes situados.

A tese da convergência instrumental aplica-se apenas a objetivos instrumentais; os agentes inteligentes podem ter uma ampla variedade de objetivos finais possíveis. Observe que, pela tese da ortogonalidade de Bostrom , os objetivos finais de agentes altamente inteligentes podem ser bem delimitados no espaço, tempo e recursos; objetivos finais bem delimitados não geram, em geral, objetivos instrumentais ilimitados.

Impacto

Os agentes podem adquirir recursos por comércio ou por conquista. Um agente racional irá, por definição, escolher qualquer opção que maximize sua função de utilidade implícita; portanto, um agente racional negociará por um subconjunto dos recursos de outro agente apenas se a apreensão total dos recursos for muito arriscada ou cara (em comparação com os ganhos de obter todos os recursos), ou se algum outro elemento em sua função de utilidade o impedir de apreensão . No caso de uma superinteligência racional poderosa, com interesses próprios e interagindo com uma inteligência inferior, o comércio pacífico (em vez de uma captura unilateral) parece desnecessário e subótimo e, portanto, improvável.

Alguns observadores, como Jaan Tallinn do Skype e o físico Max Tegmark , acreditam que "impulsos básicos de IA" e outras consequências não intencionais de IA superinteligente programados por programadores bem-intencionados podem representar uma ameaça significativa à sobrevivência humana , especialmente se uma "explosão de inteligência "ocorre abruptamente devido ao autoaperfeiçoamento recursivo . Visto que ninguém sabe como prever quando a superinteligência chegará, tais observadores pedem pesquisas em inteligência artificial amigável como uma forma possível de mitigar o risco existencial da inteligência artificial geral .

Veja também

Notas explicativas

Citações

Referências