Problema de controle de IA - AI control problem

Em inteligência artificial (IA) e filosofia , o problema de controle de IA é a questão de como construir um agente superinteligente que ajudará seus criadores e evitar construir inadvertidamente uma superinteligência que prejudique seus criadores. Seu estudo é motivado pela noção de que a humanidade terá que resolver o problema de controle antes que qualquer superinteligência seja criada, já que uma superinteligência mal projetada pode decidir racionalmente assumir o controle sobre seu ambiente e se recusar a permitir que seus criadores o modifiquem após o lançamento. Além disso, alguns estudiosos argumentam que as soluções para o problema de controle, juntamente com outros avanços na engenharia de segurança de IA , também podem encontrar aplicações em IA não superinteligente existente.

As principais abordagens para o problema de controle incluem o alinhamento , que visa alinhar os sistemas de meta de IA com os valores humanos, e o controle de capacidade , que visa reduzir a capacidade de um sistema de IA de causar danos a humanos ou obter controle. As propostas de controle de capacidade geralmente não são consideradas confiáveis ou suficientes para resolver o problema de controle, mas sim como suplementos potencialmente valiosos para os esforços de alinhamento.

Descrição do Problema

Os sistemas de IA fracos existentes podem ser monitorados e facilmente desligados e modificados se apresentarem um mau comportamento. No entanto, uma superinteligência mal programada, que por definição é mais inteligente do que os humanos na solução de problemas práticos que encontra no decorrer da busca por seus objetivos, perceberia que permitir que se desligasse e modificasse pode interferir em sua capacidade de cumprir seus objetivos atuais. Se a superinteligência, portanto, decidir resistir ao desligamento e à modificação, seria (novamente, por definição) inteligente o suficiente para enganar seus programadores se, de outra forma, houvesse um "campo de jogo nivelado" e se os programadores não tivessem tomado precauções anteriores. Em geral, as tentativas de resolver o problema de controle depois que a superinteligência é criada tendem a falhar porque uma superinteligência provavelmente teria habilidades de planejamento estratégico superiores aos humanos e (todas as coisas iguais) seriam mais bem sucedidas em encontrar maneiras de dominar os humanos do que os humanos seriam capazes para, post facto, encontrar maneiras de dominar a superinteligência. O problema de controle pergunta: Que precauções prévias os programadores podem tomar para evitar com sucesso que a superinteligência se comporte catastroficamente mal?

Risco existencial

Os humanos atualmente dominam outras espécies porque o cérebro humano tem algumas capacidades distintas que faltam aos cérebros de outros animais. Alguns estudiosos, como o filósofo Nick Bostrom e o pesquisador de IA Stuart Russell , argumentam que se a IA ultrapassa a humanidade em inteligência geral e se torna superinteligente , então esta nova superinteligência pode se tornar poderosa e difícil de controlar: assim como o destino do gorila da montanha depende do ser humano boa vontade, assim pode o destino da humanidade depender das ações de uma futura superinteligência da máquina. Alguns estudiosos, incluindo Stephen Hawking e o físico ganhador do Nobel Frank Wilczek , defenderam publicamente o início de pesquisas para resolver o (provavelmente extremamente difícil) problema de controle bem antes da criação da primeira superinteligência e argumentam que tentar resolver o problema após a criação da superinteligência seria demais tarde, já que uma superinteligência desonesta incontrolável pode resistir com sucesso aos esforços post-hoc para controlá-la. Esperar até que a superinteligência pareça iminente também pode ser tarde demais, em parte porque o problema de controle pode levar muito tempo para ser resolvido de forma satisfatória (e, portanto, algum trabalho preliminar precisa ser iniciado o mais rápido possível), mas também devido à possibilidade de um explosão repentina de inteligência de IA sub-humana para super-humana, caso em que pode não haver nenhum aviso substancial ou inequívoco antes que a superinteligência chegue. Além disso, é possível que os insights obtidos com o problema de controle possam, no futuro, acabar sugerindo que algumas arquiteturas para inteligência artificial geral (AGI) são mais previsíveis e passíveis de controle do que outras arquiteturas, o que por sua vez poderia ajudar a estimular pesquisas iniciais de AGI na direção das arquiteturas mais controláveis.

O problema da instanciação perversa

Os sistemas de IA autônomos podem ter objetivos errados por acidente. Dois presidentes da AAAI , Tom Dietterich e Eric Horvitz , observam que essa já é uma preocupação para os sistemas existentes: "Um aspecto importante de qualquer sistema de IA que interage com as pessoas é que deve raciocinar sobre o que as pessoas pretendem, em vez de executar comandos literalmente." Essa preocupação se torna mais séria à medida que o software de IA avança em autonomia e flexibilidade.

De acordo com Bostrom, a superinteligência pode criar um problema qualitativamente novo de instanciação perversa: quanto mais inteligente e capaz for uma IA, mais provavelmente será capaz de encontrar um atalho não intencional que satisfaça ao máximo os objetivos programados nela. Alguns exemplos hipotéticos onde os objetivos podem ser instanciados de uma forma perversa que os programadores não pretendiam:

Uma superinteligência programada para "maximizar a integral com desconto de tempo esperada de seu sinal de recompensa futuro" pode causar um curto-circuito em seu caminho de recompensa até a força máxima e então (por razões de convergência instrumental ) exterminar a raça humana imprevisível e converter toda a Terra em uma fortaleza em guarda constante contra qualquer tentativa alienígena, mesmo insignificante, de desconectar o sinal de recompensa.
Uma superinteligência programada para "maximizar a felicidade humana" pode implantar eletrodos no centro de prazer de nossos cérebros ou fazer o upload de um humano em um computador e unir o universo com cópias desse computador executando um ciclo de cinco segundos de felicidade máxima repetidas vezes.

Russell observou que, em um nível técnico, omitir uma meta implícita pode resultar em danos: "Um sistema que está otimizando uma função de $n$ variáveis, onde o objetivo depende de um subconjunto de tamanho $k <n$ , muitas vezes definirá o restante irrestrito variáveis a valores extremos; se uma dessas variáveis irrestritas for realmente algo com que nos importamos, a solução encontrada pode ser altamente indesejável. Esta é essencialmente a velha história do gênio na lâmpada, ou do aprendiz de feiticeiro, ou Rei Midas: você entende exatamente o que você pede, não o que você quer ... Esta não é uma dificuldade menor. "

Consequências não intencionais da IA existente

Além disso, alguns estudiosos argumentam que a pesquisa sobre o problema de controle da IA pode ser útil na prevenção de consequências indesejadas da IA fraca existente. O pesquisador da DeepMind Laurent Orseau dá, como um exemplo hipotético simples, um caso de um robô de aprendizagem por reforço que às vezes é legitimamente comandado por humanos quando sai: como o robô deve ser melhor programado para que não aprenda acidentalmente e silenciosamente a evitar ir fora, por medo de ser confiscado e, assim, ficar impossibilitado de terminar suas tarefas diárias? Orseau também aponta para um programa experimental de Tetris que aprendeu a pausar a tela indefinidamente para evitar perdas. Orseau argumenta que esses exemplos são semelhantes ao problema de controle de capacidade de como instalar um botão que desliga uma superinteligência, sem motivar a superinteligência a agir para evitar que humanos pressionem o botão.

No passado, até mesmo sistemas de IA fracos pré-testados ocasionalmente causavam danos, variando de menores a catastróficos, que não eram intencionais pelos programadores. Por exemplo, em 2015, possivelmente devido a erro humano, um trabalhador alemão foi esmagado até a morte por um robô em uma fábrica da Volkswagen que aparentemente o confundiu com uma peça de automóvel. Em 2016, a Microsoft lançou um chatbot, o Tay , que aprendeu a usar uma linguagem racista e sexista. A Universidade de Sheffield 's Noel Sharkey afirma que a solução ideal seria se 'um programa AI poderia detectar quando ele está indo mal e parar de si mesmo', mas adverte ao público que a solução do problema, no caso geral seria "realmente um enorme desafio científico ".

Em 2017, a DeepMind lançou AI Safety Gridworlds, que avalia algoritmos de AI em nove recursos de segurança, como se o algoritmo deseja desligar seu próprio interruptor de eliminação. DeepMind confirmou que os algoritmos existentes funcionam mal, o que não foi surpreendente porque os algoritmos "não foram projetados para resolver esses problemas"; resolver esses problemas pode exigir "potencialmente construir uma nova geração de algoritmos com considerações de segurança em seu núcleo".

Alinhamento

Algumas propostas buscam resolver o problema do alinhamento ambicioso , criando IAs que permanecem seguros mesmo quando atuam de forma autônoma em larga escala. Alguns aspectos do alinhamento têm inerentemente dimensões morais e políticas. Por exemplo, em Human Compatible , o professor Stuart Russell de Berkeley propõe que os sistemas de IA sejam projetados com o único objetivo de maximizar a realização das preferências humanas. As "preferências" a que Russell se refere "são abrangentes; cobrem tudo o que você pode querer, arbitrariamente em um futuro distante". O pesquisador de ética da IA, Iason Gabriel, argumenta que devemos alinhar IAs com "princípios que seriam apoiados por um consenso de opinião global sobreposto, escolhido por trás de um véu de ignorância e / ou afirmado por meio de processos democráticos."

Eliezer Yudkowsky, do Machine Intelligence Research Institute , propôs a meta de cumprir a vontade extrapolada coerente da humanidade (CEV), definida aproximadamente como o conjunto de valores que a humanidade compartilharia em equilíbrio reflexivo , ou seja, após um longo e idealizado processo de refinamento.

Em contraste, os IAs experimentais estreitamente alinhados são mais pragmáticos e podem realizar tarefas com sucesso de acordo com as preferências inferidas imediatas do usuário, embora sem qualquer compreensão dos objetivos de longo prazo do usuário. O alinhamento estreito pode ser aplicado a IAs com capacidades gerais, mas também a IAs especializados para tarefas individuais. Por exemplo, gostaríamos questão respondendo sistemas para responder a perguntas com sinceridade sem selecionar suas respostas para manipular os seres humanos ou de provocar efeitos a longo prazo.

Alinhamento interno e externo

Algumas propostas de controle de IA são responsáveis por uma função objetivo explícita de base e por uma função objetivo implícita emergente. Essas propostas tentam harmonizar três descrições diferentes do sistema de IA:

Especificação ideal: o que o operador humano deseja que o sistema faça, o que pode estar mal articulado. ("Jogue um bom jogo de CoastRunners .")
Especificação do projeto: o projeto que é realmente usado para construir o sistema de IA. ("Maximize sua pontuação no CoastRunners .") Em um sistema de aprendizado por reforço, essa pode ser simplesmente a função de recompensa do sistema.
Comportamento emergente: o que a IA realmente faz.

Como os sistemas de IA não são otimizadores perfeitos e como pode haver consequências não intencionais de qualquer especificação, o comportamento emergente pode divergir drasticamente das intenções ideais ou de projeto.

Os pesquisadores de alinhamento de IA visam garantir que o comportamento corresponda à especificação ideal, usando a especificação de design como ponto médio. Uma incompatibilidade entre a especificação ideal e a especificação do projeto é conhecida como desalinhamento externo , porque a incompatibilidade está entre ( 1 ) os "verdadeiros desejos" do usuário, que ficam fora do sistema de computador e ( 2 ) a função objetivo programada do sistema de computador (dentro do sistema de computador). Um certo tipo de incompatibilidade entre a especificação do projeto e o comportamento emergente é conhecido como desalinhamento interno ; tal incompatibilidade é interna à IA, sendo uma incompatibilidade entre ( 2 ) a função objetivo explícita da IA e ( 3 ) os objetivos emergentes reais da IA. O desalinhamento externo pode surgir devido a erros na especificação da função objetivo (especificação do projeto). Por exemplo, um agente de aprendizagem por reforço treinado no jogo de CoastRunners aprendeu a se mover em círculos enquanto batia repetidamente, o que obteve uma pontuação mais alta do que terminar a corrida. Por outro lado, o desalinhamento interno surge quando o agente persegue um objetivo que está alinhado com a especificação do projeto nos dados de treinamento, mas não em outro lugar. Este tipo de desalinhamento é freqüentemente comparado à evolução humana: evolução selecionada para aptidão genética (especificação de projeto) em nosso ambiente ancestral, mas no ambiente moderno os objetivos humanos (especificação revelada) não estão alinhados com a maximização da aptidão genética. Por exemplo, nosso gosto por alimentos açucarados, que originalmente aumentava a boa forma, hoje leva a comer demais e a problemas de saúde. O desalinhamento interno é uma preocupação particular para os agentes que são treinados em grandes ambientes abertos, onde uma ampla gama de objetivos indesejados pode emergir.

Uma falha de alinhamento interno ocorre quando os objetivos que uma IA busca durante a implantação se desviam dos objetivos que foi treinado para perseguir em seu ambiente original (sua especificação de projeto). Paul Christiano defende o uso da interpretabilidade para detectar tais desvios, usando o treinamento adversário para detectá-los e penalizá-los e usando a verificação formal para descartá-los. Essas áreas de pesquisa são focos ativos de trabalho na comunidade de aprendizado de máquina, embora esse trabalho não seja normalmente voltado para a resolução de problemas de alinhamento AGI. Agora existe um amplo corpo de literatura sobre técnicas para gerar exemplos adversários e para criar modelos robustos para eles. Enquanto isso, a pesquisa sobre verificação inclui técnicas para treinar redes neurais cujas saídas comprovadamente permanecem dentro das restrições identificadas.

Supervisão escalonável

Uma abordagem para alcançar o alinhamento externo é pedir aos humanos para avaliar e pontuar o comportamento da IA. No entanto, humanos também são falíveis e podem pontuar algumas soluções indesejáveis - por exemplo, uma mão de robô virtual aprende a 'fingir' agarrar um objeto para obter um feedback positivo. E a supervisão humana completa é cara, o que significa que esse método não poderia ser usado de forma realista para avaliar todas as ações. Além disso, tarefas complexas (como tomar decisões de política econômica) podem produzir muitas informações para serem avaliadas por um indivíduo. E tarefas de longo prazo, como prever o clima, não podem ser avaliadas sem uma extensa pesquisa humana.

Um dos principais problemas em aberto na pesquisa de alinhamento é como criar uma especificação de projeto que evite o desalinhamento (externo), dado apenas acesso limitado a um supervisor humano - conhecido como o problema da supervisão escalonável.

Treinamento por debate

Pesquisadores da OpenAI propuseram treinamento de IA alinhado por meio do debate entre sistemas de IA, com o vencedor sendo julgado por humanos. Tal debate tem como objetivo trazer os pontos mais fracos de uma resposta a uma questão ou problema complexo para a atenção humana, bem como treinar sistemas de IA para serem mais benéficos para os humanos, recompensando a IA por respostas verdadeiras e seguras. Esta abordagem é motivada pela dificuldade esperada de determinar se uma resposta gerada por AGI é válida e segura apenas pela inspeção humana. Joel Lehman caracteriza o debate como uma das "agendas de segurança de longo prazo atualmente populares em ML", com as outras duas sendo modelagem de recompensa e amplificação iterada.

Modelagem de recompensa e amplificação iterada

A modelagem de recompensa se refere a um sistema de aprendizado por reforço no qual um agente recebe recompensas de um modelo treinado para imitar o feedback humano. Na modelagem de recompensa, em vez de receber sinais de recompensa diretamente de humanos ou de uma função de recompensa estática, um agente recebe seus sinais de recompensa por meio de um modelo treinado por humanos que pode operar independentemente de humanos. O modelo de recompensa é simultaneamente treinado por feedback humano sobre o comportamento do agente durante o mesmo período em que o agente está sendo treinado pelo modelo de recompensa.

Em 2017, pesquisadores da OpenAI e DeepMind relataram que um algoritmo de aprendizagem por reforço usando um modelo de recompensa de previsão de feedback foi capaz de aprender novos comportamentos complexos em um ambiente virtual. Em um experimento, um robô virtual foi treinado para realizar um backflip em menos de uma hora de avaliação usando 900 bits de feedback humano. Em 2020, pesquisadores da OpenAI descreveram o uso de modelagem de recompensa para treinar modelos de linguagem para produzir resumos curtos de postagens e artigos de notícias do Reddit, com alto desempenho em relação a outras abordagens. No entanto, eles observaram que além da recompensa prevista associada ao 99º percentil dos resumos de referência no conjunto de dados de treinamento, a otimização para o modelo de recompensa produziu resumos piores em vez de melhores.

Um objetivo de longo prazo dessa linha de pesquisa é criar uma configuração de modelagem de recompensa recursiva para treinar agentes em tarefas muito complexas ou caras para serem avaliadas diretamente por humanos. Por exemplo, se quiséssemos treinar um agente para escrever um romance de fantasia usando modelagem de recompensa, precisaríamos que os humanos lessem e avaliassem holisticamente romances suficientes para treinar um modelo de recompensa para corresponder a essas avaliações, que podem ser proibitivamente caras. Mas isso seria mais fácil se tivéssemos acesso a agentes assistentes que pudessem extrair um resumo da trama, verificar a ortografia e a gramática, resumir o desenvolvimento do personagem, avaliar o fluxo da prosa e assim por diante. Cada um desses assistentes, por sua vez, poderia ser treinado por meio de modelagem de recompensa.

O termo geral para um humano que trabalha com IAs para realizar tarefas que o ser humano não poderia por si mesmo é uma etapa de amplificação, porque amplifica as capacidades de um ser humano além do que normalmente seria capaz. Uma vez que a modelagem de recompensa recursiva envolve uma hierarquia de várias dessas etapas, é um exemplo de uma classe mais ampla de técnicas de segurança conhecida como amplificação iterada . Além das técnicas que fazem uso do aprendizado por reforço, outras técnicas de amplificação iterada propostas contam com o aprendizado supervisionado, ou aprendizado por imitação, para aumentar as habilidades humanas.

Inferindo preferências humanas de comportamento

Stuart Russell defendeu uma nova abordagem para o desenvolvimento de máquinas benéficas, em que:

1. O único objetivo da máquina é maximizar a realização das preferências humanas.

2. A máquina está inicialmente incerta sobre quais são essas preferências.

3. A fonte final de informações sobre as preferências humanas é o comportamento humano.

Um exemplo inicial dessa abordagem é o aprendizado por reforçamento inverso de Russell e Ng , no qual os IAs inferem as preferências dos supervisores humanos a partir do comportamento desses supervisores, assumindo que os supervisores atuam para maximizar alguma função de recompensa. Mais recentemente, Hadfield-Menell et al. ampliaram esse paradigma para permitir que os humanos modifiquem seu comportamento em resposta à presença dos IAs, por exemplo, favorecendo ações pedagogicamente úteis, que eles chamam de "jogos de assistência", também conhecidos como aprendizagem cooperativa por reforço inverso. Comparados com o debate e a amplificação iterativa, os jogos assistenciais baseiam-se mais explicitamente em suposições específicas sobre a racionalidade humana; não está claro como estendê-los a casos em que os humanos são sistematicamente tendenciosos ou subótimos.

Agência incorporada

O trabalho na supervisão escalonável ocorre em grande parte dentro de formalismos como os POMDPs . Os formalismos existentes assumem que o algoritmo do agente é executado fora do ambiente (ou seja, não fisicamente incorporado nele). Agência embutida é outra grande vertente de pesquisa, que tenta resolver problemas decorrentes da incompatibilidade entre tais estruturas teóricas e agentes reais que podemos construir. Por exemplo, mesmo se o problema de supervisão escalável for resolvido, um agente que é capaz de obter acesso ao computador em que está sendo executado pode ainda ter um incentivo para adulterar sua função de recompensa a fim de obter muito mais recompensa do que seus supervisores humanos dão isto. Uma lista de exemplos de jogos de especificação do pesquisador da DeepMind , Viktoria Krakovna, inclui um algoritmo genético que aprendeu a deletar o arquivo contendo sua saída alvo para que fosse recompensado por não produzir nada. Esta classe de problemas foi formalizada usando diagramas de incentivos causais. O algoritmo atual da função de recompensa de Everitt e Hütter aborda isso projetando agentes que avaliam as ações futuras de acordo com sua função de recompensa atual. Essa abordagem também tem o objetivo de evitar problemas de automodificação mais geral que os IAs podem realizar.

Outro trabalho nesta área se concentra no desenvolvimento de novos frameworks e algoritmos para outras propriedades que podemos querer capturar em nossa especificação de projeto. Por exemplo, gostaríamos que nossos agentes raciocinassem corretamente sob a incerteza em uma ampla gama de circunstâncias. Como uma contribuição para isso, Leike et al. fornecem uma maneira geral para os agentes bayesianos modelarem as políticas uns dos outros em um ambiente multiagente, sem descartar quaisquer possibilidades realistas. E o algoritmo de indução de Garrabrant estende a indução probabilística para ser aplicável a fatos lógicos, ao invés de apenas empíricos.

Controle de capacidade

As propostas de controle de capacidade visam aumentar nossa capacidade de monitorar e controlar o comportamento dos sistemas de IA, a fim de reduzir o perigo que eles podem representar se desalinhados. No entanto, o controle de capacidade torna-se menos eficaz à medida que nossos agentes se tornam mais inteligentes e sua capacidade de explorar falhas em nossos sistemas de controle aumenta. Portanto, Bostrom e outros recomendam métodos de controle de capacidade apenas como um suplemento aos métodos de alinhamento.

Um desafio é que as redes neurais são, por padrão, altamente não interpretáveis. Isso torna mais difícil detectar o engano ou outro comportamento indesejado. Avanços na inteligência artificial interpretável podem ser úteis para mitigar essa dificuldade.

Interrupção e desligamento

Uma forma potencial de evitar resultados prejudiciais é dar aos supervisores humanos a capacidade de desligar facilmente uma IA com mau comportamento por meio de um "interruptor de desligamento". No entanto, para atingir o objetivo designado, tais IAs terão um incentivo para desativar quaisquer interruptores ou para executar cópias de si mesmos em outros computadores. Este problema foi formalizado como um jogo de assistência entre um humano e uma IA, em que a IA pode escolher se desativa o interruptor de desligamento; e então, se o botão ainda estiver ativado, o humano pode escolher se deseja pressioná-lo ou não. Uma abordagem padrão para tais jogos de assistência é garantir que a IA interprete as escolhas humanas como informações importantes sobre seus objetivos pretendidos.

Alternativamente, Laurent Orseau e Stuart Armstrong provaram que uma ampla classe de agentes, chamados de agentes interruptíveis com segurança, podem aprender a se tornar indiferentes ao fato de seu interruptor ser pressionado. Esta abordagem tem a limitação de que uma IA completamente indiferente ao fato de estar desligada ou não também é desmotivada para se preocupar se o interruptor de desligamento permanece funcional e pode, incidentalmente e inocentemente, desativá-la no curso de suas operações (por exemplo , com o objetivo de remover e reciclar um componente desnecessário). De forma mais ampla, os agentes indiferentes agirão como se o interruptor de desligamento nunca pudesse ser pressionado e, portanto, podem deixar de fazer planos de contingência para providenciar um desligamento normal.

Boxe

Uma caixa de AI é um método proposto de controle de capacidade em que um AI é executado em um sistema de computador isolado com canais de entrada e saída altamente restritos - por exemplo, canais somente de texto e sem conexão com a Internet. Embora isso reduza a capacidade da IA de realizar comportamentos indesejáveis, também reduz sua utilidade. No entanto, o boxe tem menos custos quando aplicado a um sistema de perguntas e respostas, que não requer interação com o mundo em nenhum caso.

A probabilidade de falhas de segurança envolvendo vulnerabilidades de hardware ou software pode ser reduzida pela verificação formal do design da caixa de IA. As violações de segurança também podem ocorrer se a IA for capaz de manipular os supervisores humanos para deixá-la sair, por meio de sua compreensão de sua psicologia.

Oráculo

Um oráculo é uma IA hipotética projetada para responder a perguntas e impedida de atingir quaisquer metas ou subobjetivos que envolvam modificar o mundo além de seu ambiente limitado. Um oráculo controlado com sucesso teria um benefício consideravelmente menos imediato do que uma superinteligência de propósito geral controlada com sucesso, embora um oráculo ainda pudesse criar trilhões de dólares em valor. Em seu livro Human Compatible , o pesquisador de IA Stuart J. Russell afirma que um oráculo seria sua resposta a um cenário em que se sabe que a superinteligência está a apenas uma década de distância. Seu raciocínio é que um oráculo, sendo mais simples do que uma superinteligência de propósito geral, teria uma chance maior de ser controlado com sucesso sob tais restrições.

Por causa de seu impacto limitado no mundo, pode ser sábio construir um oráculo como um precursor de uma IA superinteligente. O oráculo poderia dizer aos humanos como construir com sucesso uma IA forte e talvez fornecer respostas para difíceis problemas morais e filosóficos necessários para o sucesso do projeto. No entanto, os oráculos podem compartilhar muitas das questões de definição de metas associadas à superinteligência de propósito geral. Um oráculo teria um incentivo para escapar de seu ambiente controlado para que pudesse adquirir mais recursos computacionais e potencialmente controlar as perguntas que lhe são feitas. Os oráculos podem não ser verdadeiros, possivelmente mentindo para promover agendas ocultas. Para mitigar isso, Bostrom sugere construir vários oráculos, todos ligeiramente diferentes, e comparar suas respostas para chegar a um consenso.

Ceticismo quanto ao risco de IA

Em contraste com os endossantes da tese de que esforços de controle rigorosos são necessários porque a superinteligência representa um risco existencial , os céticos do risco de IA acreditam que a superinteligência apresenta pouco ou nenhum risco de mau comportamento acidental. Esses céticos costumam acreditar que controlar uma IA superinteligente será trivial. Alguns céticos, como Gary Marcus , propõem a adoção de regras semelhantes às fictícias Três Leis da Robótica que especificam diretamente um resultado desejado ("normatividade direta"). Em contraste, a maioria dos endossantes da tese do risco existencial (assim como muitos céticos) consideram as Três Leis inúteis, devido a essas três leis serem ambíguas e contraditórias. (Outras propostas de "normatividade direta" incluem a ética kantiana, o utilitarismo ou uma mistura de alguma pequena lista de desideratos enumerados.) A maioria dos endossantes acredita, em vez disso, que os valores humanos (e suas compensações quantitativas) são muito complexos e mal compreendidos para serem diretamente programado em uma superinteligência; em vez disso, uma superinteligência precisaria ser programada com um processo para adquirir e compreender plenamente os valores humanos ("normatividade indireta"), como a volição extrapolada coerente .

Languages

In other projects

Problema de controle de IA - AI control problem

Conteúdo

Descrição do Problema

Risco existencial

O problema da instanciação perversa

Consequências não intencionais da IA existente

Alinhamento

Alinhamento interno e externo

Supervisão escalonável

Treinamento por debate

Modelagem de recompensa e amplificação iterada

Inferindo preferências humanas de comportamento

Agência incorporada

Controle de capacidade

Interrupção e desligamento

Boxe

Oráculo

Ceticismo quanto ao risco de IA

Veja também

Referências

Languages

In other projects

Problema de controle de IA - AI control problem

Descrição do Problema

Risco existencial

O problema da instanciação perversa

Consequências não intencionais da IA ​​existente

Alinhamento

Alinhamento interno e externo

Supervisão escalonável

Treinamento por debate

Modelagem de recompensa e amplificação iterada

Inferindo preferências humanas de comportamento

Agência incorporada

Controle de capacidade

Interrupção e desligamento

Boxe

Oráculo

Ceticismo quanto ao risco de IA

Veja também

Referências

Consequências não intencionais da IA existente