teste de Turing -Turing test

A "interpretação padrão" do teste de Turing, na qual o jogador C, o interrogador, recebe a tarefa de tentar determinar qual jogador – A ou B – é um computador e qual é um humano. O interrogador limita-se a usar as respostas às perguntas escritas para fazer a determinação.

O teste de Turing , originalmente chamado de jogo de imitação por Alan Turing em 1950, é um teste da capacidade de uma máquina de exibir um comportamento inteligente equivalente ou indistinguível de um humano. Turing propôs que um avaliador humano julgaria as conversas em linguagem natural entre um humano e uma máquina projetada para gerar respostas semelhantes às humanas. O avaliador estaria ciente de que um dos dois parceiros da conversa era uma máquina, e todos os participantes estariam separados um do outro. A conversa seria limitada a um canal somente de texto, como teclado e tela de computador, de modo que o resultado não dependeria da capacidade da máquina de renderizar palavras como fala. Se o avaliador não pudesse diferenciar a máquina do humano com segurança, a máquina seria considerada aprovada no teste. Os resultados do teste não dependeriam da capacidade da máquina de dar respostas corretas às perguntas , apenas de quão próximas suas respostas se assemelhassem às que um humano daria.

O teste foi introduzido por Turing em seu artigo de 1950 " Computing Machinery and Intelligence " enquanto trabalhava na Universidade de Manchester . Ela abre com as palavras: “ Proponho considerar a questão ‘As máquinas podem pensar ? palavras relativamente inequívocas." Turing descreve a nova forma do problema em termos de um jogo de três pessoas chamado "jogo da imitação", no qual um interrogador faz perguntas a um homem e uma mulher em outra sala para determinar o sexo correto dos dois jogadores. A nova pergunta de Turing é: "Existem computadores digitais imagináveis ​​que se sairiam bem no jogo da imitação ?" Essa pergunta, Turing acreditava, era uma que realmente poderia ser respondida. No restante do artigo, ele argumentou contra todas as principais objeções à proposição de que "máquinas podem pensar".

Desde que Turing introduziu seu teste, ele foi altamente influente e amplamente criticado, e se tornou um conceito importante na filosofia da inteligência artificial . Algumas de suas críticas, como o quarto chinês de John Searle , são controversas.

História

Antecedentes filosóficos

A questão de saber se é possível que as máquinas pensem tem uma longa história, que está firmemente enraizada na distinção entre visões dualistas e materialistas da mente. René Descartes prefigura aspectos do teste de Turing em seu Discurso sobre o método de 1637 quando escreve:

quantos autômatos ou máquinas móveis diferentes podem ser feitos pela indústria do homem... , que provoca uma mudança em seus órgãos; por exemplo, se for tocado em uma parte específica, pode perguntar o que desejamos dizer a ela; se em outra parte pode exclamar que está sendo ferido, e assim por diante. Mas nunca acontece que ele ordena seu discurso de várias maneiras, a fim de responder adequadamente a tudo o que pode ser dito em sua presença, como até mesmo o tipo mais baixo de homem pode fazer.

Aqui Descartes observa que os autômatos são capazes de responder às interações humanas, mas argumenta que tais autômatos não podem responder adequadamente às coisas ditas em sua presença da maneira que qualquer humano pode. Descartes, portanto, prefigura o teste de Turing definindo a insuficiência da resposta linguística apropriada como aquela que separa o humano do autômato. Descartes não considera a possibilidade de que futuros autômatos sejam capazes de superar tal insuficiência e, portanto, não propõe o teste de Turing como tal, mesmo que prefira sua estrutura conceitual e critério.

Denis Diderot formula em seu livro de 1746 Pensées philosophiques um critério de teste de Turing, embora com a importante suposição de limitação implícita mantida, de os participantes serem seres vivos naturais, em vez de considerar artefatos criados:

"Se eles encontrarem um papagaio que pudesse responder a tudo, eu diria que é um ser inteligente sem hesitação."

Isso não significa que ele concorda com isso, mas que já era um argumento comum dos materialistas naquela época.

De acordo com o dualismo, a mente não é física (ou, no mínimo, tem propriedades não físicas ) e, portanto, não pode ser explicada em termos puramente físicos. De acordo com o materialismo, a mente pode ser explicada fisicamente, o que deixa em aberto a possibilidade de mentes que são produzidas artificialmente.

Em 1936, o filósofo Alfred Ayer considerou a questão filosófica padrão de outras mentes : como sabemos que outras pessoas têm as mesmas experiências conscientes que nós? Em seu livro, Language, Truth and Logic , Ayer sugeriu um protocolo para distinguir entre um homem consciente e uma máquina inconsciente: "A única base que posso ter para afirmar que um objeto que parece ser consciente não é realmente um ser consciente, mas apenas um manequim ou uma máquina, é que não satisfaz um dos testes empíricos pelos quais a presença ou ausência de consciência é determinada”. (Esta sugestão é muito semelhante ao teste de Turing, mas se preocupa com a consciência e não com a inteligência. Além disso, não é certo que o clássico filosófico popular de Ayer fosse familiar a Turing.) Em outras palavras, uma coisa não é consciente se falha no teste. teste de consciência.

Alan Turing

Pesquisadores do Reino Unido vinham explorando a "inteligência de máquina" por até dez anos antes da fundação do campo de pesquisa em inteligência artificial ( IA ) em 1956. Era um tema comum entre os membros do Ratio Club , um grupo informal de pesquisadores britânicos de cibernética e eletrônica , incluindo Alan Turing.

Turing, em particular, vinha abordando a noção de inteligência de máquina desde pelo menos 1941 e uma das primeiras menções conhecidas de "inteligência de computador" foi feita por ele em 1947. No relatório de Turing, "Intelligent Machinery", ele investigou "a questão de saber se é ou não possível para a máquina mostrar comportamento inteligente" e, como parte dessa investigação, propôs o que pode ser considerado o precursor de seus testes posteriores:

Não é difícil conceber uma máquina de papel que jogue um jogo de xadrez não muito ruim. Agora pegue três homens A, B e C como sujeitos para o experimento. A e C devem ser jogadores de xadrez bastante ruins, B é o operador que opera a máquina de papel. ... Duas salas são usadas com algum arranjo para comunicação de movimentos, e um jogo é jogado entre C e A ou a máquina de papel. C pode achar muito difícil dizer qual ele está jogando.

" Computing Machinery and Intelligence " ( 1950 ) foi o primeiro artigo publicado por Turing a focar exclusivamente em inteligência de máquina. Turing começa o artigo de 1950 com a afirmação: "Proponho considerar a questão 'As máquinas podem pensar? ' " Como ele destaca, a abordagem tradicional para tal questão é começar com definições , definindo tanto os termos "máquina" quanto ". Turing opta por não fazê-lo; em vez disso, ele substitui a pergunta por uma nova, "que está intimamente relacionada a ela e é expressa em palavras relativamente inequívocas". Em essência, ele propõe mudar a pergunta de "As máquinas podem pensar?" para "As máquinas podem fazer o que nós (como entidades pensantes) podemos fazer?" A vantagem da nova pergunta, argumenta Turing, é que ela traça "uma linha bastante nítida entre as capacidades físicas e intelectuais de um homem".

Para demonstrar essa abordagem, Turing propõe um teste inspirado em um jogo de festa , conhecido como "jogo da imitação", no qual um homem e uma mulher entram em salas separadas e os convidados tentam diferenciá-los escrevendo uma série de perguntas e lendo o texto datilografado. respostas enviadas de volta. Neste jogo, tanto o homem quanto a mulher visam convencer os convidados de que eles são o outro. (Huma Shah argumenta que esta versão de dois humanos do jogo foi apresentada por Turing apenas para apresentar ao leitor o teste de pergunta-resposta máquina-humano.) Turing descreveu sua nova versão do jogo da seguinte forma:

Agora fazemos a pergunta: "O que acontecerá quando uma máquina assumir o papel de A neste jogo?" O interrogador decidirá erroneamente com tanta frequência quando o jogo é jogado assim como quando o jogo é entre um homem e uma mulher? Essas perguntas substituem nosso original, "As máquinas podem pensar?"

Mais adiante no artigo, Turing sugere uma formulação alternativa "equivalente" envolvendo um juiz conversando apenas com um computador e um homem. Embora nenhuma dessas formulações corresponda precisamente à versão do teste de Turing que é mais conhecida hoje, ele propôs uma terceira em 1952. Nesta versão, que Turing discutiu em uma transmissão de rádio da BBC , um júri faz perguntas a um computador e o papel do computador é fazer uma proporção significativa do júri acreditar que é realmente um homem.

O artigo de Turing considerou nove supostas objeções, que incluem todos os principais argumentos contra a inteligência artificial que foram levantados nos anos desde que o artigo foi publicado (veja " Computing Machinery and Intelligence ").

ELIZA e PARRY

Em 1966, Joseph Weizenbaum criou um programa que parecia passar no teste de Turing. O programa, conhecido como ELIZA , funcionava examinando os comentários digitados por um usuário em busca de palavras-chave. Se uma palavra-chave for encontrada, uma regra que transforma os comentários do usuário é aplicada e a frase resultante é retornada. Se uma palavra-chave não for encontrada, ELIZA responde com uma resposta genérica ou repetindo um dos comentários anteriores. Além disso, Weizenbaum desenvolveu ELIZA para replicar o comportamento de um psicoterapeuta rogeriano , permitindo que ELIZA fosse "livre para assumir a pose de não saber quase nada do mundo real". Com essas técnicas, o programa de Weizenbaum conseguiu enganar algumas pessoas fazendo-as acreditar que estavam falando com uma pessoa real, com alguns sujeitos sendo "muito difícil de convencer que ELIZA [...] não é humana". Assim, ELIZA é reivindicado por alguns como um dos programas (talvez o primeiro) capaz de passar no teste de Turing, embora essa visão seja altamente controversa (veja Ingenuidade dos interrogadores abaixo).

Kenneth Colby criou o PARRY em 1972, um programa descrito como "ELIZA com atitude". Ele tentou modelar o comportamento de um esquizofrênico paranóico , usando uma abordagem semelhante (ainda que mais avançada) àquela empregada por Weizenbaum. Para validar o trabalho, PARRY foi testado no início da década de 1970 usando uma variação do teste de Turing. Um grupo de psiquiatras experientes analisou uma combinação de pacientes reais e computadores rodando PARRY através de teleimpressores . Outro grupo de 33 psiquiatras viu as transcrições das conversas. Os dois grupos foram então solicitados a identificar quais dos "pacientes" eram humanos e quais eram programas de computador. Os psiquiatras foram capazes de fazer a identificação correta apenas 52% das vezes – um número consistente com adivinhação aleatória.

No século 21, as versões desses programas (agora conhecidas como “ chatbots ”) continuam enganando as pessoas. "CyberLover", um programa de malware , ataca os usuários da Internet convencendo-os a "revelar informações sobre suas identidades ou levá-los a visitar um site que entregará conteúdo malicioso em seus computadores". O programa surgiu como um “risco dos namorados” flertando com pessoas “que buscam relacionamentos online para coletar seus dados pessoais”.

O quarto chinês

O artigo de 1980 de John Searle , Minds, Brains, and Programs, propôs o experimento de pensamento da " sala chinesa " e argumentou que o teste de Turing não poderia ser usado para determinar se uma máquina poderia pensar. Searle observou que software (como ELIZA) poderia passar no teste de Turing simplesmente manipulando símbolos dos quais eles não entendiam. Sem compreensão, eles não poderiam ser descritos como "pensando" no mesmo sentido que as pessoas faziam. Portanto, concluiu Searle, o teste de Turing não poderia provar que as máquinas podiam pensar. Assim como o próprio teste de Turing, o argumento de Searle foi amplamente criticado e endossado.

Argumentos como os de Searle e outros que trabalham com a filosofia da mente desencadearam um debate mais intenso sobre a natureza da inteligência, a possibilidade de máquinas inteligentes e o valor do teste de Turing que continuou nas décadas de 1980 e 1990.

Prêmio Loebner

O Prêmio Loebner fornece uma plataforma anual para testes práticos de Turing com a primeira competição realizada em novembro de 1991. É subscrito por Hugh Loebner . O Cambridge Center for Behavioral Studies em Massachusetts , Estados Unidos, organizou os prêmios até e incluindo o concurso de 2003. Como Loebner descreveu, uma razão pela qual a competição foi criada é para avançar o estado da pesquisa de IA, pelo menos em parte, porque ninguém tomou medidas para implementar o teste de Turing apesar de 40 anos de discussão.

A primeira competição do Prêmio Loebner em 1991 levou a uma discussão renovada sobre a viabilidade do teste de Turing e o valor de realizá-lo, tanto na imprensa popular quanto na academia. O primeiro concurso foi vencido por um programa estúpido sem inteligência identificável que conseguiu enganar interrogadores ingênuos para fazer a identificação errada. Isso destacou várias das deficiências do teste de Turing (discutidas abaixo ): O vencedor ganhou, pelo menos em parte, porque foi capaz de "imitar erros de digitação humanos"; os interrogadores pouco sofisticados eram facilmente enganados; e alguns pesquisadores em IA foram levados a sentir que o teste é apenas uma distração de pesquisas mais frutíferas.

Os prêmios prata (somente texto) e ouro (áudio e visual) nunca foram ganhos. No entanto, a competição concedeu a medalha de bronze todos os anos para o sistema de computador que, na opinião dos jurados, demonstra o comportamento conversacional "mais humano" entre as inscrições daquele ano. A Artificial Linguistic Internet Computer Entity (ALICE) ganhou o prêmio de bronze em três ocasiões nos últimos tempos (2000, 2001, 2004). Learning AI Jabberwacky venceu em 2005 e 2006.

O Prêmio Loebner testa a inteligência conversacional; os vencedores são tipicamente programas chatterbot , ou Entidades Conversacionais Artificiais (ACE)s . As primeiras regras do Prêmio Loebner restringem as conversas: cada entrada e o humano oculto conversavam sobre um único tópico, portanto, os interrogadores eram restritos a uma linha de questionamento por interação da entidade. A regra de conversação restrita foi levantada para o Prêmio Loebner de 1995. A duração da interação entre juiz e entidade variou nos Prêmios Loebner. Em Loebner 2003, na Universidade de Surrey, cada interrogador teve cinco minutos para interagir com uma entidade, máquina ou humano oculto. Entre 2004 e 2007, o tempo de interação permitido nos Prêmios Loebner foi superior a vinte minutos.

Versões

O jogo de imitação, conforme descrito por Alan Turing em "Computing Machinery and Intelligence". O jogador C, através de uma série de perguntas escritas, tenta determinar qual dos outros dois jogadores é homem e qual dos dois é mulher. O jogador A, o homem, tenta enganar o jogador C para que tome a decisão errada, enquanto o jogador B tenta ajudar o jogador C. Figura adaptada de Saygin, 2000.

Saul Traiger argumenta que existem pelo menos três versões primárias do teste de Turing, duas das quais são oferecidas em "Computing Machinery and Intelligence" e uma que ele descreve como a "Interpretação Padrão". Embora haja algum debate sobre se a "Interpretação Padrão" é aquela descrita por Turing ou, em vez disso, com base em uma leitura equivocada de seu artigo, essas três versões não são consideradas equivalentes e seus pontos fortes e fracos são distintos.

Huma Shah ressalta que o próprio Turing estava preocupado com a possibilidade de uma máquina pensar e estava fornecendo um método simples para examinar isso: por meio de sessões de perguntas e respostas homem-máquina. Shah argumenta que há um jogo de imitação que Turing descreveu poderia ser praticado de duas maneiras diferentes: a) teste de máquina-interrogador um-para-um, e b) comparação simultânea de uma máquina com um humano, ambos questionados em paralelo por um interrogador. Como o teste de Turing é um teste de indistinguibilidade na capacidade de desempenho, a versão verbal generaliza naturalmente para toda a capacidade de desempenho humana, tanto verbal quanto não verbal (robótica).

jogo de imitação

O artigo original de Turing descreve um jogo de festa simples envolvendo três jogadores. O jogador A é um homem, o jogador B é uma mulher e o jogador C (que desempenha o papel de interrogador) é de ambos os sexos. No jogo de imitação, o jogador C é incapaz de ver o jogador A ou o jogador B, e pode se comunicar com eles apenas por meio de notas escritas. Ao fazer perguntas ao jogador A e ao jogador B, o jogador C tenta determinar qual dos dois é o homem e qual é a mulher. O papel do jogador A é enganar o interrogador para que tome a decisão errada, enquanto o jogador B tenta ajudar o interrogador a tomar a decisão certa.

Turing então pergunta:

"O que acontecerá quando uma máquina tomar o papel de A neste jogo? O interrogador decidirá erroneamente com tanta frequência quando o jogo for jogado assim como quando o jogo for entre um homem e uma mulher?" Essas perguntas substituem nosso original, "As máquinas podem pensar?"

O teste original do jogo de imitação, no qual o jogador A é substituído por um computador. O computador agora está encarregado do papel do homem, enquanto o jogador B continua tentando ajudar o interrogador. Figura adaptada de Saygin, 2000.

A segunda versão apareceu mais tarde no artigo de Turing de 1950. Semelhante ao teste do jogo de imitação original, o papel do jogador A é desempenhado por um computador. No entanto, o papel do jogador B é desempenhado por um homem e não por uma mulher.

Fixemos nossa atenção em um determinado computador digital C. É verdade que, modificando este computador para ter um armazenamento adequado, aumentando adequadamente sua velocidade de ação e fornecendo-lhe um programa apropriado, C pode desempenhar satisfatoriamente o papel de A no jogo da imitação, a parte de B sendo tomada por um homem?

Nesta versão, tanto o jogador A (o computador) quanto o jogador B estão tentando enganar o interrogador para que tome uma decisão incorreta.

Interpretação de raiz padrão

A interpretação padrão não está incluída no artigo original, mas é aceita e debatida. O entendimento comum é que o propósito do teste de Turing não é especificamente determinar se um computador é capaz de enganar um interrogador fazendo-o acreditar que é um humano, mas sim se um computador pode imitar um humano. Embora haja alguma controvérsia se essa interpretação foi pretendida por Turing, Sterrett acredita que foi e, portanto, confunde a segunda versão com esta, enquanto outros, como Traiger, não - isso, no entanto, levou ao que pode ser visto como o " interpretação padrão." Nesta versão, o jogador A é um computador e o jogador B uma pessoa de ambos os sexos. O papel do interrogador não é determinar quem é homem e quem é mulher, mas quem é um computador e quem é um humano. A questão fundamental com a interpretação padrão é que o interrogador não pode diferenciar qual respondente é humano e qual é máquina. Há questões sobre duração, mas a interpretação padrão geralmente considera essa limitação como algo que deveria ser razoável.

Jogo de imitação vs. teste de Turing padrão

Surgiu uma controvérsia sobre qual das formulações alternativas do teste Turing pretendia. Sterrett argumenta que dois testes distintos podem ser extraídos de seu artigo de 1950 e que, segundo a observação de Turing , eles não são equivalentes. O teste que emprega o jogo de grupo e compara as frequências de sucesso é chamado de "Teste do Jogo de Imitação Original", enquanto o teste que consiste em um juiz humano conversando com um humano e uma máquina é chamado de "Teste Padrão de Turing". observando que Sterrett iguala isso com a "interpretação padrão" em vez da segunda versão do jogo de imitação. Sterrett concorda que o teste de Turing padrão (STT) tem os problemas que seus críticos citam, mas acha que, ao contrário, o teste de jogo de imitação original (teste OIG) assim definido é imune a muitos deles, devido a uma diferença crucial: STT, não faz da semelhança com o desempenho humano o critério, embora empregue o desempenho humano na definição de um critério para a inteligência da máquina. Um homem pode falhar no teste do OIG, mas argumenta-se que é uma virtude de um teste de inteligência que o fracasso indica falta de desenvoltura: O teste do OIG requer a desenvoltura associada à inteligência e não apenas "simulação do comportamento de conversação humana". A estrutura geral do teste OIG pode até ser usada com versões não verbais de jogos de imitação.

Ainda outros escritores interpretaram Turing como propondo que o jogo de imitação em si é o teste, sem especificar como levar em conta a afirmação de Turing de que o teste que ele propôs usando a versão do partido do jogo de imitação é baseado em um critério de frequência comparativa de sucesso. nesse jogo de imitação, em vez de uma capacidade de ter sucesso em uma rodada do jogo.

Saygin sugeriu que talvez o jogo original seja uma forma de propor um projeto experimental menos tendencioso, pois oculta a participação do computador. O jogo de imitação também inclui um "hack social" não encontrado na interpretação padrão, pois no jogo tanto o computador quanto o humano masculino são obrigados a jogar fingindo ser alguém que não são.

O interrogador deve saber sobre o computador?

Uma peça crucial de qualquer teste de laboratório é que deve haver um controle. Turing nunca deixa claro se o interrogador em seus testes está ciente de que um dos participantes é um computador. Ele afirma apenas que o jogador A deve ser substituído por uma máquina, não que o jogador C deve ser informado dessa substituição. Quando Colby, FD Hilf, S Weber e AD Kramer testaram o PARRY, eles o fizeram assumindo que os interrogadores não precisavam saber que um ou mais dos entrevistados era um computador durante o interrogatório. Como Ayse Saygin, Peter Swirski e outros destacaram, isso faz uma grande diferença na implementação e no resultado do teste. Um estudo experimental analisando as violações de máximas de Grice usando transcrições do prêmio one-to-one (interrogador-interrogador) de Loebner para concursos de IA entre 1994 e 1999, Ayse Saygin encontrou diferenças significativas entre as respostas dos participantes que conheciam e não sabiam sobre computadores sendo envolvido.

Forças

Tratabilidade e simplicidade

O poder e o apelo do teste de Turing derivam de sua simplicidade. A filosofia da mente , a psicologia e a neurociência moderna foram incapazes de fornecer definições de "inteligência" e "pensamento" suficientemente precisas e gerais para serem aplicadas às máquinas. Sem tais definições, as questões centrais da filosofia da inteligência artificial não podem ser respondidas. O teste de Turing, mesmo que imperfeito, pelo menos fornece algo que pode realmente ser medido. Como tal, é uma tentativa pragmática de responder a uma difícil questão filosófica.

Amplitude do assunto

O formato do teste permite que o interrogador dê à máquina uma ampla variedade de tarefas intelectuais. Turing escreveu que "o método de perguntas e respostas parece ser adequado para introduzir quase qualquer um dos campos do esforço humano que desejamos incluir". John Haugeland acrescenta que “não basta entender as palavras; é preciso entender o assunto também”.

Para passar em um teste de Turing bem projetado, a máquina deve usar linguagem natural , raciocinar , ter conhecimento e aprender . O teste pode ser estendido para incluir entrada de vídeo, bem como uma "escotilha" pela qual os objetos podem ser passados: isso forçaria a máquina a demonstrar o uso hábil de visão bem projetada e robótica também. Juntos, eles representam quase todos os principais problemas que a pesquisa em inteligência artificial gostaria de resolver.

O teste de Feigenbaum é projetado para aproveitar a ampla gama de tópicos disponíveis para um teste de Turing. É uma forma limitada do jogo de perguntas e respostas de Turing que compara a máquina com as habilidades de especialistas em áreas específicas, como literatura ou química . A máquina Watson da IBM alcançou sucesso em um programa de perguntas sobre o conhecimento humano na televisão homem versus máquina, Jeopardy!

Ênfase na inteligência emocional e estética

Como um graduado com honras de Cambridge em matemática, Turing deveria propor um teste de inteligência computacional exigindo conhecimento especializado em algum campo altamente técnico e, assim, antecipando uma abordagem mais recente ao assunto . Em vez disso, como já observado, o teste que ele descreveu em seu artigo seminal de 1950 exige que o computador seja capaz de competir com sucesso em um jogo de festa comum, e isso desempenhando tão bem quanto o homem típico em responder a uma série de perguntas para fingir de forma convincente ser a mulher concorrente.

Dado o status do dimorfismo sexual humano como um dos assuntos mais antigos , fica implícito no cenário acima que as perguntas a serem respondidas não envolverão conhecimento factual especializado nem técnica de processamento de informações. O desafio para o computador, em vez disso, será demonstrar empatia pelo papel da mulher e demonstrar também uma sensibilidade estética característica – ambas as qualidades estão em exibição neste trecho de diálogo que Turing imaginou:

Interrogador: X, por favor, me diga o comprimento de seu cabelo?
Concorrente: Meu cabelo é shingle, e os fios mais longos têm cerca de nove polegadas de comprimento.

Quando Turing introduz algum conhecimento especializado em um de seus diálogos imaginados, o assunto não é matemática ou eletrônica, mas poesia:

Interrogador: Na primeira linha de seu soneto que diz: "Devo comparar-te a um dia de verão", não seria "um dia de primavera" tão bem ou melhor?
Testemunha: Não iria escanear .
Interrogador: Que tal "um dia de inverno". Isso iria escanear tudo bem.
Testemunha: Sim, mas ninguém quer ser comparado a um dia de inverno.

Turing, assim, mais uma vez demonstra seu interesse pela empatia e sensibilidade estética como componentes de uma inteligência artificial; e à luz de uma crescente consciência da ameaça de uma IA descontrolada, foi sugerido que esse foco talvez represente uma intuição crítica por parte de Turing, ou seja, que a inteligência emocional e estética desempenhará um papel fundamental na criação de um " IA amigável ". Note-se ainda, no entanto, que qualquer inspiração que Turing possa emprestar nessa direção depende da preservação de sua visão original, o que quer dizer, além disso, que a promulgação de uma "interpretação padrão" do teste de Turing - ou seja, , que se concentra apenas em uma inteligência discursiva - deve ser visto com alguma cautela.

Fraquezas

Turing não afirmou explicitamente que o teste de Turing poderia ser usado como uma medida de " inteligência ", ou qualquer outra qualidade humana. Ele queria fornecer uma alternativa clara e compreensível para a palavra "pensar", que ele poderia usar para responder às críticas sobre a possibilidade de "máquinas pensantes" e sugerir maneiras pelas quais a pesquisa poderia avançar. Numerosos especialistas na área, incluindo o cientista cognitivo Gary Marcus , insistem que o teste de Turing apenas mostra como é fácil enganar os humanos e não é uma indicação de inteligência de máquina.

No entanto, o teste de Turing foi proposto como uma medida da "capacidade de pensar" de uma máquina ou sua "inteligência". Esta proposta recebeu críticas de filósofos e cientistas da computação. Ele assume que um interrogador pode determinar se uma máquina está "pensando" comparando seu comportamento com o comportamento humano. Cada elemento dessa suposição foi questionado: a confiabilidade do julgamento do interrogador, o valor de comparar apenas o comportamento e o valor de comparar a máquina com um humano. Por causa dessas e outras considerações, alguns pesquisadores de IA questionaram a relevância do teste para seu campo.

Inteligência humana versus inteligência em geral

Fraqueza do teste de Turing 1.svg

O teste de Turing não testa diretamente se o computador se comporta de forma inteligente. Ele testa apenas se o computador se comporta como um ser humano. Como o comportamento humano e o comportamento inteligente não são exatamente a mesma coisa, o teste pode falhar em medir com precisão a inteligência de duas maneiras:

Alguns comportamentos humanos não são inteligentes
O teste de Turing exige que a máquina seja capaz de executar todos os comportamentos humanos, independentemente de serem inteligentes. Ele ainda testa comportamentos que podem não ser considerados inteligentes, como a suscetibilidade a insultos, a tentação de mentir ou, simplesmente, a alta frequência de erros de digitação . Se uma máquina não consegue imitar esses comportamentos pouco inteligentes em detalhes, ela falha no teste.
Essa objeção foi levantada por The Economist , em um artigo intitulado " estupidez artificial " publicado logo após a primeira competição do Prêmio Loebner em 1992. O artigo observou que a vitória do primeiro vencedor Loebner se deveu, pelo menos em parte, à sua capacidade de "imitar erros de digitação humanos." O próprio Turing sugeriu que os programas adicionassem erros em sua saída, para serem melhores "jogadores" do jogo.
Alguns comportamentos inteligentes são desumanos
O teste de Turing não testa comportamentos altamente inteligentes, como a capacidade de resolver problemas difíceis ou apresentar insights originais. Na verdade, requer especificamente o engano por parte da máquina: se a máquina é mais inteligente do que um ser humano, ela deve deliberadamente evitar parecer inteligente demais. Se fosse para resolver um problema computacional que é praticamente impossível para um humano resolver, então o interrogador saberia que o programa não é humano, e a máquina falharia no teste.
Como não pode medir a inteligência que está além da capacidade dos humanos, o teste não pode ser usado para construir ou avaliar sistemas mais inteligentes que os humanos. Devido a isso, várias alternativas de teste que seriam capazes de avaliar sistemas superinteligentes têm sido propostas.

A objeção centrada na linguagem

Outra objeção bem conhecida levantada em relação ao Teste de Turing diz respeito ao seu foco exclusivo no comportamento linguístico (ou seja, é apenas um experimento “baseado na linguagem”, enquanto todas as outras faculdades cognitivas não são testadas). Essa desvantagem reduz o papel de outras “habilidades inteligentes” específicas da modalidade em relação aos seres humanos que o psicólogo Howard Gardner, em sua “ teoria das inteligências múltiplas ”, se propõe a considerar (as habilidades verbo-linguísticas são apenas uma delas). .

Consciência versus a simulação da consciência

O teste de Turing está preocupado estritamente com a forma como o sujeito age  – o comportamento externo da máquina. Nesse sentido, adota uma abordagem behaviorista ou funcionalista para o estudo da mente. O exemplo de ELIZA sugere que uma máquina que passa no teste pode ser capaz de simular o comportamento de conversação humana seguindo uma lista simples (mas grande) de regras mecânicas, sem pensar ou ter uma mente.

John Searle argumentou que o comportamento externo não pode ser usado para determinar se uma máquina está "realmente" pensando ou apenas "simulando o pensamento". Seu argumento da sala chinesa pretende mostrar que, mesmo que o teste de Turing seja uma boa definição operacional de inteligência, pode não indicar que a máquina tem mente , consciência ou intencionalidade . (Intencionalidade é um termo filosófico para o poder dos pensamentos de ser "sobre" algo.)

Turing antecipou essa linha de crítica em seu artigo original, escrevendo:

Não desejo dar a impressão de que acho que não há mistério sobre a consciência. Há, por exemplo, um paradoxo relacionado a qualquer tentativa de localizá-lo. Mas não acho que esses mistérios precisem necessariamente ser resolvidos antes que possamos responder à pergunta com a qual estamos preocupados neste artigo.

Ingenuidade dos interrogadores

Na prática, os resultados do teste podem ser facilmente dominados não pela inteligência do computador, mas pelas atitudes, habilidade ou ingenuidade do questionador.

Turing não especifica as habilidades e conhecimentos precisos exigidos pelo interrogador em sua descrição do teste, mas ele usou o termo "interrogador médio": "[o] interrogador médio não teria mais de 70 por cento de chance de acertar identificação após cinco minutos de interrogatório".

Programas de chatterbot, como o ELIZA, enganaram repetidamente pessoas desavisadas, fazendo-as acreditar que estão se comunicando com seres humanos. Nesses casos, os "interrogadores" nem sequer estão cientes da possibilidade de estarem interagindo com computadores. Para parecer humano com sucesso, não há necessidade de a máquina ter qualquer inteligência e apenas uma semelhança superficial com o comportamento humano é necessária.

As primeiras competições do Prêmio Loebner usavam interrogadores "não sofisticados" que eram facilmente enganados pelas máquinas. Desde 2004, os organizadores do Prêmio Loebner colocaram filósofos, cientistas da computação e jornalistas entre os interrogadores. No entanto, alguns desses especialistas foram enganados pelas máquinas.

Uma característica interessante do teste de Turing é a frequência do efeito confederado , quando os humanos confederados (testados) são erroneamente identificados pelos interrogadores como máquinas. Tem sido sugerido que o que os interrogadores esperam como respostas humanas não é necessariamente típico dos humanos. Como resultado, alguns indivíduos podem ser classificados como máquinas. Isso pode, portanto, funcionar a favor de uma máquina concorrente. Os humanos são instruídos a "agir sozinhos", mas às vezes suas respostas são mais parecidas com o que o interrogador espera que uma máquina diga. Isso levanta a questão de como garantir que os humanos sejam motivados a "agir como humanos".

Silêncio

Um aspecto crítico do teste de Turing é que uma máquina deve se revelar como sendo uma máquina por seus enunciados. Um interrogador deve então fazer a "identificação correta" identificando corretamente a máquina como sendo exatamente isso. Se, no entanto, uma máquina permanecer silenciosa durante uma conversa, então não é possível para um interrogador identificar com precisão a máquina a não ser por meio de uma estimativa calculada. Mesmo levar em consideração um humano paralelo/oculto como parte do teste pode não ajudar na situação, pois os humanos podem muitas vezes ser identificados erroneamente como sendo uma máquina.

Impraticabilidade e irrelevância: o teste de Turing e a pesquisa de IA

Tentativa de talkbot GPT-3

Os principais pesquisadores de IA argumentam que tentar passar no teste de Turing é apenas uma distração de pesquisas mais frutíferas. De fato, o teste de Turing não é um foco ativo de muito esforço acadêmico ou comercial - como Stuart Russell e Peter Norvig escrevem: "Os pesquisadores de IA dedicaram pouca atenção à aprovação no teste de Turing". Existem várias razões.

Primeiro, existem maneiras mais fáceis de testar seus programas. A maioria das pesquisas atuais em campos relacionados à IA visa objetivos modestos e específicos, como reconhecimento de objetos ou logística . Para testar a inteligência dos programas que resolvem esses problemas, os pesquisadores de IA simplesmente lhes dão a tarefa diretamente. Stuart Russell e Peter Norvig sugerem uma analogia com a história do voo : os aviões são testados pelo quão bem voam, não comparando-os com os pássaros. " Textos de engenharia aeronáutica ", escrevem eles, "não definem o objetivo de seu campo como 'fazer máquinas que voam tão exatamente como pombos que podem enganar outros pombos ' " .

Em segundo lugar, criar simulações realistas de seres humanos é um problema difícil por si só que não precisa ser resolvido para atingir os objetivos básicos da pesquisa de IA. Personagens humanos críveis podem ser interessantes em uma obra de arte, um jogo ou uma interface de usuário sofisticada , mas não fazem parte da ciência de criar máquinas inteligentes, ou seja, máquinas que resolvem problemas usando inteligência.

Turing não pretendia que sua ideia fosse usada para testar a inteligência de programas – ele queria fornecer um exemplo claro e compreensível para ajudar na discussão da filosofia da inteligência artificial . John McCarthy argumenta que não devemos nos surpreender que uma ideia filosófica se torne inútil para aplicações práticas. Ele observa que é "improvável que a filosofia da IA ​​tenha mais efeito na prática da pesquisa em IA do que a filosofia da ciência geralmente tem na prática da ciência".

Variações

Inúmeras outras versões do teste de Turing, incluindo aquelas expostas acima, foram levantadas ao longo dos anos.

Teste de Turing reverso e CAPTCHA

Uma modificação do teste de Turing em que o objetivo de um ou mais dos papéis foi invertido entre máquinas e humanos é denominado teste de Turing reverso. Um exemplo está implícito no trabalho do psicanalista Wilfred Bion , que ficou particularmente fascinado pela "tempestade" que resultou do encontro de uma mente com outra. Em seu livro de 2000, entre vários outros pontos originais em relação ao teste de Turing, o estudioso literário Peter Swirski discutiu em detalhes a ideia do que ele chamou de teste de Swirski – essencialmente o teste de Turing reverso. Ele ressaltou que supera a maioria, senão todas as objeções padrão levantadas na versão padrão.

Levando essa ideia adiante, RD Hinshelwood descreveu a mente como um "aparelho de reconhecimento da mente". O desafio seria o computador ser capaz de determinar se estava interagindo com um humano ou outro computador. Esta é uma extensão da pergunta original que Turing tentou responder, mas que, talvez, ofereceria um padrão alto o suficiente para definir uma máquina que pudesse "pensar" de uma maneira que normalmente definimos como caracteristicamente humana.

CAPTCHA é uma forma de teste de Turing reverso. Antes de poder realizar alguma ação em um site, o usuário é apresentado a caracteres alfanuméricos em uma imagem gráfica distorcida e solicitado a digitá-los. Isso se destina a evitar que sistemas automatizados sejam usados ​​para abusar do site. A lógica é que software suficientemente sofisticado para ler e reproduzir a imagem distorcida com precisão não existe (ou não está disponível para o usuário médio), então qualquer sistema capaz de fazê-lo provavelmente é humano.

Softwares capazes de reverter CAPTCHA com alguma precisão analisando padrões no motor gerador começaram a ser desenvolvidos logo após a criação do CAPTCHA. Em 2013, pesquisadores da Vicarious anunciaram que haviam desenvolvido um sistema para resolver os desafios CAPTCHA do Google , Yahoo! e PayPal até 90% do tempo. Em 2014, os engenheiros do Google demonstraram um sistema que poderia derrotar os desafios do CAPTCHA com 99,8% de precisão. Em 2015, Shuman Ghosemajumder , ex- czar de fraudes de cliques do Google, afirmou que havia sites cibercriminosos que derrotavam os desafios do CAPTCHA por uma taxa, para permitir várias formas de fraude.

Teste de Turing especialista no assunto

Outra variação é descrita como o teste de Turing do especialista no assunto , onde a resposta de uma máquina não pode ser distinguida de um especialista em um determinado campo. Isso também é conhecido como "teste de Feigenbaum" e foi proposto por Edward Feigenbaum em um artigo de 2003.

Teste de cognição de "baixo nível"

Robert French (1990) argumenta que um interrogador pode distinguir interlocutores humanos e não humanos ao fazer perguntas que revelam os processos de baixo nível (isto é, inconscientes) da cognição humana, conforme estudado pela ciência cognitiva . Essas perguntas revelam os detalhes precisos da incorporação humana do pensamento e podem desmascarar um computador, a menos que ele experimente o mundo como os humanos.

Teste de Turing total

A variação "Total Turing test" do teste de Turing, proposta pelo cientista cognitivo Stevan Harnad , acrescenta mais dois requisitos ao teste de Turing tradicional. O interrogador também pode testar as habilidades perceptivas do sujeito (exigindo visão computacional ) e a capacidade do sujeito de manipular objetos (exigindo robótica ).

Registros eletrônicos de saúde

Uma carta publicada no Communications of the ACM descreve o conceito de geração de uma população sintética de pacientes e propõe uma variação do teste de Turing para avaliar a diferença entre pacientes sintéticos e reais. A carta afirma: "No contexto do RES, embora um médico humano possa distinguir prontamente entre pacientes humanos reais e gerados sinteticamente, uma máquina poderia receber a inteligência para fazer tal determinação por conta própria?" e ainda a carta afirma: "Antes que identidades sintéticas de pacientes se tornem um problema de saúde pública, o mercado legítimo de EHR pode se beneficiar da aplicação de técnicas semelhantes ao Teste de Turing para garantir maior confiabilidade de dados e valor diagnóstico. provavelmente terá maior complexidade do que o teste de ciências da oitava série de Allen é capaz de classificar."

Teste de sinal inteligente mínimo

O teste de sinal inteligente mínimo foi proposto por Chris McKinstry como "a abstração máxima do teste de Turing", em que apenas respostas binárias (verdadeiro/falso ou sim/não) são permitidas, para focar apenas na capacidade de pensamento. Ele elimina problemas de bate-papo por texto, como viés de antropomorfismo , e não requer emulação de comportamento humano não inteligente , permitindo sistemas que excedem a inteligência humana. As perguntas devem se sustentar por conta própria, no entanto, tornando-as mais como um teste de QI do que um interrogatório. Normalmente é usado para coletar dados estatísticos contra os quais o desempenho de programas de inteligência artificial pode ser medido.

Prêmio Hutter

Os organizadores do Prêmio Hutter acreditam que compactar texto em linguagem natural é um problema difícil de IA, equivalente a passar no teste de Turing.

O teste de compressão de dados tem algumas vantagens sobre a maioria das versões e variações de um teste de Turing, incluindo:

  • Ele fornece um único número que pode ser usado diretamente para comparar qual das duas máquinas é "mais inteligente".
  • Não requer que o computador minta para o juiz

As principais desvantagens de usar a compactação de dados como teste são:

  • Não é possível testar humanos dessa maneira.
  • Não se sabe qual "pontuação" específica neste teste - se houver - é equivalente a passar em um teste de Turing em nível humano.

Outros testes baseados em compressão ou complexidade Kolmogorov

Uma abordagem relacionada ao prêmio de Hutter que apareceu muito antes no final dos anos 1990 é a inclusão de problemas de compressão em um teste de Turing estendido. ou por testes que são completamente derivados da complexidade de Kolmogorov . Outros testes relacionados nesta linha são apresentados por Hernandez-Orallo e Dowe.

Algorithmic IQ, ou AIQ para abreviar, é uma tentativa de converter a medida teórica de Inteligência Universal de Legg e Hutter (baseada na inferência indutiva de Solomonoff ) em um teste prático de trabalho de inteligência de máquina.

Duas grandes vantagens de alguns desses testes são sua aplicabilidade a inteligências não humanas e sua ausência de exigência para testadores humanos.

teste de Ebert

O teste de Turing inspirou o teste de Ebert proposto em 2011 pelo crítico de cinema Roger Ebert , que é um teste se uma voz sintetizada por computador tem habilidade suficiente em termos de entonações, inflexões, tempo e assim por diante, para fazer as pessoas rirem.

Métricas de inteligência de máquina baseadas no teste de Turing universal inspiradas no teste de Turing

Com base na grande diversidade de sistemas inteligentes, devem ser utilizadas as métricas universais inspiradas no teste de Turing, que são capazes de medir a inteligência da máquina e comparar os sistemas com base em sua inteligência. Uma propriedade de uma métrica de inteligência deve ser o tratamento do aspecto da variabilidade na inteligência. Métricas de inteligência baseadas em caixa-preta, como MetrIntPair e MetrIntPairII, são universais, pois não dependem da arquitetura dos sistemas cuja inteligência eles medem. MetrIntPair é uma métrica precisa que pode medir e comparar simultaneamente a inteligência de dois sistemas. MetrIntPairII é uma métrica precisa e robusta que pode medir e comparar simultaneamente a inteligência de qualquer número de sistemas inteligentes. Ambas as métricas usam medidas de inteligência específicas baseadas em pares e podem classificar os sistemas estudados em classes de inteligência.

Chatbot Google LaMDA

Em junho de 2022, o chatbot Google LaMDA (Language Model for Dialog Applications) recebeu ampla cobertura sobre as alegações de que ele alcançou a senciência. Inicialmente, em um artigo no The Economist Google Research Fellow, Blaise Agüera y Arcas disse que o chatbot havia demonstrado um grau de compreensão das relações sociais. Vários dias depois, o engenheiro do Google, Blake Lemoine, afirmou em uma entrevista ao Washington Post que o LaMDA havia alcançado a senciência. Lemoine foi colocado em licença pelo Google por declarações internas nesse sentido. Agüera y Arcas (vice-presidente do Google) e Jen Gennai (chefe de Inovação Responsável) investigaram as alegações, mas as rejeitaram. A afirmação de Lemoine foi redondamente rejeitada por outros especialistas na área, apontando que um modelo de linguagem que parece imitar a conversa humana não indica que qualquer inteligência esteja presente por trás dele, apesar de parecer passar no teste de Turing. A ampla discussão de proponentes a favor e contra a afirmação de que o LaMDA atingiu a senciência provocou discussões em plataformas de mídia social, incluindo a definição do significado de senciência, bem como o que significa ser humano.

Conferências

Colóquio de Turing

1990 marcou o quadragésimo aniversário da primeira publicação do artigo "Computing Machinery and Intelligence" de Turing e viu um interesse renovado no teste. Dois eventos significativos ocorreram naquele ano: o primeiro foi o Turing Colloquium, que foi realizado na Universidade de Sussex em abril, e reuniu acadêmicos e pesquisadores de uma ampla variedade de disciplinas para discutir o teste de Turing em termos de seu passado, presente , e futuro; a segunda foi a formação da competição anual do Prêmio Loebner .

Blay Whitby lista quatro grandes pontos de virada na história do teste de Turing - a publicação de "Computing Machinery and Intelligence" em 1950, o anúncio de ELIZA de Joseph Weizenbaum em 1966, a criação de PARRY por Kenneth Colby , que foi descrita pela primeira vez em 1972, e o Colóquio de Turing em 1990.

2005 Colóquio sobre Sistemas Conversacionais

Em novembro de 2005, a Universidade de Surrey organizou uma reunião inaugural de um dia de desenvolvedores de entidades conversacionais artificiais, com a presença de vencedores de testes práticos de Turing no Prêmio Loebner: Robby Garner , Richard Wallace e Rollo Carpenter . Os oradores convidados incluíram David Hamill , Hugh Loebner (patrocinador do Prêmio Loebner ) e Huma Shah .

Simpósio AISB 2008

Paralelamente ao Prêmio Loebner 2008, realizado na Universidade de Reading , a Society for the Study of Artificial Intelligence and the Simulation of Behavior (AISB), organizou um simpósio de um dia para discutir o teste de Turing, organizado por John Barnden , Mark Bishop , Huma Shah e Kevin Warwick . Os palestrantes incluíram a diretora da Royal Institution, Baronesa Susan Greenfield , Selmer Bringsjord , o biógrafo de Turing, Andrew Hodges , e o cientista da consciência Owen Holland . Nenhum acordo surgiu para um teste de Turing canônico, embora Bringsjord tenha expressado que um prêmio considerável resultaria na aprovação do teste de Turing mais cedo.

O Ano Alan Turing e Turing100 em 2012

Ao longo de 2012, vários eventos importantes ocorreram para celebrar a vida e o impacto científico de Turing. O grupo Turing100 apoiou esses eventos e também organizou um evento especial de teste de Turing em Bletchley Park em 23 de junho de 2012 para comemorar o 100º aniversário do nascimento de Turing.

Veja também

Notas

Referências

Leitura adicional

  • Cohen, Paul R. (2006), "'Se não for o teste de Turing, então o quê?" , AI Magazine , 26 (4).
  • Marcus, Gary , "Am I Human?: Os pesquisadores precisam de novas maneiras de distinguir a inteligência artificial do tipo natural", Scientific American , vol. 316, nº. 3 (março de 2017), pp. 58–63. Vários testes de eficácia de inteligência artificial são necessários porque, "assim como não existe um único teste de proeza atlética , não pode haver um teste final de inteligência ". Um desses testes, um "Desafio de Construção", testaria a percepção e a ação física - "dois elementos importantes do comportamento inteligente que estavam totalmente ausentes do teste de Turing original". Outra proposta foi dar às máquinas os mesmos testes padronizados de ciência e outras disciplinas que os alunos fazem. Um obstáculo até agora insuperável para a inteligência artificial é a incapacidade de desambiguação confiável . "[P]raticamente cada frase [que as pessoas geram] é ambígua , muitas vezes de várias maneiras." Um exemplo proeminente é conhecido como o "problema de desambiguação de pronomes": uma máquina não tem como determinar a quem ou o que um pronome em uma frase - como "ele", "ela" ou "isso" - se refere.
  • Moor, James H. (2001), "The Status and Future of the Turing Test" , Minds and Machines , 11 (1): 77-93, doi : 10.1023/A:1011218925467 , ISSN  0924-6495 , S2CID  35233851 .
  • Warwick, Kevin e Shah, Huma (2016), "Jogo de Imitação de Turing: Conversas com o Desconhecido", Cambridge University Press.

links externos