Conexionismo - Connectionism

O conexionismo é uma abordagem no campo das ciências cognitivas que pretende explicar os fenômenos mentais por meio de redes neurais artificiais (RNA). O conexionismo apresenta uma teoria cognitiva baseada na ocorrência simultânea de atividades de sinais distribuídos por meio de conexões que podem ser representadas numericamente, em que o aprendizado ocorre por meio da modificação das forças de conexão com base na experiência.

Algumas vantagens da abordagem conexionista incluem sua aplicabilidade a uma ampla gama de funções, aproximação estrutural a neurônios biológicos, baixos requisitos para estrutura inata e capacidade de degradação graciosa . Algumas desvantagens incluem a dificuldade em decifrar como as RNAs processam as informações, ou respondem pela composicionalidade das representações mentais, e uma dificuldade resultante em explicar os fenômenos em um nível superior.

O sucesso das redes de aprendizagem profunda na última década aumentou muito a popularidade dessa abordagem, mas a complexidade e a escala de tais redes trouxeram consigo problemas de interpretabilidade crescentes . O conexionismo é visto por muitos como uma alternativa às teorias clássicas da mente baseadas em computação simbólica, mas até que ponto as duas abordagens são compatíveis tem sido objeto de muito debate desde o seu início.

Modelo conexionista (ANN) com uma camada oculta

Princípios básicos

O princípio conexionista central é que os fenômenos mentais podem ser descritos por redes interconectadas de unidades simples e frequentemente uniformes. A forma das conexões e das unidades pode variar de modelo para modelo. Por exemplo, unidades na rede podem representar neurônios e as conexões podem representar sinapses , como no cérebro humano .

Ativação de propagação

Na maioria dos modelos conexionistas, as redes mudam com o tempo. Um aspecto intimamente relacionado e muito comum dos modelos conexionistas é a ativação . A qualquer momento, uma unidade da rede tem uma ativação, que é um valor numérico que pretende representar algum aspecto da unidade. Por exemplo, se as unidades no modelo são neurônios, a ativação pode representar a probabilidade de que o neurônio gere um pico de potencial de ação . A ativação normalmente se espalha para todas as outras unidades conectadas a ele. A ativação de propagação é sempre uma característica dos modelos de rede neural e é muito comum em modelos conexionistas usados ​​por psicólogos cognitivos .

Redes neurais

As redes neurais são, de longe, o modelo conexionista mais comumente usado hoje. Embora haja uma grande variedade de modelos de rede neural, eles quase sempre seguem dois princípios básicos em relação à mente:

  1. Qualquer estado mental pode ser descrito como um vetor (N) -dimensional de valores de ativação numérica sobre unidades neurais em uma rede.
  2. A memória é criada modificando a força das conexões entre as unidades neurais. As potências de ligação, ou "pesos", são geralmente representada como uma N X N matriz .

A maior parte da variedade entre os modelos de rede neural vem de:

  • Interpretação de unidades : as unidades podem ser interpretadas como neurônios ou grupos de neurônios.
  • Definição de ativação : A ativação pode ser definida de várias maneiras. Por exemplo, em uma máquina de Boltzmann , a ativação é interpretada como a probabilidade de gerar um pico de potencial de ação e é determinada por meio de uma função logística na soma das entradas para uma unidade.
  • Algoritmo de aprendizagem : redes diferentes modificam suas conexões de maneira diferente. Em geral, qualquer mudança matematicamente definida nos pesos das conexões ao longo do tempo é chamada de "algoritmo de aprendizado".

Os conexionistas concordam que as redes neurais recorrentes ( redes direcionadas em que as conexões da rede podem formar um ciclo direcionado) são um modelo melhor do cérebro do que as redes neurais feedforward (redes direcionadas sem ciclos, chamadas DAG ). Muitos modelos conexionistas recorrentes também incorporam a teoria dos sistemas dinâmicos . Muitos pesquisadores, como o connectionist Paul Smolensky , argumentaram que os modelos conexionistas vai evoluir em direção totalmente contínua , de alta-dimensional, não-linear , sistemas dinâmicos aproxima.

Realismo biológico

O trabalho conexionista em geral não precisa ser biologicamente realista e, portanto, sofre de uma falta de plausibilidade neurocientífica. No entanto, a estrutura das redes neurais é derivada daquela dos neurônios biológicos , e esse paralelo na estrutura de baixo nível é frequentemente considerado uma vantagem do conexionismo na modelagem de estruturas cognitivas em comparação com outras abordagens. Uma área onde os modelos conexionistas são considerados biologicamente implausíveis é no que diz respeito às redes de propagação de erros que são necessárias para apoiar a aprendizagem, mas a propagação de erros pode explicar parte da atividade elétrica gerada biologicamente vista no couro cabeludo em potenciais relacionados a eventos , como o N400 e o P600 , e isso fornece algum suporte biológico para uma das principais premissas dos procedimentos de aprendizagem conexionistas.

Aprendendo

Os pesos em uma rede neural são ajustados de acordo com alguma regra ou algoritmo de aprendizado , como o aprendizado Hebbian . Assim, os conexionistas criaram muitos procedimentos de aprendizagem sofisticados para redes neurais. O aprendizado sempre envolve a modificação dos pesos de conexão. Em geral, eles envolvem fórmulas matemáticas para determinar a mudança nos pesos quando dados conjuntos de dados consistem em vetores de ativação para algum subconjunto das unidades neurais. Diversos estudos têm se concentrado na concepção de métodos de ensino-aprendizagem baseados no conexionismo.

Ao formalizar a aprendizagem dessa forma, os conexionistas dispõem de muitas ferramentas. Uma estratégia muito comum em métodos de aprendizagem conexionistas é incorporar a descida de gradiente sobre uma superfície de erro em um espaço definido pela matriz de peso. Todo aprendizado de gradiente descendente em modelos conexionistas envolve alterar cada peso pela derivada parcial da superfície de erro em relação ao peso. Backpropagation (BP), popularizado pela primeira vez na década de 1980, é provavelmente o algoritmo de descida gradiente conexionista mais conhecido atualmente.

O conexionismo pode ser rastreado até ideias com mais de um século, que eram pouco mais do que especulação até meados do século 20.

Processamento distribuído paralelo

A abordagem conexionista predominante hoje era originalmente conhecida como processamento distribuído paralelo (PDP). Era uma abordagem de rede neural artificial que enfatizava a natureza paralela do processamento neural e a natureza distribuída das representações neurais. Ele forneceu uma estrutura matemática geral para os pesquisadores operarem. A estrutura envolveu oito aspectos principais:

  • Um conjunto de unidades de processamento , representado por um conjunto de inteiros.
  • Uma ativação para cada unidade, representada por um vetor de funções dependentes do tempo .
  • Uma função de saída para cada unidade, representada por um vetor de funções nas ativações.
  • Um padrão de conectividade entre unidades, representado por uma matriz de números reais indicando a força da conexão.
  • Uma regra de propagação que distribui as ativações através das conexões, representada por uma função na saída das unidades.
  • Uma regra de ativação para combinar entradas para uma unidade para determinar sua nova ativação, representada por uma função na ativação e propagação atuais.
  • Uma regra de aprendizado para modificar conexões com base na experiência, representada por uma mudança nos pesos com base em qualquer número de variáveis.
  • Um ambiente que fornece experiência ao sistema, representado por conjuntos de vetores de ativação para algum subconjunto das unidades.

Muitas das pesquisas que levaram ao desenvolvimento do PDP foram feitas na década de 1970, mas o PDP se tornou popular na década de 1980 com o lançamento dos livros Processamento Distribuído Paralelo: Explorações na Microestrutura da Cognição - Volume 1 (fundações) e Volume 2 (Modelos psicológicos e biológicos) , por James L. McClelland , David E. Rumelhart e o PDP Research Group. Os livros agora são considerados obras conexionistas seminais, e agora é comum equiparar totalmente PDP e conexionismo, embora o termo "conexionismo" não seja usado nos livros. Seguindo o modelo PDP, os pesquisadores teorizaram sistemas baseados nos princípios do processamento distribuído perpendicular (PDP).

Trabalho anterior

As raízes diretas do PDP foram as teorias perceptron de pesquisadores como Frank Rosenblatt das décadas de 1950 e 1960. Mas os modelos perceptron se tornaram muito impopulares pelo livro Perceptrons de Marvin Minsky e Seymour Papert , publicado em 1969. Ele demonstrou os limites dos tipos de funções que os perceptrons de camada única (sem camada oculta) podem calcular, mostrando que mesmo funções simples como a disjunção exclusiva (XOR) não pôde ser tratada corretamente. Os livros de PDP superaram essa limitação, mostrando que as redes neurais não lineares de vários níveis eram muito mais robustas e podiam ser usadas para uma vasta gama de funções.

Muitos pesquisadores anteriores defenderam modelos de estilo conexionista, por exemplo, nas décadas de 1940 e 1950, Warren McCulloch e Walter Pitts ( neurônio MP ), Donald Olding Hebb e Karl Lashley . McCulloch e Pitts mostraram como os sistemas neurais podem implementar a lógica de primeira ordem : Seu artigo clássico "Um cálculo lógico de ideias imanentes na atividade nervosa" (1943) é importante neste desenvolvimento aqui. Eles foram influenciados pelo importante trabalho de Nicolas Rashevsky na década de 1930. Hebb contribuiu muito para as especulações sobre o funcionamento neural e propôs um princípio de aprendizado , o aprendizado Hebbian , que ainda é usado hoje. Lashley defendeu representações distribuídas como resultado de seu fracasso em encontrar algo parecido com um engrama localizado em anos de experimentos com lesões .

Conexionismo à parte do PDP

Embora o PDP seja a forma dominante de conexionismo, outros trabalhos teóricos também devem ser classificados como conexionistas.

Muitos princípios conexionistas podem ser rastreados até os primeiros trabalhos em psicologia , como o de William James . As teorias psicológicas baseadas no conhecimento sobre o cérebro humano estavam na moda no final do século XIX. Já em 1869, o neurologista John Hughlings Jackson defendia sistemas distribuídos de vários níveis. Seguindo essa orientação, os Princípios de Psicologia de Herbert Spencer , 3ª edição (1872), e o Projeto de uma Psicologia Científica de Sigmund Freud (composto em 1895), propuseram teorias conexionistas ou proto-conexionistas. Estas tendem a ser teorias especulativas. Mas, no início do século 20, Edward Thorndike estava experimentando uma aprendizagem que postulava um tipo de rede conexionista.

Friedrich Hayek concebeu independentemente o modelo de aprendizagem de sinapses Hebbian em um artigo apresentado em 1920 e desenvolveu esse modelo em teoria do cérebro global constituída de redes de sinapses Hebbian construídas em sistemas maiores de mapas e rede de memória. O trabalho revolucionário de Hayek foi citado por Frank Rosenblatt em seu artigo do Perceptron.

Outra forma de modelo conexionista foi a estrutura de rede relacional desenvolvida pelo lingüista Sydney Lamb na década de 1960. As redes relacionais foram usadas apenas por linguistas e nunca foram unificadas com a abordagem PDP. Como resultado, eles agora são usados ​​por poucos pesquisadores.

Existem também modelos de conexão híbridos, principalmente misturando representações simbólicas com modelos de redes neurais. A abordagem híbrida foi defendida por alguns pesquisadores (como Ron Sun ).

Debate conexionismo vs. computacionalismo

À medida que o conexionismo se tornou cada vez mais popular no final dos anos 1980, alguns pesquisadores (incluindo Jerry Fodor , Steven Pinker e outros) reagiram contra ele. Eles argumentaram que o conexionismo, como então se desenvolvia, ameaçava obliterar o que eles viam como o progresso sendo feito nos campos da ciência cognitiva e da psicologia pela abordagem clássica do computacionalismo . O computacionalismo é uma forma específica de cognitivismo que argumenta que a atividade mental é computacional , ou seja, que a mente opera realizando operações puramente formais em símbolos, como uma máquina de Turing . Alguns pesquisadores argumentaram que a tendência do conexionismo representou uma reversão ao associacionismo e o abandono da ideia de uma linguagem de pensamento , algo que consideraram equivocado. Em contraste, essas mesmas tendências tornaram o conexionismo atraente para outros pesquisadores.

O conexionismo e o computacionalismo não precisam estar em conflito, mas o debate no final dos anos 1980 e no início dos anos 1990 levou à oposição entre as duas abordagens. Ao longo do debate, alguns pesquisadores argumentaram que o conexionismo e o computacionalismo são totalmente compatíveis, embora não haja um consenso completo sobre o assunto. As diferenças entre as duas abordagens incluem o seguinte:

  • Os computacionalistas postulam modelos simbólicos que são estruturalmente semelhantes à estrutura cerebral subjacente, enquanto os conexionistas se envolvem em modelagem de "baixo nível", tentando garantir que seus modelos se assemelhem a estruturas neurológicas.
  • Computacionalistas em geral se concentram na estrutura de símbolos explícitos ( modelos mentais ) e regras sintáticas para sua manipulação interna, enquanto os conexionistas se concentram em aprender a partir de estímulos ambientais e armazenar essas informações em uma forma de conexões entre neurônios.
  • Os computacionalistas acreditam que a atividade mental interna consiste na manipulação de símbolos explícitos, enquanto os conexionistas acreditam que a manipulação de símbolos explícitos fornece um modelo pobre de atividade mental.
  • Os computacionalistas freqüentemente postulam subsistemas simbólicos específicos de domínio projetados para apoiar a aprendizagem em áreas específicas da cognição (por exemplo, linguagem, intencionalidade, número), enquanto os conexionistas postulam um ou um pequeno conjunto de mecanismos de aprendizagem muito gerais.

Apesar dessas diferenças, alguns teóricos propuseram que a arquitetura conexionista é simplesmente a maneira pela qual os cérebros orgânicos implementam o sistema de manipulação de símbolos. Isso é logicamente possível, pois é bem sabido que os modelos conexionistas podem implementar sistemas de manipulação de símbolos do tipo usado em modelos computacionalistas, pois, de fato, eles devem ser capazes de explicar a capacidade humana de realizar tarefas de manipulação de símbolos. Vários modelos cognitivos combinando arquiteturas de manipulação de símbolos e conexionistas têm sido propostos, notavelmente entre eles a Arquitetura Conectiva / Cognitiva Simbólica Integrada de Paul Smolensky (ICS). Mas o debate se baseia em se essa manipulação de símbolos forma a base da cognição em geral, portanto, esta não é uma justificativa potencial do computacionalismo. No entanto, as descrições computacionais podem ser descrições de alto nível úteis da cognição da lógica, por exemplo.

O debate foi amplamente centrado em argumentos lógicos sobre se as redes conexionistas poderiam produzir a estrutura sintática observada neste tipo de raciocínio. Isso foi alcançado mais tarde, embora usando habilidades de ligação de variável rápida fora daquelas normalmente assumidas em modelos conexionistas.

Parte do apelo das descrições computacionais é que elas são relativamente fáceis de interpretar e, portanto, podem ser vistas como contribuindo para a nossa compreensão de processos mentais particulares, enquanto os modelos conexionistas são em geral mais opacos, na medida em que podem ser descritos apenas em termos muito gerais (como especificar o algoritmo de aprendizagem, o número de unidades, etc.) ou em termos de baixo nível inúteis. Nesse sentido, os modelos conexionistas podem instanciar e, portanto, fornecer evidências para uma ampla teoria da cognição (ou seja, o conexionismo), sem representar uma teoria útil do processo particular que está sendo modelado. Nesse sentido, o debate pode ser considerado como refletindo, em certa medida, uma mera diferença no nível de análise em que determinadas teorias são enquadradas. Alguns pesquisadores sugerem que a lacuna de análise é consequência de mecanismos conexionistas que dão origem a fenômenos emergentes que podem ser descritos em termos computacionais.

A recente popularidade dos sistemas dinâmicos na filosofia da mente acrescentou uma nova perspectiva ao debate; alguns autores agora argumentam que qualquer divisão entre conexionismo e computacionalismo é mais conclusivamente caracterizada como uma divisão entre computacionalismo e sistemas dinâmicos .

Em 2014, Alex Graves e outros da DeepMind publicaram uma série de artigos descrevendo uma nova estrutura de Rede Neural Profunda chamada Máquina de Turing Neural, capaz de ler símbolos em uma fita e armazenar símbolos na memória. Redes relacionais, outro módulo Deep Network publicado pela DeepMind, são capazes de criar representações semelhantes a objetos e manipulá-las para responder a perguntas complexas. Redes relacionais e máquinas de Turing Neural são evidências adicionais de que o conexionismo e o computacionalismo não precisam estar em conflito.

Veja também

Notas

Referências

  • Rumelhart, DE, JL McClelland and the PDP Research Group (1986). Processamento Paralelo Distribuído: Explorações na Microestrutura da Cognição. Volume 1: Foundations , Cambridge, Massachusetts: MIT Press , ISBN  978-0262680530
  • McClelland, JL, DE Rumelhart and the PDP Research Group (1986). Processamento Paralelo Distribuído: Explorações na Microestrutura da Cognição. Volume 2: Modelos psicológicos e biológicos , Cambridge, Massachusetts: MIT Press, ISBN  978-0262631105
  • Pinker, Steven e Mehler, Jacques (1988). Connections and Symbols , Cambridge MA: MIT Press, ISBN  978-0262660648
  • Jeffrey L. Elman, Elizabeth A. Bates, Mark H. Johnson, Annette Karmiloff-Smith, Domenico Parisi, Kim Plunkett (1996). Rethinking Innateness: A connectionist on development , Cambridge MA: MIT Press, ISBN  978-0262550307
  • Marcus, Gary F. (2001). The Algebraic Mind: Integrating Connectionism and Cognitive Science (Learning, Development, and Conceptual Change) , Cambridge, Massachusetts: MIT Press, ISBN  978-0262632683
  • David A. Medler (1998). "Uma breve história do conexionismo" (PDF) . Pesquisas de computação neural . 1 : 61–101.

links externos

Ouça este artigo ( 19 minutos )
Ícone falado da Wikipedia
Este arquivo de áudio foi criado a partir de uma revisão deste artigo datada de 26 de novembro de 2011 e não reflete as edições subsequentes. ( 2011-11-26 )