Shutterstock/Valentyn640

Em 1956, durante uma viagem de um ano a Londres e com pouco mais de 20 anos, o matemático e biólogo teórico Jack D. Cowan visitou Wilfred Taylor e seu estranho novo “máquina de aprendizagem”. Ao chegar, ficou perplexo com o “enorme banco de aparatos” que o confrontava. Cowan só podia ficar parado e observar “a máquina fazendo seu trabalho”. O que parecia estar fazendo era executar um “esquema de memória associativa” – parecia ser capaz de aprender como encontrar conexões e recuperar dados.

Podem ter parecido blocos de circuitos desajeitados, soldados uns aos outros à mão numa massa de fios e caixas, mas o que Cowan estava a testemunhar era uma forma analógica inicial de uma rede neural – um precursor da inteligência artificial mais avançada de hoje, incluindo a muito discutido ChatGPT com sua capacidade de gerar conteúdo escrito em resposta a quase qualquer comando. A tecnologia subjacente do ChatGPT é uma rede neural.

Enquanto Cowan e Taylor observavam a máquina funcionar, eles realmente não tinham ideia de como ela estava conseguindo realizar essa tarefa. A resposta ao misterioso cérebro-máquina de Taylor pode ser encontrada algures nos seus “neurónios analógicos”, nas associações feitas pela sua memória de máquina e, mais importante, no facto de o seu funcionamento automatizado não poder ser totalmente explicado. Levaria décadas para que estes sistemas encontrassem o seu propósito e para que esse poder fosse desbloqueado.

O termo rede neural incorpora uma ampla gama de sistemas, ainda que centralmente, de acordo com a IBM, essas “redes neurais – também conhecidas como redes neurais artificiais (RNAs) ou redes neurais simuladas (SNNs) – são um subconjunto do aprendizado de máquina e estão no centro dos algoritmos de aprendizado profundo”. Crucialmente, o próprio termo e a sua forma e “estrutura são inspirados no cérebro humano, imitando a forma como os neurónios biológicos sinalizam uns para os outros”.

Pode ter havido alguma dúvida residual sobre seu valor em seus estágios iniciais, mas com o passar dos anos, a moda da IA ​​mudou firmemente para as redes neurais. Eles são agora frequentemente entendidos como o futuro da IA. Eles têm grandes implicações para nós e para o que significa ser humano. Nós ouvimos ecos dessas preocupações recentemente com apelos para pausar novos desenvolvimentos de IA por um período de seis meses para garantir a confiança nas suas implicações.


innerself assinar gráfico


Certamente seria um erro descartar a rede neural como sendo apenas novos dispositivos brilhantes e atraentes. Eles já estão bem estabelecidos em nossas vidas. Alguns são poderosos em sua praticidade. Já em 1989, uma equipe liderada por Yann LeCun, da AT&T Bell Laboratories, usou técnicas de retropropagação para treinar um sistema para reconhecer códigos postais manuscritos. A recente anúncio da Microsoft O facto de as pesquisas do Bing serem alimentadas por IA, tornando-o o seu “copiloto para a web”, ilustra como as coisas que descobrimos e como as compreendemos serão cada vez mais um produto deste tipo de automação.

Baseando-se em vastos dados para encontrar padrões, a IA pode igualmente ser treinada para fazer coisas como reconhecimento de imagens em alta velocidade – resultando na sua incorporação em reconhecimento facial, por exemplo. Essa capacidade de identificar padrões levou a muitas outras aplicações, como previsão dos mercados de ações.

As redes neurais também estão mudando a forma como interpretamos e nos comunicamos. Desenvolvido pelo interessante título Equipe Cérebro do Google, Traduz Google é outra aplicação proeminente de uma rede neural.

Você também não gostaria de jogar xadrez ou Shogi com um. Sua compreensão das regras e sua lembrança de estratégias e de todos os movimentos registrados significam que eles são excepcionalmente bons em jogos (embora ChatGPT pareça luta com Wordle). Os sistemas que estão incomodando os jogadores humanos de Go (Go é um jogo de estratégia notoriamente complicado) e os grandes mestres de xadrez são feito a partir de redes neurais.

Mas o seu alcance vai muito além destes casos e continua a expandir-se. Uma busca de patentes restrita apenas à menção da frase exata “redes neurais” produz 135,828 resultados. Com esta expansão rápida e contínua, as chances de conseguirmos explicar completamente a influência da IA ​​podem tornar-se cada vez menores. Estas são as questões que venho examinando em minha pesquisa e meu novo livro sobre pensamento algorítmico.

Camadas misteriosas de 'incognoscibilidade'

Olhar para trás, para a história das redes neurais, diz-nos algo importante sobre as decisões automatizadas que definem o nosso presente ou aquelas que terão um impacto possivelmente mais profundo no futuro. A sua presença também nos diz que é provável que compreendamos ainda menos as decisões e os impactos da IA ​​ao longo do tempo. Esses sistemas não são simplesmente caixas pretas, não são apenas partes ocultas de um sistema que não podem ser vistas ou compreendidas.

É algo diferente, algo enraizado nos objectivos e na concepção destes próprios sistemas. Há uma longa busca pelo inexplicável. Quanto mais opaco, mais autêntico e avançado será o sistema. Não se trata apenas de os sistemas se tornarem mais complexos ou de o controlo da propriedade intelectual limitar o acesso (embora estes sejam parte disso). Em vez disso, quer dizer que o ethos que os impulsiona tem um interesse particular e enraizado na “incognoscibilidade”. O mistério está até codificado na própria forma e discurso da rede neural. Eles vêm com camadas profundamente empilhadas – daí a expressão aprendizagem profunda – e dentro dessas profundezas estão as “camadas ocultas” que soam ainda mais misteriosas. Os mistérios desses sistemas estão bem abaixo da superfície.

Há uma boa probabilidade de que quanto maior for o impacto que a inteligência artificial venha a ter nas nossas vidas, menos compreenderemos como ou porquê. Hoje há um forte impulso para a IA que é explicável. Queremos saber como funciona e como chega a decisões e resultados. A UE está tão preocupada com os “riscos potencialmente inaceitáveis” e até com as aplicações “perigosas” que está actualmente a avançar uma nova lei de IA pretendia estabelecer um “padrão global” para “o desenvolvimento de inteligência artificial segura, confiável e ética”.

Essas novas leis serão baseadas na necessidade de explicabilidade, exigindo que “para sistemas de IA de alto risco, os requisitos de dados de alta qualidade, documentação e rastreabilidade, transparência, supervisão humana, precisão e robustez são estritamente necessários para mitigar os riscos para os direitos fundamentais e a segurança colocados pela IA”. Não se trata apenas de coisas como automóveis autónomos (embora os sistemas que garantem a segurança se enquadrem na categoria de IA de alto risco da UE), mas também é preocupante que surjam no futuro sistemas que terão implicações para os direitos humanos.

Isto faz parte de apelos mais amplos à transparência na IA, para que as suas atividades possam ser verificadas, auditadas e avaliadas. Outro exemplo seria o da Royal Society briefing político sobre IA explicável no qual salientam que “os debates políticos em todo o mundo veem cada vez mais apelos a alguma forma de explicabilidade da IA, como parte dos esforços para incorporar princípios éticos na concepção e implementação de sistemas habilitados para IA”.

Mas a história das redes neurais diz-nos que é provável que nos afastemos ainda mais desse objectivo no futuro, em vez de nos aproximarmos dele.

Inspirado no cérebro humano

Essas redes neurais podem ser sistemas complexos, mas possuem alguns princípios básicos. Inspirados no cérebro humano, procuram copiar ou simular formas de pensamento biológico e humano. Em termos de estrutura e design são, como A IBM também explica, composto por “camadas de nós, contendo uma camada de entrada, uma ou mais camadas ocultas e uma camada de saída”. Dentro disso, “cada nó, ou neurônio artificial, se conecta a outro”. Como necessitam de inputs e informações para criar resultados, “dependem de dados de formação para aprender e melhorar a sua precisão ao longo do tempo”. Estes detalhes técnicos são importantes, mas também o desejo de modelar estes sistemas com base nas complexidades do cérebro humano.

Compreender a ambição por detrás destes sistemas é vital para compreender o que estes detalhes técnicos passaram a significar na prática. Em um Entrevista 1993, o cientista de redes neurais Teuvo Kohonen concluiu que um sistema “auto-organizado” “é o meu sonho”, operando “algo parecido com o que o nosso sistema nervoso está fazendo instintivamente”. Como exemplo, Kohonen imaginou como um sistema “auto-organizado”, um sistema que monitorizasse e gerisse a si mesmo, “poderia ser usado como um painel de monitorização para qualquer máquina… em cada avião, avião a jacto, ou cada central nuclear, ou cada carro". Isto, pensou ele, significaria que no futuro “poderíamos ver imediatamente em que condições o sistema se encontra”.

O objetivo geral era ter um sistema capaz de se adaptar ao seu entorno. Seria instantâneo e autônomo, operando no estilo do sistema nervoso. Esse era o sonho, ter sistemas que pudessem funcionar sozinhos sem a necessidade de muita intervenção humana. As complexidades e incógnitas do cérebro, do sistema nervoso e do mundo real logo viriam a informar o desenvolvimento e o design das redes neurais.

'Algo suspeito nisso'

Mas voltando a 1956 e àquela estranha máquina de aprendizagem, foi a abordagem prática que Taylor adotou ao construí-la que imediatamente chamou a atenção de Cowan. Ele claramente se esforçou para montar os pedaços. Taylor, Cowan observou durante uma entrevista de sua autoria sobre a história desses sistemas, “não fez isso pela teoria e não fez isso no computador”. Em vez disso, com as ferramentas em mãos, ele “realmente construiu o hardware”. Era uma coisa material, uma combinação de partes, talvez até uma engenhoca. E foi “tudo feito com circuitos analógicos”, levando Taylor, observa Cowan, “vários anos para construí-lo e brincar com ele”. Um caso de tentativa e erro.

Compreensivelmente, Cowan queria entender o que estava vendo. Ele tentou fazer com que Taylor lhe explicasse essa máquina de aprendizagem. Os esclarecimentos não vieram. Cowan não conseguiu que Taylor lhe descrevesse como a coisa funcionava. Os neurônios analógicos permaneceram um mistério. O problema mais surpreendente, pensou Cowan, era que Taylor “realmente não entendia o que estava acontecendo”. Esta não foi apenas uma falha momentânea na comunicação entre os dois cientistas com especialidades diferentes, foi mais do que isso.

Em um entrevista de meados da década de 1990, pensando na máquina de Taylor, Cowan revelou que “até hoje, nos artigos publicados, não se consegue compreender bem como funciona”. Esta conclusão sugere como o desconhecido está profundamente enraizado nas redes neurais. A inexplicabilidade destes sistemas neurais tem estado presente desde os estágios fundamentais e de desenvolvimento que remontam a quase sete décadas.

Este mistério permanece até hoje e pode ser encontrado nas formas avançadas de IA. A incompreensibilidade do funcionamento das associações feitas pela máquina de Taylor levou Cowan a perguntar-se se havia “algo suspeito nisso”.

Raízes longas e emaranhadas

Cowan referiu-se à sua breve visita a Taylor quando questionado sobre a recepção de seu próprio trabalho alguns anos depois. Na década de 1960, as pessoas eram, refletiu Cowan, “um pouco lentas para entender o sentido de uma rede neural analógica”. Isto ocorreu apesar, lembra Cowan, de o trabalho de Taylor na década de 1950 sobre a “memória associativa” ser baseado em “neurônios analógicos”. O especialista em sistemas neurais ganhador do Prêmio Nobel, Leon N. Cooper, concluiu que os desenvolvimentos em torno da aplicação do modelo cerebral na década de 1960 foram considerados “como um dos mistérios profundos”. Devido a esta incerteza, permaneceu um ceticismo sobre o que uma rede neural poderia alcançar. Mas as coisas lentamente começaram a mudar.

Há cerca de 30 anos, o neurocientista Walter J. Freeman, que ficou surpreso com o “notável” de aplicações encontradas para redes neurais, já comentava o fato de não as ver como “um tipo de máquina fundamentalmente novo”. Eles evoluíram lentamente, com a tecnologia surgindo primeiro e depois sendo encontradas aplicações subsequentes para ela. Isso levou tempo. Na verdade, para encontrar as raízes da tecnologia de redes neurais, poderíamos voltar ainda mais longe do que a visita de Cowan à misteriosa máquina de Taylor.

O cientista de redes neurais James Anderson e o jornalista científico Edward Rosenfeld notaram que os antecedentes das redes neurais remontam à década de 1940 e a algumas tentativas iniciais de, como descrevem, “compreender os sistemas nervosos humanos e construir sistemas artificiais que atuem como nós, pelo menos um pouco”. E assim, na década de 1940, os mistérios do sistema nervoso humano também se tornaram os mistérios do pensamento computacional e da inteligência artificial.

Resumindo esta longa história, o escritor de ciência da computação Larry Hardesty apontou que a aprendizagem profunda na forma de redes neurais “está entrando e saindo de moda há mais de 70 anos”. Mais especificamente, acrescenta, estas “redes neurais foram propostas pela primeira vez em 1944 por Warren McCulloch e Walter Pitts, dois investigadores da Universidade de Chicago que se mudaram para o MIT em 1952 como membros fundadores do que às vezes é chamado de primeiro departamento de ciências cognitivas”.

Em outros lugares, 1943 às vezes é a data indicada como o primeiro ano da tecnologia. De qualquer forma, durante cerca de 70 anos, os relatos sugerem que as redes neurais entraram e saíram de moda, muitas vezes negligenciadas, mas por vezes tomando conta e passando para aplicações e debates mais convencionais. A incerteza persistiu. Esses primeiros desenvolvedores frequentemente descrevem a importância de sua pesquisa como sendo negligenciada, até que ela encontrou seu propósito, muitas vezes anos e às vezes décadas depois.

Passando da década de 1960 até o final da década de 1970, podemos encontrar mais histórias sobre as propriedades desconhecidas desses sistemas. Mesmo assim, depois de três décadas, a rede neural ainda precisava encontrar um sentido de propósito. David Rumelhart, que tinha formação em psicologia e foi coautor de um conjunto de livros publicados em 1986 que mais tarde chamariam a atenção novamente para as redes neurais, viu-se colaborando no desenvolvimento de redes neurais. com seu colega Jay McClelland.

Além de serem colegas, eles também se encontraram recentemente numa conferência em Minnesota, onde a palestra de Rumelhart sobre “compreensão de histórias” provocou alguma discussão entre os delegados.

Após essa conferência, McClelland voltou com uma ideia sobre como desenvolver uma rede neural que pudesse combinar modelos para ser mais interativa. O que importa aqui é A lembrança de Rumelhart das “horas e horas e horas mexendo no computador”.

Sentamos e fizemos tudo isso no computador e construímos esses modelos de computador, mas simplesmente não os entendemos. Não entendíamos por que eles funcionavam ou por que não funcionavam ou o que havia de crítico neles.

Assim como Taylor, Rumelhart se viu mexendo no sistema. Eles também criaram uma rede neural funcional e, o que é crucial, também não tinham certeza de como ou por que ela funcionava daquela maneira, aparentemente aprendendo com os dados e encontrando associações.

Imitando o cérebro – camada após camada

Você já deve ter notado que, ao discutir as origens das redes neurais, a imagem do cérebro e a complexidade que isso evoca nunca estão longe. O cérebro humano funcionou como uma espécie de modelo para esses sistemas. Nas fases iniciais, em particular, o cérebro – ainda uma das grandes incógnitas – tornou-se um modelo de como a rede neural poderia funcionar.

Portanto, estes novos sistemas experimentais foram modelados com base em algo cujo funcionamento era em grande parte desconhecido. O engenheiro de neurocomputação Carver Mead falou de forma reveladora da concepção de um “iceberg cognitivo” que ele achou particularmente atraente. É apenas a ponta do iceberg da consciência de que temos consciência e que é visível. A escala e a forma do resto permanecem desconhecidas abaixo da superfície.

Em 1998, James Anderson, que já trabalhava há algum tempo com redes neurais, observou que quando se trata de pesquisas sobre o cérebro “nossa principal descoberta parece ser a consciência de que realmente não sabemos o que está acontecendo”.

Em um relato detalhado no Financial Times em 2018, o jornalista de tecnologia Richard Waters observou como as redes neurais “são modeladas com base em uma teoria sobre como o cérebro humano funciona, passando dados através de camadas de neurônios artificiais até que surja um padrão identificável”. Isto cria um problema indireto, propôs Waters, pois “ao contrário dos circuitos lógicos empregados em um programa de software tradicional, não há como rastrear esse processo para identificar exatamente por que um computador apresenta uma resposta específica”. A conclusão de Waters é que estes resultados não podem ser ignorados. A aplicação deste tipo de modelo do cérebro, que leva os dados através de muitas camadas, significa que a resposta não pode ser facilmente reconstituída. As múltiplas camadas são uma boa parte da razão para isso.

Mais difícil também observou que estes sistemas são “vagamente modelados no cérebro humano”. Isto traz uma vontade de construir cada vez mais complexidade de processamento, a fim de tentar combinar com o cérebro. O resultado deste objectivo é uma rede neural que “consiste em milhares ou mesmo milhões de nós de processamento simples que estão densamente interligados”. Os dados se movem através desses nós em apenas uma direção. Hardesty observou que um “nó individual pode estar conectado a vários nós na camada abaixo dele, da qual recebe dados, e a vários nós na camada acima dele, para os quais envia dados”.

Os modelos do cérebro humano fizeram parte de como essas redes neurais foram concebidas e projetadas desde o início. Isto é particularmente interessante quando consideramos que o próprio cérebro era um mistério da época (e em muitos aspectos ainda é).

'Adaptação é o jogo inteiro'

Cientistas como Mead e Kohonen queriam criar um sistema que pudesse realmente se adaptar ao mundo em que se encontrava. Responderia às suas condições. Mead deixou claro que o valor das redes neurais era que elas poderiam facilitar esse tipo de adaptação. Na altura, e reflectindo sobre esta ambição, Hidromel adicionado que produzir adaptação “é o jogo inteiro”. Esta adaptação é necessária, pensou ele, “devido à natureza do mundo real”, que concluiu ser “muito variável para fazer algo absoluto”.

Este problema precisava de ser levado em conta, especialmente porque, pensava ele, isto era algo “que o sistema nervoso descobriu há muito tempo”. Estes inovadores não estavam apenas a trabalhar com uma imagem do cérebro e das suas incógnitas, mas também a combinavam com uma visão do “mundo real” e das incertezas, incógnitas e variabilidade que isso acarreta. Os sistemas, pensava Mead, precisavam ser capazes de responder e se adaptar às circunstâncias sem instrução.

Mais ou menos na mesma época, na década de 1990, Stephen Grossberg – um especialista em sistemas cognitivos que trabalha em matemática, psicologia e engenharia biomédica – também argumentou que a adaptação seria o passo importante a longo prazo. Grossberg, enquanto trabalhava na modelagem de redes neurais, pensou consigo mesmo que tudo se tratava “de como os sistemas biológicos de medição e controle são projetados para se adaptarem de forma rápida e estável em tempo real a um mundo em rápida flutuação”. Como vimos anteriormente com o “sonho” de Kohonen de um sistema “auto-organizado”, a noção do “mundo real” torna-se o contexto no qual a resposta e a adaptação estão a ser codificadas nestes sistemas. A forma como esse mundo real é compreendido e imaginado molda, sem dúvida, a forma como estes sistemas são concebidos para se adaptarem.

Camadas ocultas

À medida que as camadas se multiplicaram, o aprendizado profundo atingiu novas profundidades. A rede neural é treinada usando dados de treinamento que, Hardesty, “é alimentado na camada inferior – a camada de entrada – e passa pelas camadas sucessivas, sendo multiplicado e somado de maneiras complexas, até que finalmente chega, radicalmente transformado, à camada de saída”. Quanto mais camadas, maior será a transformação e maior será a distância da entrada à saída. O desenvolvimento de Unidades de Processamento Gráfico (GPUs), em jogos por exemplo, acrescentou Hardesty, “permitiu que as redes de uma camada da década de 1960 e as redes de duas a três camadas da década de 1980 florescessem em dez, 15 ou mesmo 50 redes de camadas de hoje”.

As redes neurais estão se aprofundando. Na verdade, é a esta adição de camadas, segundo Hardesty, que é “a que se refere o 'profundo' em 'aprendizado profundo'”. Isto é importante, propõe ele, porque “atualmente, a aprendizagem profunda é responsável pelos sistemas de melhor desempenho em quase todas as áreas de investigação em inteligência artificial”.

Mas o mistério fica ainda mais profundo. À medida que as camadas das redes neurais se acumulam, sua complexidade aumenta. Também levou ao crescimento do que chamamos de “camadas ocultas” nessas profundezas. A discussão sobre o número ideal de camadas ocultas em uma rede neural está em andamento. O teórico da mídia Beatrice Fazi escreveu que “devido à forma como uma rede neural profunda opera, contando com camadas neurais ocultas imprensadas entre a primeira camada de neurônios (a camada de entrada) e a última camada (a camada de saída), as técnicas de aprendizagem profunda são frequentemente opacas ou ilegíveis até mesmo para o programadores que originalmente os configuraram”.

À medida que as camadas aumentam (incluindo as camadas ocultas), tornam-se ainda menos explicáveis ​​– mesmo, como se verifica, mais uma vez, para aqueles que as criam. Fazendo uma afirmação semelhante, a proeminente e interdisciplinar pensadora das novas mídias Katherine Hayles também observou que há limites para “o quanto podemos saber sobre o sistema, um resultado relevante para a 'camada oculta' em redes neurais e algoritmos de aprendizagem profunda”.

Perseguindo o inexplicável

Tomados em conjunto, estes longos desenvolvimentos fazem parte daquilo que o sociólogo da tecnologia Taina Bucher chamou de “problemática do desconhecido”. Expandindo sua influente pesquisa sobre conhecimento científico no campo da IA, Harry Collins apontou que o objetivo das redes neurais é que elas possam ser produzidas por um ser humano, pelo menos inicialmente, mas “uma vez escrito, o programa vive sua própria vida, por assim dizer; sem grande esforço, exatamente como o programa funciona pode permanecer misterioso”. Isto tem ecos daqueles sonhos de longa data de um sistema auto-organizado.

Eu acrescentaria a isto que o desconhecido e talvez até o incognoscível têm sido considerados uma parte fundamental destes sistemas desde os seus primeiros estágios. Há uma boa probabilidade de que quanto maior for o impacto que a inteligência artificial venha a ter nas nossas vidas, menos compreenderemos como ou porquê.

Mas isso não agrada a muitos hoje. Queremos saber como a IA funciona e como ela chega às decisões e resultados que nos impactam. À medida que os desenvolvimentos na IA continuam a moldar o nosso conhecimento e compreensão do mundo, o que descobrimos, como somos tratados, como aprendemos, consumimos e interagimos, este impulso para compreender aumentará. Quando se trata de IA explicável e transparente, a história das redes neurais diz-nos que é provável que nos afastemos ainda mais desse objetivo no futuro, em vez de nos aproximarmos dele.

Cerveja DavidProfessor de Sociologia, University of York

Este artigo foi republicado a partir de A Conversação sob uma licença Creative Commons. Leia o artigo original.