Como os computadores ajudam os biólogos a quebrar os segredos da vida

Uma vez que o genoma humano de três bilhões de letras foi sequenciado, nós nos apressamos para um novo “OmicsEra da pesquisa biológica. Os cientistas estão agora correndo para sequenciar os genomas (todos os genes) ou proteomas (todas as proteínas) de vários organismos - e no processo estão compilando grandes quantidades de dados.

Por exemplo, um cientista pode usar ferramentas “ômicas”, como o sequenciamento de DNA, para descobrir quais genes humanos são afetados por uma infecção viral da gripe. Mas como o genoma humano tem pelo menos os genes 25,000 no total, o número de genes alterados, mesmo sob um cenário tão simples, pode estar na casa dos milhares.

Embora o sequenciamento e a identificação de genes e proteínas lhes dê um nome e um lugar, isso não nos diz o que eles fazem. Precisamos entender como esses genes, proteínas e todas as coisas entre interagir em diferentes processos biológicos.

Hoje, até mesmo experimentos básicos geram grandes volumes de dados, e um dos maiores desafios é desvendar os resultados relevantes do ruído de fundo. Computadores estão nos ajudando a superar essa montanha de dados; mas eles podem até dar um passo além, nos ajudando a criar hipóteses científicas e explicar novos processos biológicos. A ciência de dados, em essência, permite pesquisas biológicas de ponta.

Computadores para o resgate

Os computadores são qualificados exclusivamente para lidar com conjuntos de dados massivos, já que eles podem acompanhar simultaneamente todas as condições importantes necessárias para a análise.


innerself assinar gráfico


Embora eles poderia refletir erros humanos Com os quais estão programados, os computadores podem lidar eficientemente com grandes quantidades de dados e não estão inclinados para o familiar, como os investigadores humanos podem ser.

Os computadores também podem ser ensinados a procurar padrões específicos em conjuntos de dados experimentais - um conceito denominado aprendizado de máquina, proposto primeiramente nos 1950s, mais notavelmente pelo matemático. Alan Turing. Um algoritmo que aprendeu os padrões de conjuntos de dados pode, então, ser solicitado a fazer previsões com base em novos dados que nunca foram encontrados antes.

O aprendizado de máquina revolucionou a pesquisa biológica, já que agora podemos utilizar grandes conjuntos de dados e pedir que os computadores ajudem a entender a biologia subjacente.

Treinando Computadores para Pensar Simulando Processos Cerebrais

Usamos um tipo interessante de aprendizado de máquina, chamado rede neural artificial (RNA), em nosso próprio laboratório. Cérebros são redes altamente interconectadas de neurônios, que se comunicam enviando impulsos elétricos através da fiação neural. Da mesma forma, uma RNA simula no computador uma rede de neurônios quando eles ligam e desligam em resposta a sinais de outros neurônios.

Ao aplicar algoritmos que imitam os processos dos neurônios reais, podemos fazer com que a rede aprenda a resolver muitos tipos de problemas. O Google usa uma poderosa ANN para o seu agora famoso Projeto Deep Dream onde os computadores podem classificar e até criar imagens.

Nosso grupo estuda o sistema imunológico, com o objetivo de descobrindo novas terapias para o câncer. Usamos modelos computacionais de RNA para estudar códigos de proteína de superfície curta que nossas células imunes usam para determinar se algo é estranho ao nosso corpo e, portanto, deve ser atacado. Se entendermos mais sobre como nossas células imunológicas (como as células T) diferenciam entre células normais / próprias e anormais / estranhas, podemos projetar melhores vacinas e terapias.

Nós vasculhamos catálogos publicamente disponíveis de milhares de códigos de proteínas identificados pelos pesquisadores ao longo dos anos. Dividimos esse grande conjunto de dados em dois: códigos normais de autoproteínas derivados de células humanas saudáveis ​​e códigos anormais de proteínas derivados de vírus, tumores e bactérias. Então nos voltamos para uma rede neural artificial desenvolvida em nosso laboratório.

Uma vez que nós alimentamos os códigos de proteína na RNA, o algoritmo foi capaz de identificar diferenças fundamentais entre códigos de proteínas normais e anormais. Seria difícil para as pessoas rastrearem esses tipos de fenômenos biológicos - existem literalmente milhares desses códigos de proteínas para analisar no grande conjunto de dados. É preciso uma máquina para resolver esses problemas complexos e definir uma nova biologia.

Previsões Via Machine Learning

A aplicação mais importante do aprendizado de máquina em biologia é sua utilidade em fazer previsões baseadas em big data. As previsões baseadas em computador podem dar sentido ao big data, testar hipóteses e economizar tempo e recursos preciosos.

Por exemplo, em nosso campo de biologia de células T, saber quais códigos de proteína viral direcionar é essencial no desenvolvimento de vacinas e tratamentos. Mas existem tantos códigos de proteínas individuais de qualquer vírus que é muito caro e difícil testar experimentalmente cada um deles.

Em vez disso, treinamos a rede neural artificial para ajudar a máquina a aprender todas as características bioquímicas importantes dos dois tipos de códigos de proteína - normal versus anormal. Então pedimos ao modelo para “prever” quais novos códigos de proteína viral se assemelham à categoria “anormal” e poderiam ser vistos pelas células T e, portanto, pelo sistema imunológico. Nós testamos o modelo de RNA em diferentes proteínas de vírus que nunca foram estudadas antes.

Com certeza, como um estudante diligente ansioso para agradar o professor, a rede neural foi capaz de identificar com precisão a maioria desses códigos de proteínas ativadoras de células T dentro desse vírus. Nós também testamos experimentalmente os códigos de proteína que ele sinalizou para validar a precisão das previsões da RNA. Usando este modelo de rede neural, um cientista pode prediga rapidamente todos os importantes códigos curtos de proteínas de um vírus nocivo e testá-los para desenvolver um tratamento ou uma vacina, em vez de adivinhá-los e testá-los individualmente.

Implementando Aprendizado de Máquina Sabiamente

Graças ao aprimoramento constante, o big data science e o machine learning estão se tornando cada vez mais indispensáveis ​​para qualquer tipo de pesquisa científica. As possibilidades de usar computadores para treinar e prever em biologia são quase infinitas. De descobrir qual combinação de biomarcadores são os melhores para detectar uma doença e entender por que alguns pacientes se beneficiam de um tratamento específico contra o câncerA mineração de grandes conjuntos de dados usando computadores tornou-se uma rota valiosa para a pesquisa.

Claro, existem limitações. O maior problema da ciência de big data são os dados em si. Se os dados obtidos pelos estudos de mé- dica forem defeituosos, ou com base na ciência de má qualidade, as máquinas serão treinadas em dados ruins - levando a previsões ruins. O aluno é tão bom quanto o professor.

Porque os computadores não são sencientes (ainda), eles podem, em sua busca por padrões, chegar a eles mesmo quando não existem, dando origem novamente a dados ruins e à ciência não reproduzível.

E alguns pesquisadores levantaram preocupações sobre computadores se tornarem caixas pretas de dados para cientistas que não compreendem claramente as manipulações e maquinações que realizam em seu nome.

Apesar desses problemas, os benefícios do big data e das máquinas continuarão a torná-los valiosos parceiros na pesquisa científica. Com ressalvas em mente, estamos preparados para entender a biologia através dos olhos de uma máquina.

Sobre o autorA Conversação

Sri Krishna, PhD Candidate, Design Biológico, Escola de Engenharia Biológica e de Sistemas de Saúde, Arizona State University e Diego Chowell, Doutorando em Matemática Aplicada, Arizona State University

Este artigo foi originalmente publicado em A Conversação. Leia o artigo original.


Livro relacionados:

at InnerSelf Market e Amazon