Em um artigo da Business Insider o IBM Watson é apresentado com um potencial de ser no futuro o melhor médico do mundo. Após ser “treinado” com dezenas de livros médicos, todos os artigos científicos da PubMed e Medline e milhares de registros de pacientes do Memorial Sloan Kettering, totalizando mais de 2 milhões de páginas de texto, seria o Dr. Watson capaz de realizar diagnósticos médicos de forma mais precisa do que os realizados por médicos humanos?
Quem já passou por uma experiência na qual vamos ao médico, este pede alguns exames, e ao voltarmos com os resultados o diagnóstico é preocupante? Em geral, o próximo passo é procurar uma 2ª opinião mas e se a 2ª opinião for divergente da 1ª? Devemos então procurar uma 3ª opinião para desempatar? E se a 3ª opinião for divergente das duas primeiras? Sim, porque não existem apenas duas alternativas.
O que muito me incomoda nessa situação é a recomendação de que devemos procurar uma 2ª ou mesmo uma 3ª opinião. No fim, o objetivo é encontrar um médico que tenha experiência em um caso similar ao vivido pelo paciente, e portanto, seja mais confiável em relação ao seu diagnóstico. Será que não existe uma ferramenta na qual as informações sobre os resultados dos exames dos pacientes, diagnóticos e tratamentos possam ser compartilhadas entre todos os médicos? E se além de compartilhar esses dados, essa ferramenta auxiliasse na análise das relações entre os resultados dos exames e os diagnósticos realizados por humanos?
Inteligência Artificial
A utilização de Inteligência Artificial na área de saúde vem se intensificando nos últimos anos, e a busca não é apenas pela maior acurácia nos diagnósticos, mas também por uma maior consistência. No artigo “Artificial Intelligence in Healthcare“, publicado pela revista Nature, é apresentado um exemplo de diagnóstico de Retinopatia Diabética (RD) realizado por Inteligência Artificial. O sistema foi desenvolvido em parceria com um time de pesquisa do Google, e após ser treinado com milhares de imagens, apresentou sensibilidade e especificidade equivalentes a de um médico humano.
Um sistema como esse desenvolvido pelo Google utiliza uma técnica conhecida como Deep Learning, ou Aprendizagem Profunda. Ele é constituído por uma Rede Neural Artificial Convolucional (CNN — Convolutional Neural Network) com muitas camadas, por isso o termo “profunda”, seguida de uma Rede Neural Artificial Multilayer Perceptron (MLP). Essas diversas camadas são capazes de extrair as características mais relevantes das imagens e realizar sua classificação em categorias, como por exemplo: “possui a doença” ou “não possui a doença”.
A extração das características é algo bastante interessante em uma CNN. Imagine que ao invés de olhar a imagem inteira de uma vez você tivesse um papel cartão com um furo quadrado entre a imagem e seus olhos, de forma que você conseguisse enxergar apenas uma pequena região de cada vez. Esse furo, chamado de filtro, é na verdade uma matriz que percorre toda a imagem multiplicando seus valores pelos valores dos pixels. Em uma CNN é comum ter centenas de filtros, eventualmente de tamanhos diferentes, e durante o treinamento, cada um deles se especializará em detectar um padrão específico, ou uma característica da imagem.
As características extraídas são então utilizadas como input da rede neural MLP. Essa rede é responsável por fazer o mapeamento entre as características extraídas e os rótulos fornecidos (só lembrando, os rótulos são a resposta esperada, e nesse caso correspondem a “possui a doença” e “não possui a doença”).
Como o Deep Learning funciona na prática?
Em temas muito abstratos, um exemplo é sempre bom! Vamos supor que as imagens dos exames de pessoas que tem a doença possuam círculos enquanto as imagens dos exames de pessoas que não tem a doença possuam quadrados. Durante o processo de treinamento alguns filtros da CNN vão se especializar em detectar traços curvilíneos enquanto outros vão se especializar em detectar traços retos. Assim, as características extraídas serão principalmente curvas e retas. A rede neural MLP fará então o mapeamento de forma que imagens que contém curvas indicam que o paciente “possui a doença” enquanto as imagens que contém retas indicam que o paciente “não possui a doença”.
Existem diversas vantagens de métodos como o descrito anteriormente, entre elas as principais são:
Precisão na classificação: desde que exista uma grande quantidade de dados para a realização do treinamento, as redes neurais profundas podem apresentar uma acurácia bastante elevada.
Consistência: uma mesma imagem apresentada a rede neural profunda diversas vezes terá sempre o mesmo resultado, algo que pode não ocorrer quando uma mesma imagem de raio-x é apresentada a diferentes médicos, por exemplo.
Dependência de conhecimento a priori: basta que estejam disponíveis as imagens com seus respectivos rótulos, ou seja, não é preciso indicar à rede neural profunda quais características da imagem ela deve considerar, isso é “aprendido” por ela durante o treinamento.
Custo de execução: depois de treinada, a rede neural profunda apresenta um custo bastante baixo para classificar uma nova imagem.
Com a coleta de dados mais estruturada, um volume de dados cada vez maior estará disponível para utilização de técnicas como Deep Learning. Dessa forma poderemos desenvolver mais sistemas como este, criado em parceria com o Google, e auxiliar os médicos a analisar os resultados dos exames de pacientes, compará-los com milhões de outros exames de sua base de dados, e fornecer um diagnóstico rápido, preciso e acessível a todos.