3 erros que podem comprometer seus projetos de Machine Learning

Por Redação em 07/08/2019

Algoritmos de Machine Learning podem gerar interpretações erradas. Saiba como detectar esses erros para evitar perder tempo e dinheiro nos projetos.

Principais destaques:

Machine Learning (ML) pode ser usado por vários setores para prever resultados e gerar insights;
Mas a competitividade para desenvolver projetos de ML pode atrapalhar na criação de algoritmos;
Cientista do Google elenca 3 erros que pesquisadores podem detectar para evitar que um projeto dê errado.

O Machine Learning pode impulsionar negócios de diversos setores com ferramentas e técnicas preditivas. Mas como toda tecnologia emergente, é possível que os projetos que envolvam o aprendizado de máquina não saiam como o planejado.

FIQUE POR DENTRO: Conheça 8 exemplos de Machine Learning que deram certo

Mas por que esses projetos podem dar errado? Para Patrick Riley, pesquisador sênior e engenheiro do Google Accelerated Science, há uma corrida corporativa para o desenvolvimento de soluções baseadas em Machine Learning.

Como consequência, os projetos baseados em ML não conseguem realizar um número adequado de experimentos e mantêm um padrão de revisão dos algoritmos inconsistentes. A concorrência também tem feito cientistas cortarem custos e pularem etapas no desenvolvimento de algoritmos.

Em um artigo para a revista científica Nature, Riley cita como exemplo um estudo de 1960. Naquela década, pesquisadores escreveram um algoritmo para detectar tanques de guerra em fotografias fornecidas pelos militares.

FIQUE POR DENTRO: 5 palestras do TED Talks para saber mais sobre Inteligência Artificial

O modelo desenvolvido encontrou os tanques com sucesso nas primeiras imagens. Mas falhou nos testes com fotos reais do campo por não considerar padrões como “tanques emergindo na luz da manhã ou sob as nuvens”, escreveu o pesquisador do Google.

É isso que, segundo Riley, vem acontecendo atualmente em alguns projetos. “Os pesquisadores que levarem o Machine Learning aos seus campos [de pesquisa] devem se familiarizar com alguns erros comuns e saber como detectá-los e evitá-los.”

As três armadilhas para evitar no Machine Learning

Projetos de Machine Learning podem resultar em falsos positivos e outros erros. Parte porque os algoritmos podem ser complicados e difíceis de serem inspecionados em todos os parâmetros ou em como os inputs (dados que irão alimentar o algoritmo) foram manipulados.

À medida que esses algoritmos começam a ser aplicados de forma mais ampla, há riscos de interpretações e conclusões erradas, resultando em desperdício de esforços científicos. Para evitar esse contratempo, Riley elenca três problemas com Machine Learning que foram superados no Google.

Divisão de dados de forma inadequada

Quando os modelos de Machine Learning são construídos, os profissionais dividem os dados em duas bases: “conjunto de treinamento” e “conjunto de testes”. O conjunto de treinamento vai ensinar esses modelos e o conjunto de testes vai avaliar o desempenho desses modelos.

O problema é que os profissionais dividem esses dados de forma aleatória. Na prática, são dados que podem ter sido alterados na forma de como eles foram coletados ou que apresentam várias opções de informações para coleta.

Dividi-los aleatoriamente pode levar a uma perda de tempo e dinheiro já que os dados escolhidos para treinar o algoritmo podem não ser o ideal para o projeto. É preciso de uma análise mais cuidadosa e tentar várias abordagens para extrair o máximo de informação possível desses dados.

“Em outras palavras, a pergunta que você deseja responder deve afetar a maneira como você divide seus dados”, aconselha.

FIQUE POR DENTRO: Viés de Inteligência Artificial pode prejudicar os negócios

Variações ocultas

Num experimento ideal, o cientista altera apenas as variáveis de interesse para extrair o melhor dos dados. No mundo real, a precisão do algoritmo se altera com o tempo por causa de diversos fatores não controlados por um humano.

O pesquisador pode criar um algoritmo que seja capaz de identificar essas variações não intencionais. Caso o algoritmo consiga realizar essa ação, é preciso desconfiar dos resultados previstos pelas variações de interesse.

Segundo Riley, é preciso usar vários modelos de Machine Learning para detectar variáveis inesperadas e ocultas. Se o resultado for muito próximo a essas variações ocultas e inesperadas, o expert do Google sugere como ação normalizar os dados (ou seja, “organizá-los”) e fazer mais testes.

Confundindo o objetivo

Algoritmos de Machine Learning requerem que seus criadores especifiquem a “função de perda”, ou seja, o número “aceitável” de erros que podem ser cometidos.

A função de perda pode considerar apenas o erro do próximo passo e não do projeto como um todo – que envolve vários passos. Isso ocorre porque os cientistas geralmente fixam em definir um objetivo “óbvio” em que os dados utilizados para ensinar a máquina são fáceis de serem utilizados.

Mas para Riley, os dados devem configurar o algoritmo para resolver um problema não previsto.

Pareceu estranho? O pesquisador do Google dá como exemplo um projeto para automatizar o diagnóstico de um tipo de cegueira causado pela diabetes.

Depois de reunir dados e solicitar diagnósticos de oftalmologistas a partir de algumas imagens, os pesquisadores tentaram prever, com apoio de Machine Learning, o que os médicos iriam falar quando vissem um exame de fundo de olho.

“Em primeiro lugar, os oftalmologistas frequentemente discordavam do diagnóstico. E em segundo lugar, o diagnóstico de uma única doença não era realmente o objetivo. Nós deveríamos era perguntar para a máquina se aquele paciente deveria procurar um médico”, explicou. “A partir daí nós expandimos o objetivo e passamos do diagnóstico de apenas uma doença para várias outras.”

Como evitar esses erros em projetos de Machine Learning?

O cientista do Google cita três maneiras para que as empresas evitem desperdiçar tempo e dinheiro com projetos de Machine Learning.

Aprendizado constante: a equipe responsável pelo projeto deve manter um padrão elevado de conhecimento. Quando um novo equipamento para ajudar na construção do algoritmo chega, é preciso entender como ele funciona, como calibrá-lo, como detectar erros e o limite da máquina. “Não há mágica envolvida, e as ferramentas devem ser entendidas por aqueles que usam.”
Cada setor é diferente: possivelmente um algoritmo desenvolvido para o setor da saúde não terá o mesmo resultado no setor financeiro. Os cientistas, para estimular um bom comportamento do Machine Learning, devem entender as verificações de integridade dos algoritmos e as medições de erro.
Investimento em formação: a formação de cientistas é essencial para o sucesso do projeto. Geralmente eles ensinam os algoritmos e as ferramentas a preverem os resultados, mas esses profissionais devem aprender como aplicar os algoritmos e questioná-los de maneira apropriada para conseguir extrair os melhores insights.

Como ressalta Riley, poder computacional, dados e algoritmos geram um momento de descobertas e oportunidades para todos. “É nossa responsabilidade, como comunidade científica, garantir que aproveitemos bem essa oportunidade.”