Por que a limpeza de dados é importante no uso de Inteligência Artificial?

Por que a limpeza de dados é importante no uso de Inteligência Artificial?

4 minutos de leitura

Apesar de muitos cientistas de dados não gostarem, a limpeza de dados permite entender se os dados são compatíveis com o objetivo da empresa.



Por Redação em 05/10/2020

Apesar de muitos cientistas de dados não gostarem, a limpeza de dados permite entender se os dados são compatíveis com o objetivo da empresa.

A sua empresa deu o pontapé na adoção de Inteligência Artificial. Logo nos primeiros passos dessa jornada, será preciso preparar e integrar todos os dados disponíveis dentro de sua organização (saiba mais neste artigo preparado pelo Mundo + Tech).

Por exemplo: você quer entender se o lançamento de um determinado produto será aderente a um perfil específico de seus clientes. No entanto, os dados estão armazenados em diferentes locais e não estão estruturados, o que dificulta a interpretação deles para uma decisão assertiva.

Nessa situação, uma limpeza de dados ou data cleaning será uma parte fundamental e importante no sucesso desse projeto. Porém, muitos cientistas de dados acham essa parte do trabalho muito “braçal”, quando, na verdade, deveria ser encarada de outra forma.

Até porque, limpar os dados significa analisar toda a base para saber se a matéria-prima existente ali vai ajudar a resolver um problema de uma determinada empresa. Quando isso é feito, é possível extrair resultados interpretáveis, isto é, úteis para uma tomada de decisão.

Essa é a opinião de Randy Au, cientista de dados no Google, que escreveu um artigo explicando os motivos de não pular a etapa de limpeza e por quais razões ela é importante na construção de qualquer solução baseada em Inteligência Artificial.

Limpeza de dados ou data cleaning: o que é?

Na definição de Randy Au, limpeza de dados não pode ser encarada de maneira “mecânica”. De acordo com o cientista, inúmeros artigos, geralmente de empresas que não são de TI, mas que focam em vender produtos para o setor, abordam o conceito de maneira superficial:

Ou você vai ler que data cleaning é…

“Livrar-se de erros para aumentar a qualidade dos dados.”

Ou que é…

“Ter dados de melhor qualidade, que trarão melhores resultados.”

Apesar dessas duas definições, a limpeza de dados analisa os dados de forma a criar “suspeitas que eles contenham sinais úteis sobre algum tópico de interesse”, explica Randy Au. Seria como extrair o que pode se tornar útil e o que pode ser ruído antes de um algoritmo de IA ser alimentado com aqueles dados.

Vale destacar a diferença entre data cleaning e data mining. Enquanto o primeiro é a identificação dos dados que irão alimentar um algoritmo, o segundo é o processo de descoberta de padrões nesses dados.

Imagine um exemplo hipotético em que uma empresa queria segmentar produtos relacionados à prática de crossfit para o seguinte perfil: homem, na faixa etária entre 30 e 35 anos, morador de Recife (PE), praticante da modalidade e de nome Thales.

O problema é que sua base de dados conta com as seguintes variações:

  • Thales pode estar escrito como: Tales, Talles, Thalles, Thalis, Talis (que pode ser a Pesquisa Internacional sobre Ensino e Aprendizagem), entre outras variações.
  • Recife pode ser: o bairro do Recife, avenida Recife (Pernambuco), rua Recife (Guaiauna ou São Bernardo do Campo, ambas em São Paulo), etc.

Alimentar o algoritmo com todos esses dados brutos vai fazer com que os ruídos (no caso, essas variações de nome e local) interfiram na decisão de uma segmentação mais próxima ao perfil desejado.

Daí a importância da limpeza. Ela vai amplificar as características desses dados para que as ferramentas de análise façam o trabalho sem ruídos.

Por que limpar os dados?

Data cleaning é, portanto, uma análise dos dados, como explica Randy Au. Seria como tomar decisões antes de eles serem jogados em um algoritmo.

No exemplo do tópico anterior, para que a Inteligência Artificial esteja mais próxima ao perfil de Thales, os cientistas de dados podem considerar:

– O nome escrito de forma incorreta.

– Não incluir os usuários com o nome, suas variações, e que moram fora do Brasil.

– Usuários com o mesmo nome e variações, mas que receberam algum desconto anteriormente.

– Excluir a palavra Recife de outros locais que não sejam a capital pernambucana.

Fazer toda essa análise prévia implica que você está procurando um significado para aquilo que pretende levar para o seu público. Como cita o cientista do Google, ao invés de pensar que a técnica só irá “consertar problemas de qualidade” é preciso entender que a limpeza de dados pode ser a solução para uma outra situação não prevista.

Por exemplo, ao invés de segmentar o perfil de Thales para ofertar produtos relacionados a crossfit, é possível fazer uma análise linguística com as variações do nome e desenvolver uma outra campanha que atinja qualquer usuário que se chame Thales ou nomes semelhantes.

Isso pode abrir outras oportunidades de negócio para as empresas. Como destaca o cientista do Google, muitas querem somente transformar os dados. Ou seja, usá-los com uma finalidade que vai exigir a exclusão de outros que não se encaixam na segmentação.

Porém, a prática de limpar os dados vai fornecer duas vantagens: a de se familiarizar com eles (para saber como usá-los da forma mais adequada) e a de gerar um ou mais conjuntos de dados para chegar ao resultado esperado.

Com isso, um profissional já acostumado com a técnica não precisará escrever novos códigos sempre que for preciso executar a limpeza, uma vez que eles podem ser reutilizados em um novo processo. Sem contar que, essa prática vai ajudar a encontrar inconsistências lá na frente, a depender do objetivo, gerando uma tomada de decisão com maior valor agregado.

Principais destaques desta matéria

  • Limpeza de dados ou data cleaning vai identificar os dados compatíveis com um problema que uma empresa quer resolver.
  • Técnica serve como uma análise prévia dos dados antes de eles alimentarem o algoritmo de Inteligência Artificial.
  • Fazer a limpeza permite empresas conhecerem melhor sua base de dados, auxiliando a tomada de decisão.


Matérias relacionadas

ia sem controle Inovação

Ganhadores do Nobel temem ameaça de IA sem controle

Para cientistas, a tecnologia pode levar a limites indesejáveis, colocando em questão a capacidade humana de controle

uso de ia generativa Inovação

Brasil supera grandes economias no uso de IA generativa

Estudo aponta que 57% dos brasileiros já utilizaram IA generativa, superando EUA, Alemanha, França e outros países

impacto ambiental da ia Inovação

Impacto ambiental da IA é pauta mundial

Em função da diversidade de fontes energéticas, Brasil pode oferecer alternativas sustentáveis para o setor

digitalizacao da saude Inovação

Estudo aponta avanços na digitalização da saúde

A pesquisa revelou que 92% dos estabelecimentos de saúde no Brasil possuem sistemas eletrônicos para registrar informações