Apesar de muitos cientistas de dados não gostarem, a limpeza de dados permite entender se os dados são compatíveis com o objetivo da empresa.
A sua empresa deu o pontapé na adoção de Inteligência Artificial. Logo nos primeiros passos dessa jornada, será preciso preparar e integrar todos os dados disponíveis dentro de sua organização (saiba mais neste artigo preparado pelo Mundo + Tech).
Por exemplo: você quer entender se o lançamento de um determinado produto será aderente a um perfil específico de seus clientes. No entanto, os dados estão armazenados em diferentes locais e não estão estruturados, o que dificulta a interpretação deles para uma decisão assertiva.
Nessa situação, uma limpeza de dados ou data cleaning será uma parte fundamental e importante no sucesso desse projeto. Porém, muitos cientistas de dados acham essa parte do trabalho muito “braçal”, quando, na verdade, deveria ser encarada de outra forma.
Até porque, limpar os dados significa analisar toda a base para saber se a matéria-prima existente ali vai ajudar a resolver um problema de uma determinada empresa. Quando isso é feito, é possível extrair resultados interpretáveis, isto é, úteis para uma tomada de decisão.
Essa é a opinião de Randy Au, cientista de dados no Google, que escreveu um artigo explicando os motivos de não pular a etapa de limpeza e por quais razões ela é importante na construção de qualquer solução baseada em Inteligência Artificial.
Limpeza de dados ou data cleaning: o que é?
Na definição de Randy Au, limpeza de dados não pode ser encarada de maneira “mecânica”. De acordo com o cientista, inúmeros artigos, geralmente de empresas que não são de TI, mas que focam em vender produtos para o setor, abordam o conceito de maneira superficial:
Ou você vai ler que data cleaning é…
“Livrar-se de erros para aumentar a qualidade dos dados.”
Ou que é…
“Ter dados de melhor qualidade, que trarão melhores resultados.”
Apesar dessas duas definições, a limpeza de dados analisa os dados de forma a criar “suspeitas que eles contenham sinais úteis sobre algum tópico de interesse”, explica Randy Au. Seria como extrair o que pode se tornar útil e o que pode ser ruído antes de um algoritmo de IA ser alimentado com aqueles dados.
Vale destacar a diferença entre data cleaning e data mining. Enquanto o primeiro é a identificação dos dados que irão alimentar um algoritmo, o segundo é o processo de descoberta de padrões nesses dados.
Imagine um exemplo hipotético em que uma empresa queria segmentar produtos relacionados à prática de crossfit para o seguinte perfil: homem, na faixa etária entre 30 e 35 anos, morador de Recife (PE), praticante da modalidade e de nome Thales.
O problema é que sua base de dados conta com as seguintes variações:
- Thales pode estar escrito como: Tales, Talles, Thalles, Thalis, Talis (que pode ser a Pesquisa Internacional sobre Ensino e Aprendizagem), entre outras variações.
- Recife pode ser: o bairro do Recife, avenida Recife (Pernambuco), rua Recife (Guaiauna ou São Bernardo do Campo, ambas em São Paulo), etc.
Alimentar o algoritmo com todos esses dados brutos vai fazer com que os ruídos (no caso, essas variações de nome e local) interfiram na decisão de uma segmentação mais próxima ao perfil desejado.
Daí a importância da limpeza. Ela vai amplificar as características desses dados para que as ferramentas de análise façam o trabalho sem ruídos.
Por que limpar os dados?
Data cleaning é, portanto, uma análise dos dados, como explica Randy Au. Seria como tomar decisões antes de eles serem jogados em um algoritmo.
No exemplo do tópico anterior, para que a Inteligência Artificial esteja mais próxima ao perfil de Thales, os cientistas de dados podem considerar:
– O nome escrito de forma incorreta.
– Não incluir os usuários com o nome, suas variações, e que moram fora do Brasil.
– Usuários com o mesmo nome e variações, mas que receberam algum desconto anteriormente.
– Excluir a palavra Recife de outros locais que não sejam a capital pernambucana.
Fazer toda essa análise prévia implica que você está procurando um significado para aquilo que pretende levar para o seu público. Como cita o cientista do Google, ao invés de pensar que a técnica só irá “consertar problemas de qualidade” é preciso entender que a limpeza de dados pode ser a solução para uma outra situação não prevista.
Por exemplo, ao invés de segmentar o perfil de Thales para ofertar produtos relacionados a crossfit, é possível fazer uma análise linguística com as variações do nome e desenvolver uma outra campanha que atinja qualquer usuário que se chame Thales ou nomes semelhantes.
Isso pode abrir outras oportunidades de negócio para as empresas. Como destaca o cientista do Google, muitas querem somente transformar os dados. Ou seja, usá-los com uma finalidade que vai exigir a exclusão de outros que não se encaixam na segmentação.
Porém, a prática de limpar os dados vai fornecer duas vantagens: a de se familiarizar com eles (para saber como usá-los da forma mais adequada) e a de gerar um ou mais conjuntos de dados para chegar ao resultado esperado.
Com isso, um profissional já acostumado com a técnica não precisará escrever novos códigos sempre que for preciso executar a limpeza, uma vez que eles podem ser reutilizados em um novo processo. Sem contar que, essa prática vai ajudar a encontrar inconsistências lá na frente, a depender do objetivo, gerando uma tomada de decisão com maior valor agregado.
Principais destaques desta matéria
- Limpeza de dados ou data cleaning vai identificar os dados compatíveis com um problema que uma empresa quer resolver.
- Técnica serve como uma análise prévia dos dados antes de eles alimentarem o algoritmo de Inteligência Artificial.
- Fazer a limpeza permite empresas conhecerem melhor sua base de dados, auxiliando a tomada de decisão.