Você sabe o que é uma técnica de web scraping?

Você sabe o que é uma técnica de web scraping?

6 minutos de leitura

Técnica de web scraping foi responsável pelo vazamento de milhões de dados de usuários do LinkedIn, Facebook e até mesmo do Clubhouse na última semana.



Por Redação em 12/04/2021

Técnica de web scraping foi responsável pelo vazamento, na última semana, de milhões de dados de usuários do LinkedIn, Facebook e até mesmo do Clubhouse.

LinkedIn, Facebook e Clubhouse. Você sabe dizer o que as três redes sociais têm em comum? Todas essas plataformas foram alvo de vazamentos, expondo mais de 2 bilhões de dados dos usuários se somados todos os incidentes (explicaremos mais abaixo).

Outra coisa em comum entre as três plataformas é que a mesma investida foi utilizada para adquirir as informações dos usuários: a técnica de web scraping. Nela, os dados deixados públicos são combinados e aprimorados ao serem cruzados com outras fontes.

Se você deixa local de nascimento, empregos e data de aniversário públicos em uma rede social, essas informações podem ser cruzadas com outros bancos de dados vazados para encontrar seu CPF ou número de telefone, permitindo que alguém mal-intencionado possa praticar algum ato contra você. Por exemplo, o já conhecido “sequestro” de um número de WhatsApp para tentar aplicar golpes financeiros na sua lista de contatos.

Mas não foram somente esses episódios que chamaram atenção na última semana: uma brecha de segurança expôs 1,7 TB de dados de clientes da iugu, fintech brasileira. Foi um incidente rápido (também vamos falar dele), em que um servidor ficou desprotegido por, no mínimo, 1 hora.

Todas essas situações só reforçam a importância da adoção de diversas camadas de segurança, seja quando estamos falando da vida pessoal quanto da profissional. Não só isso: mostram a necessidade de manter os colaboradores constantemente capacitados e informados para que episódios sobre vazamento de dados sejam evitados.

Recentemente, o Mundo + Tech trouxe uma publicação sobre identificar malwares enviados por e-mail. Conheça mais sobre a técnica de web scraping para evitar expor informações dos seus colaboradores e da sua empresa:

Entendendo a técnica de web scraping

A técnica de web scrapingé uma variante da data scraping (raspagem de dados) e consiste na utilização de bots para extrair todos os conteúdos e dados públicos de um site e replicá-los em outro local.

Nessa técnica, os bots vão extrair o código HMTL de uma página, conseguindo encontrar os dados armazenados em um banco de dados. Vale lembrar que web scraping é diferente da screen scraping, outra variante em que os bots farão a captura de tela.

Ainda a respeito de web scraping, ela é utilizada em diversos negócios digitais que dependem da coleta de dados para criar campanhas de marketing, produtos, serviços e até mesmo comparadores.

Seguem, como exemplo, alguns casos de uso legal desse tipo de raspagem de dados:

Classificação de conteúdo: robôs de mecanismo de busca que rastreiam e analisam o conteúdo de um site, classificando-o posteriormente.

Comparativo de preços e produtos: sites que comparam preços de um produto ou serviço podem implantar bots para buscar preços e descrições de produtos para compará-los entre os sites de e-commerce parceiros.

– Pesquisa de mercado: consultorias podem realizar a raspagem de dados em fóruns e redes sociais para gerar uma análise de sentimento dos usuários sobre determinado tema.

Mas, claro, apesar desses casos de uso legais, há quem utilize web scraping para fins ilegais, como ficou evidenciado com os casos envolvendo dados das redes sociais LinkedIn, Facebook e Clubhouse. E o principal motivo é que, muitas vezes, deixamos nossos dados públicos – mesmo que de forma inconsciente.

E essas informações públicas vão desde nossos dados pessoais até os conteúdos compartilhados em qualquer plataforma.

SAIBA MAIS: Por que a senha deve ser mais uma camada de segurança para a empresa?

Como foram os 4 eventos de vazamento de dados

A última semana não foi fácil para as plataformas sociais, nem para a fintech iugu. Apesar dessa última ter os dados vazados por uma brecha de segurança, o uso de web scraping para o roubo de dados coloca em xeque como as empresas garantem a segurança e privacidade dos usuários.

No caso do Facebook, por exemplo, os dados dos usuários já estavam à venda no Telegram em janeiro de 2021 para consulta. Agora em abril, os mesmos dados estavam disponíveis em fóruns da internet. Abaixo, o Mundo + Tech resume essas principais violações à segurança dos dados.

1. LinkedIn tem 500 milhões de dados colocados à venda

<h3>1. LinkedIn tem 500 milhões de dados colocados à venda</h3>

Cerca de 500 milhões de dados de usuários do LinkedIn estavam disponíveis para compra em um fórum hacker. E, por trás desse número, há algo ainda preocupante: o autor que publicou a venda já tinha divulgado dois milhões de registros, segundo informações do site Cybernews, como uma espécie de prova do que tinha em mãos.

Meio bilhão de dados está dividido em quatro arquivos e inclui:

  • Nomes completos.
  • Endereços de e-mail.
  • Número de telefone.
  • Informações sobre o trabalho atual.
  • Número de telefone.
  • Gênero.
  • ID do LinkedIn.
  • Link (URL) do perfil.
  • Títulos profissionais.

De acordo com o site IT Pro, inicialmente não se sabia se esse vazamento foi uma nova violação de dados ou se foi causado por algum incidente anterior no LinkedIn. No último dia 8, a rede social se posicionou e disse não se tratar de um vazamento de dados sob sua responsabilidade.

“Investigamos um suposto conjunto de dados do LinkedIn que foi postado para venda e constatamos que, na verdade, é uma agregação de dados de vários sites e empresas. Ele inclui dados de perfil de membros visíveis publicamente que parecem ter sido retirados do LinkedIn. Isso não foi uma violação de dados do LinkedIn, e nenhum dado de conta de membro privado do LinkedIn foi incluído no que pudemos revisar”, diz o trecho da nota que você pode ler aqui.

Dois dias depois do pronunciamento da empresa, um outro usuário do mesmo fórum hacker colocou à venda não só os tais 500 milhões de dados como um pacote adicional com outros 327 milhões de dados. A soma é maior do que o atual número de usuários do LinkedIn, o que leva a crer que exista duplicidade ou dados desatualizados.

Apesar de não terem sido encontrados dados muito sensíveis (como detalhes de cartão crédito ou documentos), o potencial de danos com a exposição de tanta informação é grande. “Eles podem realizar ataques de phishing e engenharia social muito mais convincentes ou até mesmo cometer roubo de identidade contra as pessoas cujas informações foram expostas no fórum de hackers”, diz a matéria do Cybernews.

Conheça o SIEM e detecte problemas de segurança em tempo real

2. 1,7 TB de dados da iugu expostos por uma hora

Bastou uma simples brecha de segurança para que os clientes da iugu tivessem seus dados pessoais, dados bancários e transações feitas armazenados em um servidor desprotegido. O incidente foi encontrado pelo especialista e consultor em segurança Bob Diachenko e divulgado no Twitter.

Apesar do acesso público ao 1,7 TB de dados, Patrick Negri, fundador e CTO da fintech, escreveu em seu perfil no Medium que a iugi conseguiu “ter a agilidade suficiente para resolver antes de qualquer estrago”.

Já ao Canaltech, a fintech disse também que apenas 1% das informações disponíveis em backup foi atingido pela brecha. Além disso, um único IP (provavelmente o de Diachenko) teve acesso ao volume de dados.

3. Dados de 553 milhões de usuários do Facebook disponíveis de graça

E desses 553 milhões de usuários, 8 milhões são do Brasil, afirma o Canaltech. Antes, esse volume estava disponível para acesso via bot do Telegram, em que uma pessoa pagava US$ 20 para saber se os dados dela estavam entre os vazados.

Agora, todo esse pacote está disponível de forma segmentada por país e para download gratuito em um fórum. IDs dos usuários, nome no Facebook, e-mail, localização, gênero, informações de trabalho e número de telefone são algumas informações agrupadas nesses pacotes.

Após o caso voltar a ganhar destaque, o Facebook emitiu um comunicado informando que essa raspagem de dados começou em 2019 e que os hackers utilizaram uma antiga função de encontrar amigos para realizar essa técnica.

Veja também: Os mitos sobre cibersegurança explicados por uma especialista

4. Clubhouse não é tão exclusivo assim

O Clubhouse é uma rede social emergente e que virou sensação nos últimos meses. Na última semana, um banco de dado SQL com 1,3 milhão de registros caiu na internet, podendo ser baixado gratuitamente.

Entre as informações disponíveis, estão:

  • ID do usuário.
  • Nome.
  • URL da foto.
  • Nome do usuário.
  • Identificador do Twitter.
  • Identificador do Instagram.
  • Número de seguidores.
  • Número de pessoas seguidas pelo usuário.
  • Data de criação da conta.
  • Convidado pelo nome do perfil do usuário.

Apesar de o pessoal do Cybernews não encontrar dados mais sensíveis, são informações que permitem que qualquer pessoa com más intenções possa realizar um ataque phishing ou engenharia social.

Essa possibilidade não é difícil, uma vez que o próprio Clubhouse se isentou com um tuíte, afirmando que não houve vazamento ou violações, já que os dados da rede social “podem ser acessados ​​por ‘qualquer pessoa’ por meio de sua API.”

Bem, apesar de o Clubhouse garantir que não houve incidentes, o fato de os dados estarem disponíveis para qualquer um acessar traz um potencial problema de privacidade dentro da própria plataforma de mídia social.

Enquanto o termo de uso da plataforma tem a informação de que a mineração de dados é proibida, na prática, o texto não fornece mais detalhes de como a plataforma garante que isso não acontecerá.

Principais destaques desta matéria

  • LinkedIn, Clubhouse e Facebook foram alvos da técnica de web scraping na última semana.
  • Técnica consiste na raspagem de dados públicos disponíveis em sites.
  • Na semana passada, fintech brasileira também teve dados expostos.

E-book gratuito: saiba como implementar uma cultura de cibersegurança na sua empresa

Saiba mais


Matérias relacionadas

deep web Conectividade

Surface web, deep web e dark web: qual a diferença?

Conheça os conceitos e saiba como eles estruturam a internet, seja para ações benéficas, seja para aquelas maliciosas à sociedade

letramento Conectividade

Falta letramento digital para 70% dos brasileiros, afirma Ministério das Comunicações

Secretário de Telecomunicações destacou a importância da atuação público e privada para construção de políticas públicas e superação dos desafios de acesso e letramento

ia e conectividade Conectividade

IA e conectividade criam cenário de possibilidades, mostram especialistas

Especialistas defenderam que o setor de TIC deve liderar os debates em torno da regulamentação de IA e envolvendo conectividade

conectividade educacao Conectividade

Conectividade viabiliza educação e inclusão social

Maior acesso à internet na educação e letramento digital de alunos e professores ainda são desafios de inclusão social