A raspagem de dados, também conhecida como data scraping ou web scraping, é uma técnica amplamente utilizada para extrair dados de maneira automatizada de páginas da internet.
Essa técnica é aplicável em diversos contextos, como na coleta de informações para análises de mercado ou pesquisas acadêmicas.
Frequentemente, possibilita o acesso a dados que não estão disponíveis em formatos estruturados ou por meio de uma API (Application Programming Interface) pública, expandindo as oportunidades para análise e geração de insights.
No entanto, é necessário considerar aspectos éticos e legais ao utilizar técnicas de raspagem de dados na internet, tais como, mas não se limitando a:
a) Sites internet podem proibir o uso de técnicas de raspagem de dados, portanto, é crucial verificar antecipadamente se há restrições nos termos de uso dos serviços. Este tipo de extração pode infringir esses termos, especialmente se realizada excessivamente, de maneira automatizada ou sem permissão.
- Um exemplo é a Rede Social Online (RSO) Linkedin, onde em um dos seus termos de uso do serviço, chamado de “software e extensões proibidos”, menciona não ser permitido o uso de softwares para a raspagem de dados de seus perfis e serviços. Veja em: https://www.linkedin.com/help/linkedin/answer/a1341387
- Neste outro caso a RSO Facebook cita as medidas legais que a empresa tomou contra a raspagem de dados, considerando que esta técnica é uma forma de coleta de dados que depende de automação não autorizada. Veja em: https://about.fb.com/news/2020/10/taking-legal-action-against-data-scraping/
- Já a RSO Whatsapp informa que o uso de raspagem de dados para propósitos não permitidos configura uma violação dos termos de uso de seus serviços. Veja em: https://faq.whatsapp.com/434518851968943?cms_id=434518851968943&draft=false
b) A raspagem de conteúdo protegido por direitos autorais pode ser ilegal.
c) A raspagem de dados pode resultar em sobrecarga da infraestrutura do serviço onde os dados estão sendo coletados (raspados).
d) A coleta e o uso de dados pessoais, sensíveis ou não, sem o consentimento do titular pode violar as leis de proteção de dados, como a LGPD no Brasil e a GDPR na Europa. A LGPD considera como dado pessoal sensível aqueles relacionados a origem racial ou étnica, convicção religiosa, opinião política, filiação a sindicato ou a organização de caráter religioso, filosófico ou político, dado referente à saúde ou à vida sexual, dado genético ou biométrico.
Casos como o da Cambridge Analytica, uma empresa britânica que extraiu e utilizou indevidamente milhões de contas do Facebook para propósitos políticos, o da hiQ Labs, uma empresa americana que raspou dados de perfis do LinkedIn para análises estatísticas da força de trabalho empresarial, e o da Telekall Inforservice, uma empresa brasileira que empregou uma lista de contatos do WhatsApp de eleitores de Ubatuba/SP para disseminar material de campanha eleitoral, exemplificam os riscos associados à coleta de dados por meio de técnicas de raspagem de dados.
No caso específico da empresa Telekall Inforservice, a Autoridade Nacional de Proteção de Dados (ANPD) procedeu com ações que resultaram advertência e na aplicação da primeira multa por violação da Lei Geral de Proteção de Dados (LGPD), descrito da seguinte maneira:
1. ADVERTÊNCIA, sem imposição de medidas corretivas, por infração ao art. 41 da LGPD;
2. MULTA SIMPLES, nos valores de R$ 7.200,00 (sete mil e duzentos reais) por infração ao art. 7º da LGPD e de R$ 7.200,00 (sete mil e duzentos reais) por infração ao art. 5º do Regulamento de Fiscalização, totalizando R$ 14.400,00 (catorze mil e quatrocentos reais).
Detalhes do caso da Telekall Inforservice e do tratamento realizado pela ANPD estão na Nota de Instrução Nº 1/2023/CGF/ANPD. Lá você poderá entender como foi calculado a multa e quais as circunstâncias que atenuam ou agravam a penalidade. Acesse o documento em: https://www.gov.br/anpd/pt-br/assuntos/noticias/sei_00261-000489_2022_62_decisao_telekall_inforservice.pdf
E adivinha qual é uma das prioridades da ANPD para 2025? Isso mesmo!
A raspagem de dados e agregadores de dados (TEMA 4).
Para conhecer o Mapa de Temas Prioritários para o biênio 2024-2025 da ANPD, acesse: https://www.in.gov.br/en/web/dou/-/resolucao-cd/anpd-n-10-de-5-de-dezembro-de-2023-530258528
Enfim, a raspagem de dados não é, por si só, ilegal no Brasil e, quando realizada de maneira ética e responsável, pode ser uma ferramenta valiosa para vários propósitos. Ao extrair, estruturar e usar dados da internet, é possível sim obter insights importantes, fundamentar melhor as decisões e automatizar tarefas repetitivas. Então, ao executar a raspagem de dados priorize sempre a legalidade e o respeito aos termos de uso dos serviços e às leis de proteção de dados.
Crédito: André Gheventer @ disponível em linkedin.com/in/andregheventer/ 22/4/2024