Seu rosto, CPF e currículo podem estar alimentando IAs; entenda
Uma nova pesquisa revelou que milhões de imagens sensíveis, incluindo documentos de identidade, cartões de crédito e certidões de nascimento, estão presentes em um dos maiores bancos de dados usados para treinar inteligências artificiais (IAs) capazes de gerar imagens realistas. Esse material faz parte do DataComp CommonPool, um repositório colossal formado por bilhões de imagens coletadas automaticamente da internet. A ideia era simples: alimentar os algoritmos com o máximo de conteúdo visual possível. Mas, no meio de paisagens, objetos e rostos anônimos, os pesquisadores encontraram, também, arquivos delicados, como passaportes digitalizados, carteiras de motorista e fotos de pessoas identificáveis.
Assista ao vídeo completo aqui:
Um megabanco de dados aberto, pronto para ser explorado
Em alguns casos, o conteúdo incluía dados ainda mais sensíveis. Mais de 800 currículos e cartas de apresentação foram rastreados até perfis reais em redes sociais, como o LinkedIn. Segundo os autores do estudo, esse é apenas um recorte ínfimo do total, o que levanta um alerta sério sobre o que exatamente está sendo usado para ensinar as máquinas a enxergar o mundo.
Um oceano de dados livres e perigosos para as IAs usarem
Lançado em 2023, o DataComp CommonPool se tornou o maior conjunto público de pares imagem-texto já criado, reunindo impressionantes 12,8 bilhões de amostras coletadas da internet. Embora seus organizadores afirmem que o objetivo era acadêmico, a licença do projeto não impede o uso comercial, o que abre espaço para que empresas usem esse material sem grandes restrições.
- O CommonPool foi desenvolvido como sucessor do LAION-5B, um banco de dados semelhante que serviu de base para treinar ferramentas populares, como o Stable Diffusion e o Midjourney;
- Ambos se alimentam da mesma fonte: dados raspados automaticamente da web pelo projeto Common Crawl entre 2014 e 2022.
Isso significa que as falhas de privacidade encontradas agora provavelmente se repetem em modelos anteriores e em diversas IAs já em uso. Desde seu lançamento, o CommonPool já foi baixado mais de duas milhões de vezes, segundo os pesquisadores. Para Rachel Hong, doutoranda em ciência da computação pela Universidade de Washington (EUA) e autora principal do estudo, esse número indica que há uma grande quantidade de modelos derivados espalhados pelo mundo, todos potencialmente carregando os mesmos riscos à privacidade.
Siga nosso canal @canalsegredosdodigital no Instagram e TikTok para dicas diárias sobre IA, automações e marketing digital.
Privacidade em risco e leis de IAs ainda no século passado
O estudo também faz um alerta direto à comunidade de inteligência artificial: é hora de repensar a prática generalizada de coletar automaticamente informações da internet sem critério. Os pesquisadores apontam que o uso massivo de dados pessoais em conjuntos, como o CommonPool, pode violar leis de privacidade já existentes, embora essas mesmas leis ainda apresentem muitas brechas.
- Na Europa e em alguns estados estadunidenses, já existem regras voltadas à proteção de dados pessoais;
- No entanto, os Estados Unidos ainda carecem de uma legislação federal unificada, o que faz com que os direitos de privacidade variem de acordo com a região;
- Mesmo onde há algum tipo de regulamentação, ela, muitas vezes, não se aplica a projetos acadêmicos.
O problema é que esse conceito de “informação pública” pode ser enganoso. Segundo os autores do estudo, conteúdos, como currículos, fotos pessoais, números de documentos e até blogs familiares, acabam sendo tratados como dados livres, mesmo quando expõem informações privadas. Para os pesquisadores, o caso do CommonPool deveria servir de alerta: o que está na internet não deveria, automaticamente, virar combustível para máquinas.
Perguntas Frequentes sobre a ferramenta
Como usar essa ferramenta de IA no dia a dia?
Você pode utilizar as ferramentas de IA para criar imagens, otimizar trabalhos e auxiliar em processos criativos, mas é importante sempre verificar a origem dos dados usados.
Essa plataforma é gratuita ou paga?
O acesso ao DataComp CommonPool é gratuito, mas seu uso comercial pode ter restrições dependendo do contexto.
Qual a principal vantagem dessa ferramenta?
A principal vantagem é a vasta quantidade de dados disponíveis que podem ser usados para treinamentos de IAs, mas isso vem acompanhado de riscos à privacidade.
Conheça a ferramenta apresentada no vídeo:
Palavras-chave: DataComp CommonPool, privacidade em IA, imagens sensíveis, riscos da IA, dados públicos.
Categoria: [2] Novidades
