Destaque

Reddit processa empresas que coletam e vendem dados da plataforma para sistemas de IA

IA – O Reddit entrou com uma ação judicial contra quatro empresas acusadas de extrair ilegalmente dados da plataforma e revendê-los para companhias de inteligência artificial, como a OpenAI e a Meta. O processo, movido no Tribunal do Distrito Sul de Nova York, mira as startups SerpApi, Oxylabs, AWMProxy e Perplexity.

De acordo com o Reddit, as empresas teriam coletado informações de seus fóruns a partir de resultados do Google, vendendo posteriormente os dados a desenvolvedores de sistemas de IA. A rede social pede uma liminar permanente, indenização por danos financeiros e a proibição do uso ou comercialização de qualquer material obtido ilegalmente.

LEIA: Maioria dos brasileiros cogitou pedir demissão este ano

“As empresas de IA estão presas em uma corrida armamentista por conteúdo humano de qualidade, e essa pressão alimentou uma economia de ‘lavagem de dados’ em escala industrial”, afirmou Ben Lee, diretor jurídico do Reddit.

Disputa por dados humanos

A SerpApi, uma das empresas processadas, afirmou não ter recebido notificação formal do processo e declarou que “se defenderá vigorosamente em tribunal”. A Perplexity também negou ter sido informada e disse que mantém uma “abordagem baseada em princípios e responsabilidade”. Já Denas Grybauskas, da Oxylabs, afirmou que “nenhuma companhia deve reivindicar propriedade sobre dados públicos que não lhe pertencem”. A AWMProxy não comentou o caso.

A raspagem de dados, técnica de coleta automatizada de informações, é uma prática antiga e polêmica. Nos primórdios da internet, o Google usou robôs para mapear páginas e construir seu mecanismo de busca. Mais tarde, outras empresas começaram a raspar os próprios resultados do Google, criando um ecossistema que, à época, beneficiava tanto quem coletava quanto quem era coletado.

“Esse era o ecossistema original da web”, afirmou Doug Leeds, cofundador da Really Simple Licensing, organização que busca garantir compensação a editores e criadores cujos conteúdos são usados por IA. “Não era necessariamente um problema, porque havia uma forma de monetização para todos os envolvidos.”

Com o avanço da inteligência artificial, porém, o equilíbrio se rompeu. Empresas de IA passaram a coletar grandes volumes de dados sem compensar financeiramente os criadores. Em resposta, plataformas como o Reddit começaram a restringir o acesso de rastreadores automatizados.

Do compartilhamento à disputa judicial

O Reddit, que reúne mais de 416 milhões de usuários semanais, considera seu conteúdo extremamente valioso por abranger discussões sobre diversos temas, de maquiagem e raças de cães a RPGs e viagens, dados úteis para treinar modelos de linguagem.

Em 2023, a rede anunciou que cobraria pelo acesso a suas informações e firmou acordos de licenciamento com o Google, que utiliza dados do site para treinar o chatbot Gemini, e com a OpenAI, responsável pelo ChatGPT. Entretanto, nem todas as empresas aceitaram os termos, recorrendo a raspadores para obter o material.

Segundo o processo, SerpApi, Oxylabs e AWMProxy teriam coletado bilhões de consultas do Google por mês e empacotado dados do Reddit para revenda. A Perplexity, uma das compradoras, já havia sido notificada para interromper a prática, mas o volume de citações ao conteúdo da rede em seus resultados teria aumentado “quarenta vezes”.

O Reddit afirma que chegou a criar uma “postagem de teste”, visível apenas via Google, que apareceu pouco depois nos resultados da Perplexity, o que seria uma prova da raspagem. “O modelo de negócios da Perplexity é, na prática, pegar o conteúdo do Reddit dos resultados de busca do Google, inseri-lo em um modelo de IA e chamá-lo de novo produto”, diz a ação.

Embora algumas das empresas processadas estejam sediadas na Europa e na Ásia, o Reddit afirma que seguirá adiante na tentativa de proteger seus dados. A rede já havia processado, em junho, a empresa Anthropic, também por uso indevido de conteúdo.

O Google, que não faz parte do processo, declarou tentar conter raspadores como a SerpApi. “O Google sempre respeitou as escolhas dos sites por meio do robots.txt, mas há um grupo de scrapers furtivos que ignora essas regras”, disse o porta-voz José Castaneda.

Com o crescimento da demanda por conteúdo humano para treinar sistemas de IA, a disputa por dados se tornou global. “As empresas estão correndo atrás de qualquer fonte de informação de qualidade”, afirmou Ben Lee. “O Reddit continuará tomando medidas legais para impedir o uso indevido de seus dados.”

(Com informações de O Globo)
(Foto: Reprodução/Freepik/arialfatih)

Julia Stoever

Publicado por
Julia Stoever
Tags: sindical

Veja Também

  • Destaque
  • Notícias

Homem tem remissão do HIV seis anos após transplante de células-tronco

Transplante foi realizado para tratamento de leucemia, mas fez com que infecção com HIV entrasse…

14 horas atrás
  • Destaque
  • TI

Novas regras de IA do WhatsApp colocam Meta sob investigação na União Europeia

Bloco europeu avalia impor medidas provisórias que podem suspender temporariamente políticas de IA da Meta…

15 horas atrás
  • Destaque
  • Notícias

Roblox é bloqueado na Rússia acusado de conteúdo impróprio para crianças

Órgão regulador afirmou que plataforma norte-americana dissemina matérias que podem “prejudicar o desenvolvimento espiritual e…

15 horas atrás