Destaque

Reddit processa empresas que coletam e vendem dados da plataforma para sistemas de IA

5 meses atrás

IA – O Reddit entrou com uma ação judicial contra quatro empresas acusadas de extrair ilegalmente dados da plataforma e revendê-los para companhias de inteligência artificial, como a OpenAI e a Meta. O processo, movido no Tribunal do Distrito Sul de Nova York, mira as startups SerpApi, Oxylabs, AWMProxy e Perplexity.

De acordo com o Reddit, as empresas teriam coletado informações de seus fóruns a partir de resultados do Google, vendendo posteriormente os dados a desenvolvedores de sistemas de IA. A rede social pede uma liminar permanente, indenização por danos financeiros e a proibição do uso ou comercialização de qualquer material obtido ilegalmente.

LEIA: Maioria dos brasileiros cogitou pedir demissão este ano

“As empresas de IA estão presas em uma corrida armamentista por conteúdo humano de qualidade, e essa pressão alimentou uma economia de ‘lavagem de dados’ em escala industrial”, afirmou Ben Lee, diretor jurídico do Reddit.

Disputa por dados humanos

A SerpApi, uma das empresas processadas, afirmou não ter recebido notificação formal do processo e declarou que “se defenderá vigorosamente em tribunal”. A Perplexity também negou ter sido informada e disse que mantém uma “abordagem baseada em princípios e responsabilidade”. Já Denas Grybauskas, da Oxylabs, afirmou que “nenhuma companhia deve reivindicar propriedade sobre dados públicos que não lhe pertencem”. A AWMProxy não comentou o caso.

A raspagem de dados, técnica de coleta automatizada de informações, é uma prática antiga e polêmica. Nos primórdios da internet, o Google usou robôs para mapear páginas e construir seu mecanismo de busca. Mais tarde, outras empresas começaram a raspar os próprios resultados do Google, criando um ecossistema que, à época, beneficiava tanto quem coletava quanto quem era coletado.

“Esse era o ecossistema original da web”, afirmou Doug Leeds, cofundador da Really Simple Licensing, organização que busca garantir compensação a editores e criadores cujos conteúdos são usados por IA. “Não era necessariamente um problema, porque havia uma forma de monetização para todos os envolvidos.”

Com o avanço da inteligência artificial, porém, o equilíbrio se rompeu. Empresas de IA passaram a coletar grandes volumes de dados sem compensar financeiramente os criadores. Em resposta, plataformas como o Reddit começaram a restringir o acesso de rastreadores automatizados.

Do compartilhamento à disputa judicial

O Reddit, que reúne mais de 416 milhões de usuários semanais, considera seu conteúdo extremamente valioso por abranger discussões sobre diversos temas, de maquiagem e raças de cães a RPGs e viagens, dados úteis para treinar modelos de linguagem.

Em 2023, a rede anunciou que cobraria pelo acesso a suas informações e firmou acordos de licenciamento com o Google, que utiliza dados do site para treinar o chatbot Gemini, e com a OpenAI, responsável pelo ChatGPT. Entretanto, nem todas as empresas aceitaram os termos, recorrendo a raspadores para obter o material.

Segundo o processo, SerpApi, Oxylabs e AWMProxy teriam coletado bilhões de consultas do Google por mês e empacotado dados do Reddit para revenda. A Perplexity, uma das compradoras, já havia sido notificada para interromper a prática, mas o volume de citações ao conteúdo da rede em seus resultados teria aumentado “quarenta vezes”.

O Reddit afirma que chegou a criar uma “postagem de teste”, visível apenas via Google, que apareceu pouco depois nos resultados da Perplexity, o que seria uma prova da raspagem. “O modelo de negócios da Perplexity é, na prática, pegar o conteúdo do Reddit dos resultados de busca do Google, inseri-lo em um modelo de IA e chamá-lo de novo produto”, diz a ação.

Embora algumas das empresas processadas estejam sediadas na Europa e na Ásia, o Reddit afirma que seguirá adiante na tentativa de proteger seus dados. A rede já havia processado, em junho, a empresa Anthropic, também por uso indevido de conteúdo.

O Google, que não faz parte do processo, declarou tentar conter raspadores como a SerpApi. “O Google sempre respeitou as escolhas dos sites por meio do robots.txt, mas há um grupo de scrapers furtivos que ignora essas regras”, disse o porta-voz José Castaneda.

Com o crescimento da demanda por conteúdo humano para treinar sistemas de IA, a disputa por dados se tornou global. “As empresas estão correndo atrás de qualquer fonte de informação de qualidade”, afirmou Ben Lee. “O Reddit continuará tomando medidas legais para impedir o uso indevido de seus dados.”

(Com informações de O Globo)
(Foto: Reprodução/Freepik/arialfatih)

Julia Stoever

Próximo Reforma do IR estimula economia sem prejudicar investimentos, diz economista »

Anterior « Maioria dos brasileiros cogitou pedir demissão este ano

Publicado por

Julia Stoever

Tags: sindical

5 meses atrás

Cientistas criam robôs que se reorganizam e seguem funcionando após danos

Malware distribuído via ferramentas gratuitas falsas rouba dados de navegadores

IA inspirada no cérebro humano aprende a ‘pensar duas vezes’ antes de errar

Veja Também

Destaque

Cientistas criam robôs que se reorganizam e seguem funcionando após danos

Novas "metamáquinas" utilizam algoritmos evolutivos para reorganizar sua estrutura e retomar funções após sofrerem danos…

11 horas atrás

Destaque

Projeto de lei propõe proibir privatização de empresas públicas de tecnologia da informação

Texto argumenta que essas companhias desempenham papel estratégico para a soberania digital, a proteção de…

12 horas atrás

Destaque

Projeto que autoriza privatização da Celepar avança na Assembleia do Paraná

Texto tramitando em regime de urgência foi aprovado em primeiro turno, recebeu emendas no plenário…

12 horas atrás

Reddit processa empresas que coletam e vendem dados da plataforma para sistemas de IA

Postagem Relacionada

Veja Também

Cientistas criam robôs que se reorganizam e seguem funcionando após danos

Projeto de lei propõe proibir privatização de empresas públicas de tecnologia da informação

Projeto que autoriza privatização da Celepar avança na Assembleia do Paraná