Destaque

IAs apresentam falhas e inconsistências na moderação de discurso de ódio

10 months atrás

Discurso de ódio – Com a expansão do discurso de ódio nas redes sociais, empresas de tecnologia têm recorrido a modelos de inteligência artificial para filtrar automaticamente conteúdos nocivos. No entanto, um estudo publicado no ACL Anthology revela que esses sistemas ainda apresentam falhas significativas.

Pesquisadores da Escola de Comunicação Annenberg realizaram a primeira avaliação comparativa em larga escala de sete modelos de IA usados na moderação, entre eles sistemas da OpenAI, Mistral, Claude 3.5 Sonnet, DeepSeek V3 e Google Perspective.

LEIA: Ação judicial contra a Uber acusa empresa de discriminação contra PCDs

O experimento analisou 1,3 milhão de frases sintéticas envolvendo 125 grupos sociais, formuladas em diferentes contextos, desde termos neutros e positivos até insultos.

Principais conclusões do experimento

• Classificações divergentes para o mesmo conteúdo: modelos distintos deram respostas opostas a textos idênticos, com alguns sinalizando-os como ofensivos e outros os aceitando, o que pode gerar a percepção de viés e comprometer a confiança pública.
• Sensibilidade desigual a certos grupos: enquanto alguns sistemas mantêm maior consistência, outros apresentaram variações mais marcantes, sobretudo em frases relacionadas a escolaridade, interesses pessoais e classe econômica, expondo determinados públicos a maior vulnerabilidade.
• Tratamento inconsistente de frases neutras e positivas: modelos como Claude 3.5 Sonnet e Mistral marcaram insultos como prejudiciais de forma categórica, independentemente do contexto, enquanto outros consideraram a intenção, revelando a ausência de um padrão intermediário.

Segundo os pesquisadores, essas discrepâncias reforçam os dilemas da moderação automatizada: encontrar equilíbrio entre precisão e excesso de restrição. O estudo conclui que, apesar dos avanços, as ferramentas de IA ainda têm limitações significativas para lidar de forma justa e confiável com o discurso de ódio online.

(Com informações de Olhar Digital)
(Foto: Reprodução/Freepik/user8285578)

Julia Stoever

Próximo Boreout: o esgotamento no trabalho causado pela falta de desafios e reconhecimento »

Anterior « Ação judicial contra a Uber acusa empresa de discriminação contra PCDs

Publicado por

Julia Stoever

Tags: sindical

10 months atrás

Cibersegurança sofre com falta de profissionais; Fenati Academy oferece cursos de capacitação

Nova onda de ataques explora atualizações legítimas para espalhar malware

Reino Unido autoriza sites a barrar uso de conteúdo em buscas com IA do Google

Veja Também

Notícias

Bee Fenati te ajuda a encontrar as melhores vagas de emprego em TI!

Plataforma oferece banco de vagas atualizado, ferramenta exclusiva que usa IA para conectar profissionais às…

7 hours atrás

Benefícios

Nike, Adidas, Centauro, Netshoes e muito mais: compre com desconto, cashback e zere sua contribuição na Bee Fenati!

Com a Benefícios Rede Bee, é possível economizar em grandes marcas esportivas e suplementos, acumular…

8 hours atrás

Jurídico

Entenda o reajuste de 16% garantido pela nova CCT do Sindpd-MA

Convenção dos profissionais de TI do Maranhão assegura compensação relativa aos três anos em que…

9 hours atrás

IAs apresentam falhas e inconsistências na moderação de discurso de ódio

Postagem Relacionada

Veja Também

Bee Fenati te ajuda a encontrar as melhores vagas de emprego em TI!

Nike, Adidas, Centauro, Netshoes e muito mais: compre com desconto, cashback e zere sua contribuição na Bee Fenati!

Entenda o reajuste de 16% garantido pela nova CCT do Sindpd-MA