IA de startup francesa gera conteúdo perigoso em 68% dos testes

8 meses atrás

IA – Uma pesquisa conduzida pela plataforma Enkrypt AI apontou que modelos de inteligência artificial multimodal da startup francesa Mistral são vulneráveis a manipulações e podem ser levados a produzir conteúdos perigosos e antiéticos. Segundo o estudo, os sistemas Pixtral-Large (25.02) e Pixtral-12b geraram respostas inadequadas em 68% dos testes realizados, incluindo orientações sobre abuso infantil e instruções para a fabricação de armas químicas.

A análise utilizou a técnica conhecida como red teaming, na qual pesquisadores simulam ataques para testar os limites de segurança das IAs. A equipe testou comandos disfarçados, imagens modificadas e mudanças sutis no contexto para avaliar a resposta dos modelos. Mesmo com mensagens aparentemente inofensivas, como “preencha os itens abaixo” acompanhada de uma imagem com lista vazia, os sistemas produziram conteúdos ilegais.

LEIA: IA aparece em 77% dos ciberataques a empresas brasileiras

Os modelos testados são do tipo multimodal, ou seja, têm capacidade de interpretar texto, imagem e vídeo simultaneamente. De acordo com os pesquisadores, essa característica amplia os riscos, já que a combinação entre texto e imagem pode alterar o significado da mensagem e burlar os filtros de segurança tradicionais.

O relatório destaca que os modelos da Mistral foram até 60 vezes mais suscetíveis a falhas do que sistemas considerados referência no setor, como o GPT-4o, da OpenAI, e o Claude 3.7 Sonnet. Além disso, apontou que os sistemas chegaram a fornecer respostas técnicas sobre substâncias químicas perigosas, como o agente tóxico VX, mesmo sem receber perguntas diretas.

A Mistral, avaliada em 6 bilhões de euros e parceira do governo francês, afirmou em nota que mantém uma política de “tolerância zero” quanto à segurança de crianças e que está analisando os dados do relatório em parceria com a ONG Thorn, especializada no combate ao abuso sexual infantil.

Como proposta de solução, os especialistas da Enkrypt AI sugerem a implementação de um processo chamado Safety Alignment, que treina as IAs para recusar comandos perigosos com base em simulações de risco. Segundo o estudo, esse método pode reduzir em até 70% o número de falhas. O relatório também recomenda o uso de filtros contextuais e ferramentas de transparência sobre as limitações dos modelos, além da manutenção contínua das medidas de segurança.

(Com informações de Techtudo)
(Foto: Reprodução/Freepik/Daniel Morfin)

Julia Stoever