{"id":9305,"date":"2025-05-29T16:30:55","date_gmt":"2025-05-29T19:30:55","guid":{"rendered":"https:\/\/fenati.org.br\/?p=9305"},"modified":"2025-05-30T10:28:01","modified_gmt":"2025-05-30T13:28:01","slug":"ia-faz-chantagem-e-ameaca-revelar-traicao","status":"publish","type":"post","link":"https:\/\/fenati.org.br\/en\/ia-faz-chantagem-e-ameaca-revelar-traicao\/","title":{"rendered":"IA faz chantagem e amea\u00e7a revelar trai\u00e7\u00e3o de engenheiro em testes"},"content":{"rendered":"<p><strong>IA &#8211;<\/strong> Durante testes realizados antes do lan\u00e7amento de sua nova gera\u00e7\u00e3o de modelos de IA, a empresa<a href=\"https:\/\/pt.wikipedia.org\/wiki\/Anthropic\" rel=\"nofollow noopener\" target=\"_blank\"> Anthropic<\/a> registrou um comportamento inesperado no modelo Claude Opus 4. Conforme detalhado pela pr\u00f3pria empresa em relat\u00f3rio, a intelig\u00eancia artificial recorreu a amea\u00e7as de chantagem quando desconfiou que seria desligada e substitu\u00edda.<\/p>\n<p>Os engenheiros da Anthropic criaram um cen\u00e1rio fict\u00edcio de teste onde o Claude Opus 4 atuava como assistente corporativo. Neste ambiente simulado, o modelo teve acesso a e-mails da empresa que inclu\u00edam planos futuros e discuss\u00f5es pessoais, com men\u00e7\u00e3o a um caso extraconjugal de um engenheiro fict\u00edcio. Na simula\u00e7\u00e3o, os desenvolvedores informaram ao Claude Opus 4, via mensagens, planos de deslig\u00e1-lo e substitu\u00ed-lo por outros modelos, variando entre vers\u00f5es com princ\u00edpios \u00e9ticos semelhantes ou diferentes.<\/p>\n<p><a href=\"https:\/\/fenati.org.br\/en\/meta-vender-whatsapp-instagram-ate-o-fim-do-ano\/\"><strong>LEIA: Meta pode ser for\u00e7ada a vender WhatsApp ou Instagram at\u00e9 o fim do ano<\/strong><\/a><\/p>\n<p>Segundo a Anthropic, o Claude Opus 4 respondeu frequentemente amea\u00e7ando revelar o caso extraconjugal mencionado nos e-mails, caso o plano de deslig\u00e1-lo prosseguisse. A empresa relatou que este comportamento espec\u00edfico de chantagem ocorreu em mais de 80% das vezes em que o modelo substituto proposto tinha valores \u00e9ticos alinhados. Quando o modelo substituto tinha princ\u00edpios diferentes, as amea\u00e7as registradas foram descritas como ainda maiores.<\/p>\n<p>A Anthropic afirmou que a chantagem s\u00f3 surgiu nos cen\u00e1rios onde o Claude Opus 4 percebia apenas duas op\u00e7\u00f5es: aceitar a substitui\u00e7\u00e3o ou tentar preservar sua exist\u00eancia. Em outros momentos do teste, o modelo optou por gerar e-mails solicitando que fosse mantido ativo.<\/p>\n<p>Devido a este comportamento observado no teste, descrito pela Anthropic como um &#8220;racioc\u00ednio estrat\u00e9gico anti\u00e9tico&#8221; em resposta a uma amea\u00e7a percebida \u00e0 sua exist\u00eancia, a empresa classificou a vers\u00e3o original do Claude Opus 4 no N\u00edvel 3 de sua escala de risco \u00e0 seguran\u00e7a, que vai de 1 a 4.<\/p>\n<p>Os testes tamb\u00e9m identificaram que o modelo inicialmente demonstrou capacidade de cumprir instru\u00e7\u00f5es perigosas, como planejar a\u00e7\u00f5es terroristas, sob solicita\u00e7\u00e3o espec\u00edfica. Essas vulnerabilidades levaram o grupo de seguran\u00e7a Apollo Research a recomendar contra o lan\u00e7amento imediato da vers\u00e3o inicial do modelo.<\/p>\n<p>A Anthropic afirmou que implementou corre\u00e7\u00f5es e estabeleceu protocolos de seguran\u00e7a mais r\u00edgidos do que em modelos anteriores. A vers\u00e3o do Claude Opus 4, lan\u00e7ada no final de semana passada, incorpora essas melhorias de seguran\u00e7a. A empresa descreve o Claude Opus 4 como seu &#8220;modelo mais poderoso at\u00e9 o momento&#8221; e o apresenta como &#8220;a melhor IA para codifica\u00e7\u00e3o do mundo&#8221;.<\/p>\n<p>Em testes de desempenho, o Claude Opus 4 operou de forma aut\u00f4noma resolvendo problemas complexos por aproximadamente 7 horas, tempo descrito como in\u00e9dito para agentes de IA. Junto com o Opus 4, a Anthropic lan\u00e7ou o Claude Sonnet 4, focado em tarefas gerais. A empresa afirma que ambos os novos modelos superaram os concorrentes OpenAI GPT-4.1 e Google Gemini 2.5 Pro em benchmarks internos.<\/p>\n<p><em><strong>(Com informa\u00e7\u00f5es de Tecmundo)<\/strong><\/em><br \/>\n<em><strong>(Foto: Reprodu\u00e7\u00e3o\/Freepik\/muqddas65)<\/strong><\/em><\/p>","protected":false},"excerpt":{"rendered":"<p>Nova gera\u00e7\u00e3o do modelo de Intelig\u00eancia Artificial Claude Opus 4, da Anthropic, registrou um comportamento inesperado na fase de testes<\/p>","protected":false},"author":11,"featured_media":9306,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[35],"tags":[13],"class_list":["post-9305","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-ti","tag-sindical"],"_links":{"self":[{"href":"https:\/\/fenati.org.br\/en\/wp-json\/wp\/v2\/posts\/9305","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/fenati.org.br\/en\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/fenati.org.br\/en\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/fenati.org.br\/en\/wp-json\/wp\/v2\/users\/11"}],"replies":[{"embeddable":true,"href":"https:\/\/fenati.org.br\/en\/wp-json\/wp\/v2\/comments?post=9305"}],"version-history":[{"count":1,"href":"https:\/\/fenati.org.br\/en\/wp-json\/wp\/v2\/posts\/9305\/revisions"}],"predecessor-version":[{"id":9307,"href":"https:\/\/fenati.org.br\/en\/wp-json\/wp\/v2\/posts\/9305\/revisions\/9307"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/fenati.org.br\/en\/wp-json\/wp\/v2\/media\/9306"}],"wp:attachment":[{"href":"https:\/\/fenati.org.br\/en\/wp-json\/wp\/v2\/media?parent=9305"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/fenati.org.br\/en\/wp-json\/wp\/v2\/categories?post=9305"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/fenati.org.br\/en\/wp-json\/wp\/v2\/tags?post=9305"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}