Federação Nacional dos Trabalhadores em Tecnologia da Informação

Produção de software acelera, mas validação humana limita ganhos da IA. (Foto: Reprodução/Magnific/DC Studio)

Anthropic relata salto na automação do desenvolvimento com uso do Claude

Relatório aponta que mais de 80% do código integrado aos sistemas da empresa é gerado pelo Claude, enquanto a revisão feita por pessoas passa a ser o principal entrave do processo

Anthropic – A inteligência artificial já responde pela maior parte do código produzido dentro da Anthropic. De acordo com um relatório da empresa, mais de 80% do código incorporado ao repositório interno utilizado no desenvolvimento, nos testes e na manutenção dos modelos Claude e das ferramentas associadas foi gerado pelo próprio sistema.

O percentual considera o código que percorre o pipeline oficial da companhia, passa por revisão e, posteriormente, é integrado aos sistemas responsáveis pelo treinamento dos modelos, pela infraestrutura tecnológica e pelos produtos de inteligência artificial desenvolvidos pela empresa.

LEIA: Senado debate cronograma de PEC do fim da escala 6×1 e redução da jornada

Além de aumentar a participação da IA na escrita de software, a mudança também impactou a produtividade dos engenheiros. Dados internos mostram que a quantidade de linhas de código produzidas por trimestre cresceu oito vezes em relação ao período entre 2021 e 2025. Nesse cenário, a atividade dos profissionais passou a se concentrar menos na escrita manual e mais na orientação e revisão do trabalho realizado pelos modelos.

A transformação ocorreu de forma gradual ao longo dos últimos cinco anos. Entre 2021 e 2023, a programação era feita manualmente. Em 2024, os primeiros chatbots começaram a ser utilizados para gerar pequenos trechos de código. No ano seguinte, agentes passaram a atuar sobre arquivos completos. Já em 2026, esses sistemas conseguem executar tarefas longas com pouca intervenção humana.

A evolução também aparece nos indicadores de autonomia. O benchmark METR registrava aproximadamente 35 segundos de operação autônoma em modelos como o GPT 3.5 em 2022. Em 2026, o Claude Opus 4.6 alcança 16 horas em tarefas complexas. Segundo a Anthropic, a duração das tarefas realizadas pelos sistemas dobrava a cada sete meses e passou a dobrar a cada quatro meses. Mantida essa tendência, a expectativa é que os modelos assumam atividades que demandem vários dias de execução já em 2027.

Os métodos tradicionais de avaliação também começam a perder capacidade de diferenciação. O SWE-bench, benchmark amplamente utilizado para medir desempenho em programação, já não consegue distinguir de forma eficiente os modelos mais recentes. Ao mesmo tempo, os ganhos de performance continuam avançando. Em 2025, versões do Claude chegaram a triplicar a velocidade de execução de programas. Em abril de 2026, o Claude Mythos Preview registrou aceleração de 52 vezes em casos documentados pela própria Anthropic.

Outro aspecto destacado pela empresa é a capacidade dos modelos de gerar dados, corrigir falhas e criar novos desafios para si mesmos. Esse ciclo reduz a necessidade de curadoria humana, já que a própria IA passa a realizar etapas de preparação de dados e ajustes que antes dependiam diretamente dos engenheiros.

A Anthropic reconhece, porém, que esse processo também amplia riscos conhecidos. Pequenos vieses podem ser reforçados ao longo das sucessivas iterações, enquanto mudanças nos critérios internos de decisão podem ocorrer sem visibilidade direta. Para reduzir esses riscos, a empresa afirma utilizar ambientes isolados para testes e modelos independentes encarregados de auditar cada alteração gerada.

Com a produção de código em ritmo cada vez mais acelerado, surge um novo desafio operacional. A Anthropic recorre à lei de Amdahl para explicar que a parcela do processo que permanece sem automação tende a concentrar o tempo total de execução. Atualmente, esse papel é desempenhado pela revisão humana. Assim, quanto mais código é produzido pela inteligência artificial, maior é o esforço necessário para que pessoas validem cada modificação antes de sua implementação.

(Com informações de Hardware)

(Foto: Reprodução/Magnific/DC Studio)

Compartilhe:

Outras publicações