The Claude app icon is displayed on a smartphone screen

Anthropic lança Claude Sonnet 5 como uma forma mais barata de administrar agentes

À medida que as capacidades de agência de transporte marítimo se tornam uma aposta entre as empresas modelo de base, a Anthropic está lançando o Claude Sonnet 5, uma versão mais poderosa e de agência do modelo de médio porte do laboratório.

“Ele pode fazer planos, usar ferramentas como navegadores e terminais e funcionar de forma autônoma em um nível que, há apenas alguns meses, exigia modelos maiores e mais caros”, disse a Anthropic em um blog.

Esse enquadramento reflete o que a OpenAI e o Google disseram sobre seus próprios lançamentos recentes. GPT-5.6 Sol da OpenAI foi lançado em versão prévia na semana passada e também é o modelo mais agente da empresa até agora, permitindo aos usuários dividir o trabalho entre subagentes para tarefas autônomas mais longas. Flash Gemini 3.5 do Googlelançado em maio, foi apresentado como uma mudança de um chatbot conversacional para uma ferramenta de agência que planeja, constrói e itera no trabalho real com o mínimo de intervenção humana.

A proposta do Soneto 5 é a confirmação de que a capacidade de agência é a nova expectativa básica em todos os níveis de preços. Agora, o diferencial não será quem pode fazer melhor o trabalho de agente, mas quão barato eles podem fazê-lo e quão confiável é sem a supervisão humana.

Sonnet 5 promete desempenho próximo ao de Opus 4.8mas com custos muito mais baixos. A partir de terça-feira, Claude Sonnet 5 será o modelo padrão para planos gratuitos e Pro e estará disponível para todas as assinaturas.

No lançamento, o Sonnet 5 custa US$ 2 por milhão de tokens de entrada e US$ 10 por milhão de tokens de saída até 31 de agosto, após o qual o preço saltará para US$ 3 por milhão de tokens de entrada e US$ 10 por milhão de tokens de saída. Isso torna o Sonnet 5 mais barato que o Opus 4.8, bem como o GPT-5.5 da OpenAI e o Gemini 3.1 Pro do Google. (Ainda é mais caro que o Gemini 3.5 Flash.)

O novo modelo também demonstra melhorias significativas em relação ao seu antecessor Sonnet 4.6, lançado em fevereiro, no desempenho da agência, como raciocínio, uso de ferramentas, codificação de software e trabalho de conhecimento, de acordo com a Anthropic.

Por exemplo, em um benchmark, o Sonnet 5 obteve 63,2% em codificação agentic, em comparação com 69,2% do Opus 4.8 e 58,1% do Sonnet 4.6. Em um benchmark de trabalho de conhecimento, o Sonnet 5 supera ligeiramente o Opus 4.8, que é conhecido por vencer na solução dos problemas mais difíceis, como fazer julgamentos sutis e pesquisas profundas.

“O Opus 4.8 ainda é o modelo preferido para maior precisão nessas tarefas, mas o Sonnet 5 oferece aos desenvolvedores opções de preços mais baixos e de qualidade muito superior ao que estava disponível anteriormente”, diz Anthropic. “Entre o Sonnet 5 e o Opus 4.8, os usuários podem ajustar o nível de esforço para encontrar o equilíbrio certo entre custo e desempenho.”

De acordo com os testadores citados na postagem do blog, o Sonnet 5 também se destaca na conclusão de tarefas complexas onde as versões anteriores do modelo teriam parado e “verifica sua própria saída sem ser explicitamente solicitado”.

“Entregamos a Claude Sonnet 5 um trabalho de duas partes – atualizar os níveis de conta do Salesforce, enviar um anúncio de lançamento aos contatos corporativos – e ele foi concluído de ponta a ponta”, disse Daniel Shepard, engenheiro sênior da Zapier, em um comunicado. “Isso costumava parar no meio do caminho. Para a automação do dia a dia, é óbvio.”

No que diz respeito à segurança, o Sonnet 5 também demonstra uma taxa mais baixa de “comportamentos indesejáveis”, como cooperação com uso indevido e engano, do que o seu antecessor, tornando-o mais seguro para utilização em contextos de agência. É melhor recusar solicitações maliciosas e evitar tentativas de sequestro em ataques de injeção imediata. Ele também alucina e se envolve em comportamento bajulador em uma taxa menor do que o Sonet 4.6.

Dito isto, não está no mesmo nível do Opus 4.8 e do Claude Mythos Preview quando se trata de comportamento desalinhado. “As avaliações também mostram que ele tem uma capacidade muito menor de realizar tarefas perigosas de segurança cibernética do que nossos modelos Opus atuais”, diz a postagem do blog.

O adorável cofundador Fabian Hedin disse em um comunicado que Claude Sonnet 5 “recusa solicitações inseguras de forma limpa e consistente”.

“Na Lovable, estamos colocando ferramentas poderosas nas mãos de milhões de construtores”, disse Hedin. “Um modelo que sabe quando dizer não é tão importante quanto aquele que sabe construir.”

Quando você compra por meio de links em nossos artigos, podemos ganhar uma pequena comissão. Isso não afeta nossa independência editorial.

Comments

No comments yet. Why don’t you start the discussion?

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *