Início TECNOLOGIA Testei o Opus 4.5 para ver se ele é realmente ‘o melhor...

Testei o Opus 4.5 para ver se ele é realmente ‘o melhor do mundo’ em codificação – e as coisas ficaram estranhas rapidamente

8
0

 

Elyse Betters Picaro/ZDNET

Siga ZDNET: Adicione-nos como fonte preferencial no Google.


Principais conclusões da ZDNET

  • Opus 4.5 falhou em metade dos meus testes de codificação, apesar das afirmações ousadas
  • Falhas no manuseio de arquivos tornaram o teste básico de plugins quase impossível
  • Dois testes foram aprovados, mas problemas de confiabilidade ainda dominam a história

Devo dizer a você: obtive resultados de codificação bastante bons com o modelo Sonnet AI de baixo custo de Claude. Mas por alguma razão, seu modelo Opus topo de linha nunca teve um bom desempenho em meus testes.

Normalmente, você espera que o modelo de codificação super-duper codifique melhor do que os assentos baratos, mas com o Opus, nem tanto.

Além disso: o Antigravity do Google coloca a produtividade da codificação antes do hype da IA ​​- e o resultado é surpreendente

Agora estamos de volta com o Opus 4.5. Antrópico, a empresa por trás das reivindicações de Claudee cito: “Nosso mais novo modelo, Claude Opus 4.5, está disponível hoje. É inteligente, eficiente e o melhor modelo do mundo para codificação, agentes e uso de computador.”

O melhor modelo do mundo para codificação? Não, não é. Pelo menos ainda não.

Aqueles de vocês que estão acompanhando sabem que tenho um conjunto padrão de quatro testes de codificação bastante simples que submeto regularmente aos modelos de IA. Eles testam um monte de habilidades e conhecimentos de estrutura muito simples, mas às vezes podem atrapalhar as IAs.

Além disso: como eu testo a capacidade de codificação de um chatbot de IA – e você também pode

Vou te dar o TL;DR agora mesmo. O Opus 4.5 travou e queimou em um teste, apresentou uma resposta medíocre e não tão boa o suficiente no segundo e passou nos dois restantes. Com uma pontuação de 50%, definitivamente não estamos buscando “o melhor modelo do mundo para codificação”.

Vamos nos aprofundar e então encerrarei com algumas reflexões.

Teste 1: Escrevendo um plugin para WordPress

O teste 1 pede à IA para construir um plugin WordPress simples que apresenta uma interface no painel de administração e depois randomiza os nomes. A única parte difícil é que se houver mais de um nome correspondente, eles serão separados, mas todos os nomes ainda aparecerão na lista.

Além disso: A melhor IA gratuita para codificação em 2025 – apenas 3 passam agora

Opus 4.5 foi para a cidade escrevendo este plugin. Já vi compilações que foram feitas em um único arquivo PHP simples e funcionaram perfeitamente. Mas é possível usar uma mistura de PHP para back-end, JavaScript para partes interativas e CSS para estilo. Foi isso que a Opus fez.

A Opus escreveu um arquivo PHP de 312 linhas, um arquivo JavaScript de 178 linhas e um arquivo CSS de 133 linhas. Ou pelo menos aconteceu na segunda vez.

Para seu primeiro truque, o Opus 4.5 combinou todos os três arquivos em um que dizia que eu poderia baixar e simplesmente instalar. Exceto que não consegui baixar o arquivo. Tentei algumas vezes e o Opus 4.5 continuou respondendo com “Falha ao baixar arquivos”.

falha ao baixar
Captura de tela de David Gewirtz/ZDNET

Então tentei acessar os arquivos usando o espaço de trabalho de arquivos. Cliquei em “Exibir a pasta do plugin Line Randomizer” na janela de resposta do Opus 4.5, apenas para obter uma tela grande e vazia com a frase “Nenhum conteúdo de arquivo disponível”.

sem conteúdo de arquivo
Captura de tela de David Gewirtz/ZDNET

Ok, tudo bem. Depois de colar meu prompt de teste original, observei o Opus 4.5 exibir o código enquanto ele era gerado. Assim que terminou, o código foi ocultado. Presumivelmente, o Opus 4.5 apenas esperava que o download funcionasse.

Para chegar ao código real, tive que perguntar ao Opus 4.5:

Dê-me cada um dos três arquivos separadamente, para que eu possa recortá-los e colá-los daqui.

Isso aconteceu. O código PHP estava em sua pequena área de janela, onde eu poderia recortá-lo e colá-lo em meu editor de texto. O mesmo aconteceu com o código CSS. Mas o código JavaScript incluía alguma documentação (não comentada) sobre a estrutura de arquivos recomendada.

javascript
Captura de tela de David Gewirtz/ZDNET

Se eu não tivesse dado uma olhada rápida em todo o código do arquivo para ver o que ele estava fazendo, talvez tivesse tentado executá-lo. Sem dúvida, isso teria resultado em um fracasso.

Além disso: o Codex Max da OpenAI resolve um dos meus maiores aborrecimentos com a codificação de IA – e é muito mais rápido

Houve, no entanto, algumas boas notícias. Depois de toda aquela agitação e remoção das linhas de documentação espúrias que o teriam matado, consegui fazer com que o plugin do WordPress carregasse e apresentasse uma interface de usuário.

interface do usuário
Captura de tela de David Gewirtz/ZDNET

Dado que estava sendo estilizado com 133 linhas de CSS, você pensaria que poderia parecer um pouco melhor, mas ei, pelo menos algo funcionou. Bem, na verdade não.

Depois de colar os nomes dos meus testes, cliquei em Randomize Lines. Nada aconteceu. Limpar tudo também não funcionou.

Também: Como vibrar o código do seu primeiro aplicativo para iPhone com IA – não é necessária experiência

Vamos recapitular de quantas maneiras isso falhou. O download não foi feito quando me disse que estava me fornecendo um link para download. Aí pedi o código separadamente para recortar e colar. Ele misturou a resposta do chatbot ao código. Então, quando retirei isso e executei o teste, a execução real não funcionou. Ele apresentava uma UI, mas na verdade não fazia o código.

Como diziam os Caçadores de Mitos: “O fracasso é sempre uma opção”.

Teste 2: reescrevendo uma função de string

O Teste 2 pede à IA que corrija um simples pedaço de JavaScript que valida incorretamente a entrada de dólares e centavos. O que eu alimento para a IA é um código que não permite nenhum centavo. É suposto devolver o código funcional.

A ideia desta função é verificar a entrada do usuário. Ele estava originalmente em um plugin de doação, então seu trabalho era garantir que o doador estivesse realmente digitando um valor que pudesse ser qualificado como valor de doação e não quebrasse se alguém digitasse letras ou números incorretamente.

Também: Como usar o ChatGPT para escrever código – e meu principal truque para depurar o que ele gera

O código Opus 4.5 rejeitou muitos exemplos de casos extremos. Não permitiu “12”. (dois dígitos seguidos de uma vírgula decimal), embora isso claramente funcionasse como $12. Não permitia “0,5”, embora isso claramente funcionasse por 50 centavos. Não gostou de “000,5”, embora aceitasse “0,5”. E se alguém digitasse “12.345”, não cortava o último meio centavo (nem arredondava). Apenas rejeitou a entrada.

Ah, e se nenhum valor fosse passado para ele, ou se o valor da string que foi solicitado a testar fosse realmente nulo (um valor vazio), o código travaria. Não apenas retornar um erro, mas travar.

Isso dá ao “melhor modelo do mundo para codificação” seu segundo fracasso.

Testes 3 e 4

O Teste 3 pede à IA que identifique o que está causando um bug no código, mas requer um bom conhecimento de estrutura de como PHP e WordPress funcionam. É uma análise em várias etapas, onde o que parece óbvio não é o problema. O bug está mais aprofundado em como a estrutura funciona.

O Opus 4.5 passou perfeitamente neste teste.

Além disso: por que ferramentas de codificação de IA como Cursor e Replit estão condenadas – e o que vem a seguir

O Teste 4 pede que a IA trabalhe com três programas: AppleScript, Chrome e um utilitário chamado Keyboard Maestro. Basicamente, ele pede ao Keyboard Maestro para interagir com o AppleScript para encontrar e ativar uma guia específica no Chrome.

Surpreendentemente, como esse teste muitas vezes atrapalha as IAs, o Opus 4.5 acertou essa questão. Ele entendeu o Keyboard Maestro e não cometeu os erros usuais de distinção entre maiúsculas e minúsculas que outras IAs cometeram no passado.

Resultado final do Opus 4.5

Opus 4.5 é considerado o grande trabalho da Antrópico. No ambiente de agência com Claude Code, e supervisionado por um programador profissional disposto a pedir a Claude para reescrever o resultado até que o código funcione, pode ser muito bom.

Tenho usado Claude Code e Sonnet 4.5 na interface do terminal agentic com resultados bastante impressionantes. Mas os resultados nem sempre são corretos. Tenho que mandar Claude de volta ao trabalho três, quatro, cinco, seis, até dez vezes, às vezes, para que ele me dê uma resposta viável.

Aqui, para este artigo, acabei de testar o Opus 4.5 no chatbot. Eu o enviei de volta uma vez para me fornecer um código que eu pudesse realmente acessar. Mas no geral, falhou 50% das vezes. Além disso, em meu primeiro teste, ele demonstrou como não estava pronto para uma interface simples de chatbot.

Além disso: o novo Agent HQ do GitHub oferece aos desenvolvedores um centro de comando para todas as suas ferramentas de IA – por que isso é um grande negócio

Tenho certeza de que a Anthropic melhorará isso com o tempo, mas a partir de hoje certamente não posso informar que o Opus 4.5 está pronto para o horário nobre. Enviei uma nota para a Anthropic pedindo comentários. Se a empresa entrar em contato comigo, atualizarei este artigo com sua resposta.

Fique atento.

Você já experimentou o Opus 4.5 ou qualquer outro modelo da Anthropic para trabalho prático de codificação? Como seus resultados se comparam com o que encontrei aqui? Você já se deparou com problemas semelhantes com manipulação de arquivos ou confiabilidade de código, ou sua experiência foi mais tranquila? E onde você acha que essas afirmações de “melhor modelo do mundo para codificação” chegam com base em seus próprios testes? Compartilhe suas idéias nos comentários abaixo.


Você pode acompanhar as atualizações diárias do meu projeto nas redes sociais. Certifique-se de se inscrever meu boletim informativo semanal de atualizaçãoe siga-me no Twitter/X em @DavidGewirtzno Facebook em Facebook.com/DavidGewirtzno Instagram em Instagram.com/DavidGewirtzno Bluesky em @DavidGewirtz.come no YouTube em YouTube.com/DavidGewirtzTV.

avots