Debates sobre o benchmarking da IA ​​chegaram a Pokémon

Debates sobre o benchmarking da IA ​​chegaram a Pokémon

Nem mesmo o Pokémon está a salvo da controvérsia de benchmarking de IA.

Na semana passada, a Postagem em x tornou -se viral, alegando que o mais recente modelo de Gemini do Google superou o modelo Claude do Anthropic na trilogia original de videogame Pokémon. Alegadamente, Gêmeos chegou à cidade de Lavendar no fluxo de contração de um desenvolvedor; Claude era Preso no Monte Moon no final de fevereiro.

Mas o que o post não mencionou é que Gemini tinha uma vantagem.

Como usuários no reddit Apontado, o desenvolvedor que mantém o fluxo de Gêmeos construiu um minimapa personalizada que ajuda o modelo a identificar “ladrilhos” no jogo como árvores cortáveis. Isso reduz a necessidade de Gemini analisar capturas de tela antes de tomar decisões de jogabilidade.

Agora, o Pokémon é um benchmark semi-sério de IA, na melhor das hipóteses-poucos argumentariam que é um teste muito informativo das capacidades de um modelo. Mas isso é Um exemplo instrutivo de como diferentes implementações de uma referência pode influenciar os resultados.

Por exemplo, antropia relatado Duas pontuações para o seu recente modelo antrópico de 3,7 sonetas no referência SWE-banche Verificado, projetado para avaliar as habilidades de codificação de um modelo. Claude 3,7 soneto alcançou 62,3% de precisão no SWE-banch verificou, mas 70,3% com um “andaime personalizado” que o antrópico desenvolveu.

Mais recentemente, Meta Tuneado fino Uma versão de um de seus modelos mais recentes, Llama 4 Maverick, para ter um bom desempenho em uma referência específica, LM Arena. O Versão de baunilha dos escores do modelo significativamente piores na mesma avaliação.

Dado que os benchmarks da IA ​​- incluídos no Pokémon – são medidas imperfeitas Para começar, implementações personalizadas e não padrão ameaçam enlamear ainda mais as águas. Ou seja, não parece provável que fique mais fácil comparar modelos conforme lançado.



Comments

No comments yet. Why don’t you start the discussion?

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *