O Antrópico usou Pokémon para comparar seu mais novo modelo de IA. Sim, realmente.
Em um blog publicar Publicado na segunda -feira, o Anthropic disse que testou seu mais recente modelo, Claude 3,7 sonetono Game Boy Classic Pokémon Red. A empresa equipou o modelo com memória básica, entrada de pixels de tela e chamadas de função para pressionar botões e navegar pela tela, permitindo que ela reproduza o Pokémon continuamente.
Uma característica única do Claude 3,7 soneto é sua capacidade de se envolver em “pensamento estendido”. Como o O3-Mini do Openai e o R1 de Deepseek, o Claude 3,7 sonetos pode “raciocinar” por meio de problemas desafiadores aplicando mais computação-e demorando mais tempo.
Isso foi útil em Pokémon Red, aparentemente.
Comparado a uma versão anterior de Claude, Claude 3,0 sonetos, que não deixou a casa em Pallet Town, onde a história começa, Claude 3,7 sonetos lutou com sucesso com três líderes de ginástica de Pokémon e venceu seus crachás.
Agora, não está claro quanta computação foi necessária para que Claude, 3,7 sonetos, atinja esses marcos – e quanto tempo cada um levou. Anthrópica disse apenas que o modelo realizou 35.000 ações para alcançar o último líder da academia, Surge.
Certamente não demorará muito para que algum desenvolvedor empreendedor descubra.
O Pokémon Red é mais uma referência de brinquedo do que qualquer coisa. No entanto, aí é uma longa história de jogos sendo usados para fins de benchmarking de IA. Somente nos últimos meses, vários novos aplicativos e plataformas surgiram para testar as habilidades de jogo de jogo dos modelos em títulos que variam de Street Fighter para PICTIONÁRIO.