Anthrópico usou Pokémon para comparar seu mais novo modelo de IA

O Antrópico usou Pokémon para comparar seu mais novo modelo de IA. Sim, realmente.

Em um blog publicar Publicado na segunda -feira, o Anthropic disse que testou seu mais recente modelo, Claude 3,7 sonetono Game Boy Classic Pokémon Red. A empresa equipou o modelo com memória básica, entrada de pixels de tela e chamadas de função para pressionar botões e navegar pela tela, permitindo que ela reproduza o Pokémon continuamente.

Uma característica única do Claude 3,7 soneto é sua capacidade de se envolver em “pensamento estendido”. Como o O3-Mini do Openai e o R1 de Deepseek, o Claude 3,7 sonetos pode “raciocinar” por meio de problemas desafiadores aplicando mais computação-e demorando mais tempo.

Isso foi útil em Pokémon Red, aparentemente.

Comparado a uma versão anterior de Claude, Claude 3,0 sonetos, que não deixou a casa em Pallet Town, onde a história começa, Claude 3,7 sonetos lutou com sucesso com três líderes de ginástica de Pokémon e venceu seus crachás.

Créditos da imagem:Antrópico

Agora, não está claro quanta computação foi necessária para que Claude, 3,7 sonetos, atinja esses marcos – e quanto tempo cada um levou. Anthrópica disse apenas que o modelo realizou 35.000 ações para alcançar o último líder da academia, Surge.

Certamente não demorará muito para que algum desenvolvedor empreendedor descubra.

O Pokémon Red é mais uma referência de brinquedo do que qualquer coisa. No entanto, aí é uma longa história de jogos sendo usados para fins de benchmarking de IA. Somente nos últimos meses, vários novos aplicativos e plataformas surgiram para testar as habilidades de jogo de jogo dos modelos em títulos que variam de Street Fighter para PICTIONÁRIO.

Anthrópico usou Pokémon para comparar seu mais novo modelo de IA

Comments

Deixe um comentário Cancelar resposta