Os benchmarks da Meta para seus novos modelos de IA são um pouco enganosos

Um dos Novos modelos de IA da principal Meta lançado no sábado, Maverick, ocupa o segundo lugar na LM Arenaum teste com avaliadores humanos compara os resultados dos modelos e escolha o que eles preferem. Mas parece que a versão do Maverick que a Meta implantada na LM Arena difere da versão amplamente disponível para os desenvolvedores.

Como diversos Ai pesquisadores Apontado em X, a Meta observou em seu anúncio que o Maverick na LM Arena é uma “versão experimental de bate -papo”. Um gráfico no Site oficial de lhamaEnquanto isso, revela que os testes da META da LM Arena foram realizados usando “Llama 4 Maverick otimizado para conversacionalidade”.

Como escrevemos antespor várias razões, a LM Arena nunca foi a medida mais confiável do desempenho de um modelo de IA. Mas as empresas de IA geralmente não personalizam ou ajustaram seus modelos para marcar melhor na LM Arena-ou não admitiram fazê-lo, pelo menos.

O problema de adaptar um modelo a uma referência, reter -o e, em seguida, liberar uma variante de “baunilha” desse mesmo modelo é que ele o torna desafiador para os desenvolvedores prever exatamente o desempenho do modelo em contextos específicos. Também é enganoso. Idealmente, benchmarks – lamentavelmente inadequados como são – Forneça um instantâneo dos pontos fortes e fracos de um único modelo em uma variedade de tarefas.

De fato, pesquisadores de X têm observado stark diferenças no comportamento do Maverick publicamente para download em comparação com o modelo hospedado na LM Arena. A versão da LM Arena parece usar muitos emojis e dar respostas incrivelmente longas.

Ok llama 4 é def um cozido lol, o que é essa cidade yap pic.twitter.com/Y3GVHBVZ65

– Nathan Lambert (@natolambert) 6 de abril de 2025

Por alguma razão, o modelo Llama 4 em arena usa muito mais emojis

juntos. Ai, parece melhor: pic.twitter.com/f74odx4ztt

– Tech Dev Notes (@TechDevNotes) 6 de abril de 2025

Entramos em contato com a Meta e Chatbot Arena, a organização que mantém a LM Arena, para comentar.

Os benchmarks da Meta para seus novos modelos de IA são um pouco enganosos

Comments

Deixe um comentário Cancelar resposta