Meta sign

Os benchmarks da Meta para seus novos modelos de IA são um pouco enganosos

Um dos Novos modelos de IA da principal Meta lançado no sábado, Maverick, ocupa o segundo lugar na LM Arenaum teste com avaliadores humanos compara os resultados dos modelos e escolha o que eles preferem. Mas parece que a versão do Maverick que a Meta implantada na LM Arena difere da versão amplamente disponível para os desenvolvedores.

Como diversos Ai pesquisadores Apontado em X, a Meta observou em seu anúncio que o Maverick na LM Arena é uma “versão experimental de bate -papo”. Um gráfico no Site oficial de lhamaEnquanto isso, revela que os testes da META da LM Arena foram realizados usando “Llama 4 Maverick otimizado para conversacionalidade”.

Como escrevemos antespor várias razões, a LM Arena nunca foi a medida mais confiável do desempenho de um modelo de IA. Mas as empresas de IA geralmente não personalizam ou ajustaram seus modelos para marcar melhor na LM Arena-ou não admitiram fazê-lo, pelo menos.

O problema de adaptar um modelo a uma referência, reter -o e, em seguida, liberar uma variante de “baunilha” desse mesmo modelo é que ele o torna desafiador para os desenvolvedores prever exatamente o desempenho do modelo em contextos específicos. Também é enganoso. Idealmente, benchmarks – lamentavelmente inadequados como são – Forneça um instantâneo dos pontos fortes e fracos de um único modelo em uma variedade de tarefas.

De fato, pesquisadores de X têm observado stark diferenças no comportamento do Maverick publicamente para download em comparação com o modelo hospedado na LM Arena. A versão da LM Arena parece usar muitos emojis e dar respostas incrivelmente longas.

Entramos em contato com a Meta e Chatbot Arena, a organização que mantém a LM Arena, para comentar.



Comments

No comments yet. Why don’t you start the discussion?

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *