O modelo de baunilha de baunilha de Meta está abaixo dos rivais em um benchmark de bate -papo popular

No início desta semana, Meta aterrissou em água quente Para usar uma versão experimental e não lançada de seu modelo de lhama 4 Maverick para obter uma pontuação alta em um benchmark de crowdsourced, LM Arena. O incidente levou os mantenedores da LM Arena a pedir desculpasmude suas políticas e marque o não modificado e baunilha.

Acontece que não é muito competitivo.

O Maverick não modificado, “LLAMA-4-MAVERICK-17B-128E-INSTRUTA”. foi classificado abaixo dos modelos Incluindo o GPT-4O da Openai, o Claude 3,5 sonetos do Anthropic e o Gemini 1.5 Pro do Google na sexta-feira. Muitos desses modelos têm meses.

A versão de lançamento do Llama 4 foi adicionada a Lmarena depois que foi descoberto que eles trapacearam, mas você provavelmente não o viu porque precisa rolar para baixo para o 32º lugar, que é onde está as classificações pic.twitter.com/a0bxkdx4lx

– ρ: ɡeσn (@pigeon__s) 11 de abril de 2025

Por que o mau desempenho? O Maverick Experimental de Meta, llama-4-maverick-03-26-experimental, foi “otimizado para a conversacionalidade”, explicou a empresa em um Gráfico publicado último sábado. Essas otimizações evidentemente jogaram bem com a LM Arena, que possui os avaliadores humanos comparam os resultados dos modelos e escolhem o que eles preferem.

Como escrevemos antespor várias razões, a LM Arena nunca foi a medida mais confiável do desempenho de um modelo de IA. Ainda assim, adaptar um modelo para uma referência – além de ser enganoso – torna desafiador para os desenvolvedores prever exatamente o desempenho do modelo em diferentes contextos.

Em um comunicado, um porta -voz disse ao TechCrunch que meta experimentos com “todos os tipos de variantes personalizadas”.

“‘Llama-4-Maverick-03-26-experimental’ é uma versão otimizada do bate-papo que experimentamos que também tem um bom desempenho na Lmarena”, disse o porta-voz. “Agora lançamos nossa versão de código aberto e veremos como os desenvolvedores personalizam o LLAMA 4 para seus próprios casos de uso. Estamos empolgados em ver o que eles construirão e aguardarão seus comentários contínuos”.

O modelo de baunilha de baunilha de Meta está abaixo dos rivais em um benchmark de bate -papo popular

Comments

Deixe um comentário Cancelar resposta