Programa de lançamento do OpenAI para projetar novos benchmarks de AI ‘específicos de domínio’

O Openai, como muitos laboratórios de IA, acha que os benchmarks de IA estão quebrados. Diz que deseja corrigi -los através de um novo programa.

Chamado Programa Pioneers OpenAI, o programa se concentrará na criação de avaliações para modelos de IA que “definem a barra para o que é o bem”, como o OpenAI formou -o em um Postagem do blog.

“À medida que o ritmo da adoção da IA acelera em todas as indústrias, é necessário entender e melhorar seu impacto no mundo”, continuou a empresa em seu cargo. “Criar evalas específicas de domínio é uma maneira de refletir melhor os casos de uso do mundo real, ajudando as equipes a avaliar o desempenho do modelo em ambientes práticos e de alto risco”.

Como o recente controvérsia Com o benchmark LM Arena e o modelo Maverick da Meta da Meta, é difícil saber, hoje em dia, exatamente o que diferencia um modelo de outro. Muitos benchmarks de IA amplamente utilizados medem o desempenho das tarefas esotéricas, como resolver problemas de matemática no nível do doutorado. Outros podem ser jogados ou não se alinharem com as preferências da maioria das pessoas.

Através do programa Pioneers, o OpenAI espera criar referências para domínios específicos, como jurídico, finanças, seguros, assistência médica e contabilidade. O laboratório diz que, nos próximos meses, funcionará com “várias empresas” para projetar benchmarks personalizados e, eventualmente, compartilhar esses benchmarks publicamente, juntamente com avaliações “específicas da indústria”.

“A primeira coorte se concentrará nas startups que ajudarão a estabelecer as fundações do programa Pioneers Openai”, escreveu Openai na postagem do blog. “Estamos selecionando um punhado de startups para esta coorte inicial, cada uma trabalhando em casos de uso aplicado e de alto valor em que a IA pode gerar impacto no mundo real”.

As empresas do programa também terão a oportunidade de trabalhar com a equipe do OpenAI para criar melhorias no modelo por meio de ajuste fino de reforço, uma técnica que otimiza modelos para um conjunto estreito de tarefas, diz o OpenAI.

A grande questão é se a comunidade de IA adotará os benchmarks cuja criação foi financiada pelo Openai. O OpenAI já apoiou os esforços de benchmarking financeiramente antes e projetou suas próprias avaliações. Mas a parceria com os clientes para lançar testes de IA pode ser vista como uma ponte ética longe demais.

Programa de lançamento do OpenAI para projetar novos benchmarks de AI ‘específicos de domínio’

Comments

Deixe um comentário Cancelar resposta