Image of a phone with Cohere's logo on it with a green digital background.

Coere afirma que seu novo modelo AYA Vision AI é o melhor da categoria

Coere para a IAA startup da IA ​​co-fins lucrativos da Startup, na sem fins lucrativos, lançou uma modelo multimodal de AI “aberta”, Aya Vision, o laboratório alegou ser o melhor da categoria.

A Aya Vision pode executar tarefas como escrever legendas de imagem, responder a perguntas sobre fotos, traduzir texto e gerar resumos em 23 idiomas principais. Coere, que também está disponibilizando a Visão AYA gratuitamente através do WhatsApp, chamou de “um passo significativo para tornar os avanços técnicos acessíveis a pesquisadores em todo o mundo”.

“Embora a IA tenha feito um progresso significativo, ainda existe uma grande lacuna no desempenho dos modelos em diferentes idiomas – que se torna ainda mais perceptível em tarefas multimodais que envolvem texto e imagens”, escreveu Coere em um Postagem do blog. “A Aya Vision pretende ajudar explicitamente a fechar essa lacuna.”

Aya Vision vem em alguns sabores: Aya Vision 32b e Aya Vision 8b. O mais sofisticado dos dois, Aya Vision 32b, define uma “nova fronteira”, disse Cohere, superando os modelos 2x do seu tamanho, incluindo Visão de Llama-3.2 90B de Meta em certos benchmarks de entendimento visual. Enquanto isso, o AYA Vision 8b pontua melhor em algumas avaliações do que os modelos 10x do seu tamanho, de acordo com a Coere.

Ambos os modelos são disponível Da plataforma de dev AI abraçando o rosto sob uma licença Creative Commons 4.0 com Adendo de uso aceitável de coere. Eles não podem ser usados ​​para aplicações comerciais.

Coere disse que a Visão AYA foi treinada usando um “pool diversificado” de conjuntos de dados em inglês, que o laboratório traduziu e usado para criar anotações sintéticas. Anotações, também conhecidas como tags ou etiquetas, ajudam os modelos a entender e interpretar dados durante o processo de treinamento. Por exemplo, a anotação para treinar um modelo de reconhecimento de imagem pode assumir a forma de marcas em torno de objetos ou legendas que se referem a cada pessoa, local ou objeto descrito em uma imagem.

O modelo AYA Vision da Cohere pode executar uma variedade de tarefas de entendimento visual.Créditos da imagem:Coere

O uso de anotações sintéticas de Cohere – ou seja, anotações geradas pela IA – está em tendência. Apesar de suas possíveis desvantagensrivais, incluindo o OpenAI, estão cada vez mais alavancando dados sintéticos para treinar modelos como o bem de dados do mundo real seca. Empresa de pesquisa Gartner estimativas que 60% dos dados utilizados para projetos de IA e análise no ano passado foram criados sinteticamente.

De acordo com a Coere, o treinamento da AYA Vision sobre anotações sintéticas permitiu ao laboratório usar menos recursos e alcançar o desempenho competitivo.

“Isso mostra nosso foco crítico na eficiência e (fazendo) mais usando menos computação”, escreveu Coere em seu blog. “Isso também permite um maior apoio à comunidade de pesquisa, que geralmente tem acesso mais limitado para calcular recursos”.

Juntamente com a AYA Vision, a Cohere também lançou uma nova suíte de benchmark, a AyavisionBench, projetada para investigar as habilidades de um modelo em tarefas de “linguagem da visão”, como identificar diferenças entre duas imagens e converter capturas de tela em código.

A indústria da IA ​​está no meio do que alguns chamaram de “crise de avaliação”, uma conseqüência da popularização de benchmarks que dar pontuações agregadas que se correlacionam mal à proficiência Nas tarefas, a maioria dos usuários de IA se preocupa. Coere afirma que o AyavisionBench é um passo para corrigir isso, fornecendo uma estrutura “ampla e desafiadora” para avaliar o entendimento cruzado e multimodal de um modelo.

Com alguma sorte, esse é realmente o caso.

“(T) o conjunto de dados do HE serve como uma referência robusta para avaliar modelos de linguagem da visão em configurações multilíngues e do mundo real”, Coere pesquisadores escreveu em um post em abraçar o rosto. “Disponibilizamos esse conjunto de avaliações à comunidade de pesquisa para avançar as avaliações multimodais multilíngues”.

Comments

No comments yet. Why don’t you start the discussion?

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *