Deep Cogito emerge da furtividade com modelos híbridos de ‘raciocínio’

Uma nova empresa, Profundo cogitoemergiu da furtividade com uma família de modelos de IA disponíveis abertamente que podem ser alterados entre os modos de “raciocínio” e não raciocínio.

Modelos de raciocínio como o OpenAI’s O1 mostraram uma grande promessa em domínios como matemática e física, graças à sua capacidade de efetivamente se checar, trabalhando através de problemas complexos passo a passo. Esse raciocínio tem um custo, no entanto: computação e latência mais altas. É por isso laboratórios como antropia estão buscando arquiteturas de modelos “híbridas” que combinam componentes de raciocínio com elementos padrão e não raciocínio. Os modelos híbridos podem responder rapidamente a perguntas simples, gastando tempo adicional, considerando consultas mais desafiadoras.

Todos os modelos de Deep Cogito, chamados Cogito 1, são modelos híbridos. O Cogito afirma que eles superam os melhores modelos abertos do mesmo tamanho, incluindo modelos de meta e startup de IA chinesa Deepseek.

“Cada modelo pode responder diretamente (…) ou se auto-refletir antes de responder (como modelos de raciocínio)”, a empresa explicado em uma postagem no blog. “(Todos) foram desenvolvidos por uma pequena equipe em aproximadamente 75 dias.”

Os modelos Cogito 1 variam de 3 bilhões de parâmetros a 70 bilhões de parâmetros, e Cogito diz que os modelos que variam de até 671 bilhões de parâmetros se juntarão a eles nas próximas semanas e meses. Os parâmetros correspondem aproximadamente às habilidades de solução de problemas de um modelo, com mais parâmetros geralmente sendo melhores.

O Cogito 1 não foi desenvolvido a partir do zero, para ser claro. O Deep Cogito construiu sobre os modelos Open Llama e da Alibaba para criar seus próprios. A empresa diz que aplicou novas abordagens de treinamento para aumentar o desempenho dos modelos básicos e permitir o raciocínio alternável.

De acordo com os resultados do benchmarking interno de Cogito, o maior modelo Cogito 1, Cogito 70B, com o raciocínio supera o modelo de raciocínio R1 da Deepseek em algumas avaliações de matemática e idiomas. O Cogito 70b com o raciocínio desativado também eclipsa o modelo LLAMA 4 LLAMA 4, do Meta, lançado no Livebench, um teste de IA de uso geral.

Todo modelo Cogito 1 está disponível para download ou uso via APIs nos provedores de fogos de artifício da nuvem AI e juntos ai.

O desempenho do Cogito 1 em comparação com outros modelos populares de IA abertamente disponíveisCréditos da imagem:Profundo cogito

“Atualmente, ainda estamos nos estágios iniciais da (nossa) curva de escala, tendo usado apenas uma fração de computação normalmente reservada para o modelo tradicional de modelo de grande idioma/treinamento contínuo”, escreveu Cogito em sua postagem no blog. “Avançando, estamos investigando abordagens pós-treinamento complementares para auto-aperfeiçoamento”.

De acordo com os registros com o estado da CalifórniaDeep Cogito, com sede em São Francisco, foi fundado em junho de 2024. A empresa Página do LinkedIn Lista dois co-fundadores, Drishan Arora e Dhruv Malhotra. Malhotra era anteriormente gerente de produto no Google AI Lab DeepMind, onde trabalhou em tecnologia de pesquisa generativa. Arora era engenheiro de software sênior no Google.

Deep Cogito, cujos patrocinadores incluem South Park Commons, De acordo com o Pitchbookambiciosamente pretende construir “Superintelligência Geral”. Os fundadores da empresa entendem que a frase significa IA que pode executar tarefas melhor do que a maioria dos seres humanos e “descobrir recursos totalmente novos que ainda precisamos imaginar”.

Deep Cogito emerge da furtividade com modelos híbridos de ‘raciocínio’

Comments

Deixe um comentário Cancelar resposta