Deepseek se tornou viral.
O laboratório chinês de Ai Deepseek invadiu a consciência convencional nesta semana depois Seu aplicativo de chatbot chegou ao topo dos gráficos da Apple App Store (e Google Play também). Os modelos de IA da Deepseek, que foram treinados usando técnicas com eficiência de computação, os analistas de Wall Street lideraram – e tecnólogos – Para questionar se os EUA podem manter sua liderança na raça de IA e se a demanda por chips de IA sustentará.
Mas de onde veio o Deepseek e como se elevou à fama internacional tão rapidamente?
As origens comerciais de Deepseek
A Deepseek é apoiada pela High-Flyer Capital Management, um fundo de hedge quantitativo chinês que usa a IA para informar suas decisões comerciais.
Entusiasta da IA Liang Wenfeng Co-fundou o High-Flyer em 2015. Wenfeng, que teria começado a se interessar por negociações enquanto um estudante da Universidade de Zhejiang, lançou o High-Flyer Capital Management como fundo de hedge em 2019, focado no desenvolvimento e implantação de algoritmos de IA.
Em 2023, o High-Flyer começou a Deepseek como um laboratório dedicado à pesquisa de ferramentas de IA separadas de seus negócios financeiros. Com o High-Flyer como um de seus investidores, o laboratório girou em sua própria empresa, também chamada Deepseek.
Desde o primeiro dia, a Deepseek construiu seus próprios clusters de data center para treinamento de modelos. Mas, como outras empresas de IA na China, Deepseek foi afetado pelas proibições de exportação dos EUA em hardware. Para treinar um de seus modelos mais recentes, a empresa foi forçada a usar o NVIDIA H800 Chips, uma versão menos poderosa de um chip, o H100, disponível para empresas americanas.
Diz -se que a equipe técnica de Deepseek distorce Young. A empresa supostamente recruta agressivamente Doutorado Pesquisadores de IA das melhores universidades chinesas. Deepseek também contrata pessoas sem nenhum histórico de ciência da computação Para ajudar sua tecnologia a entender melhor uma ampla gama de assuntos, de acordo com o New York Times.
Modelos fortes de Deepseek
A Deepseek apresentou seu primeiro conjunto de modelos-Deepseek Coder, Deepseek LLM e Deepseek Chat-em novembro de 2023. Mas não foi até a primavera passada, quando a startup lançou sua família de modelos de mais geração Deepseek-V2, que a indústria de IA começou a prestar atenção.
Deepseek-V2, um sistema de análise de texto e imagem de uso geral, teve um bom desempenho em vários benchmarks de IA-e era muito mais barato de executar do que os modelos comparáveis na época. Forçou a concorrência doméstica de Deepseek, incluindo Bytedance e Alibaba, a reduzir os preços de uso de alguns de seus modelos e tornar os outros completamente gratuitos.
Deepseek-V3lançado em dezembro de 2024, apenas adicionou à notoriedade de Deepseek.
De acordo com os testes internos de benchmark da Deepseek, o Deepseek V3 supera modelos para downloads e abertamente disponíveis como Meta’s Lhama e modelos “fechados” que só podem ser acessados através de uma API, como GPT-4O.
Igualmente impressionante é o modelo de “raciocínio” do Deepseek. Lançado em janeiro, afirma Deepseek R1 executa, bem como o modelo O1 do OpenAI em benchmarks -chave.
Sendo um modelo de raciocínio, o R1 efetivamente se chicando, o que ajuda a evitar algumas das armadilhas que normalmente disparam modelos. Os modelos de raciocínio demoram um pouco mais-geralmente segundos a minutos a mais-para chegar a soluções em comparação com um modelo típico de não-reamento. A vantagem é que eles tendem a ser mais confiáveis em domínios como física, ciência e matemática.
No entanto, há uma desvantagem para R1, Deepseek V3 e outros modelos de Deepseek. Sendo a IA desenvolvida em chinês, eles estão sujeitos a benchmarking pelo regulador da Internet da China para garantir que suas respostas “incorporem os principais valores socialistas”. No aplicativo Chatbot da Deepseek, por exemplo, o R1 não responderá perguntas sobre a Praça Tiananmen ou a autonomia de Taiwan.
Uma abordagem disruptiva
Se o Deepseek tem um modelo de negócios, não está claro o que é esse modelo exatamente. A empresa prende seus produtos e serviços bem abaixo do valor de mercado – e distribui os outros gratuitamente.
A maneira como a Deepseek diz, os avanços da eficiência permitiram manter a extrema competitividade de custos. Alguns especialistas disputa Os números que a empresa forneceu, no entanto.
Seja qual for o caso, os desenvolvedores adotaram os modelos da Deepseek, que não são de código aberto, pois a frase é comumente entendida, mas estão disponíveis sob licenças permissivas que permitem uso comercial. De acordo com Clem Delangue, o CEO de abraçar o rosto, uma das plataformas que hospedam modelos de Deepseek, Os desenvolvedores em Hugging Face criaram mais de 500 modelos “derivados” de R1 que acumularam 2,5 milhões de downloads combinados.
O sucesso de Deepseek contra rivais maiores e mais estabelecidos tem sido descrito como “AI subindo” e “Over-Hyped.” O sucesso da empresa foi pelo menos em parte responsável por Fazendo com que o preço das ações da Nvidia caia em 18% em janeiro e para provocando uma resposta pública Do CEO da Openai, Sam Altman.
Microsoft anunciou que a Deepseek está disponível em seu serviço de fundição do Azure AIA plataforma da Microsoft que reúne serviços de IA para empresas sob um único banner. Quando perguntado sobre o impacto de Deepseek nos gastos com IA da Meta durante sua chamada de ganhos no primeiro trimestre, disse o CEO Mark Zuckerberg Os gastos com infraestrutura de IA continuarão sendo uma “vantagem estratégica” para meta.
Durante a chamada de ganhos do quarto trimestre da NVIDIA, O CEO Jensen Huang enfatizou a “excelente inovação” da Deepseek. Dizer que os modelos TI e outros “raciocínio” são ótimos para a NVIDIA, porque precisam muito mais de computação.
Ao mesmo tempo, Algumas empresas estão proibindo Deepseeke também são inteiros países e governosAssim, incluindo Coréia do Sul. Estado de Nova York também Proibido Deepseek de ser usado em dispositivos do governo.
Quanto ao que o futuro de Deepseek pode ter, não está claro. Modelos aprimorados são um dado. Mas o governo dos EUA parece ser ficando cauteloso com o que considera influência estrangeira prejudicial.
O TechCrunch tem um boletim informativo focado na IA! Inscreva -se aqui Para obtê -lo em sua caixa de entrada toda quarta -feira.
Esta história foi publicada originalmente em 28 de janeiro de 2025 e será atualizada regulamento.