No entanto, ainda é mais barato que seus concorrentes.
O novo chatbot da Deepseek me recebeu com uma introdução intrigante:
Olá, fui criado para que você possa perguntar qualquer coisa e obter uma resposta que pode até surpreendê -lo.
Hoje, a IA de Deepseek emergiu como um participante formidável no mercado, contribuindo principalmente para uma das maiores declínios do preço das ações da NVIDIA.
Imagem: Ensigame.com
O que distingue esse modelo são seus métodos inovadores de arquitetura e treinamento, que incluem:
Previsão com vários toques (MTP): Essa técnica permite que o modelo preveja várias palavras simultaneamente analisando várias partes de uma frase, melhorando a precisão e a eficiência. Mistura de especialistas (MOE): Utilizando 256 redes neurais, com oito ativados para cada tarefa de processamento de token, essa arquitetura acelera o treinamento de IA e aprimora o desempenho. ATENÇÃO LATENTE DE MULTI-CABEÇA (MLA): Ao concentrar-se nas partes mais significativas de uma frase repetidamente, o MLA reduz a chance de negligenciar informações cruciais, capturando assim nuances essenciais nos dados de entrada.
Imagem: Ensigame.com
No entanto, os analistas da Semiânica revelaram que o DeepSeek opera uma vasta infraestrutura computacional com cerca de 50.000 GPUs NVIDIA Hopper, incluindo 10.000 unidades H800, outras 10.000 H100s e GPUs H20 adicionais. Esses recursos estão espalhados por vários data centers, usados para treinamento, pesquisa e modelagem financeira de IA.
O investimento total da empresa em servidores é de aproximadamente US $ 1,6 bilhão, com custos operacionais estimados em US $ 944 milhões.
A Deepseek é uma subsidiária do fundo de hedge chinês High-Flyer, que lançou a startup como uma divisão focada em IA separada em 2023. Ao contrário da maioria das startups que arrendam o poder de computação de provedores de nuvem, a DeepSeek possui seus data centers, permitindo controle total sobre o Model Optimization e a implementação de inovação mais rápida. A empresa permanece autofinanciada, o que aumenta sua agilidade e velocidade de tomada de decisão.
Imagem: Ensigame.com
Além disso, alguns pesquisadores da Deepseek ganham mais de US $ 1,3 milhão por ano, atraindo os principais talentos das principais universidades chinesas (a empresa não contrata especialistas estrangeiros).
Apesar disso, a recente reivindicação da Deepseek de treinar seu modelo mais recente por apenas US $ 6 milhões parece irrealista. Este número é responsável apenas pelo uso da GPU durante o pré-treinamento e exclui despesas de pesquisa, refinamento de modelos, processamento de dados e custos gerais de infraestrutura.
Desde o seu início, a Deepseek investiu mais de US $ 500 milhões em desenvolvimento de IA. No entanto, seu tamanho menor em comparação com empresas maiores e mais burocráticas permite implementar inovações de IA de maneira mais ativa e eficaz.
Imagem: Ensigame.com
O caso de Deepseek ilustra que uma empresa independente de IA bem financiada pode desafiar os gigantes do setor. No entanto, os especialistas enfatizam que o sucesso da empresa se deve em grande parte a investimentos substanciais, avanços técnicos e uma equipe forte, em vez de um "orçamento revolucionário" para o desenvolvimento do modelo de IA.
Ainda assim, os custos dos concorrentes permanecem significativamente maiores. Por exemplo, a Deepseek gastou US $ 5 milhões em R1, enquanto o ChatGPT4O custou US $ 100 milhões.