Cependant, il est encore moins cher que ses concurrents.
Le nouveau chatbot de Deepseek m'a accueilli avec une introduction intrigante:
Salut, j'ai été créé pour que vous puissiez demander n'importe quoi et obtenir une réponse qui pourrait même vous surprendre.
Aujourd'hui, l'IA de Deepseek est devenue un acteur formidable sur le marché, contribuant notamment à l'une des plus importantes baisses du cours des actions de Nvidia.
Image: esigame.com
Ce qui distingue ce modèle, ce sont ses méthodes d'architecture et de formation innovantes, notamment:
Prédiction multi-token (MTP): Cette technique permet au modèle de prédire plusieurs mots simultanément en analysant diverses parties d'une phrase, améliorant à la fois la précision et l'efficacité. Mélange d'experts (MOE): en utilisant 256 réseaux de neurones, avec huit activés pour chaque tâche de traitement de jeton, cette architecture accélère la formation d'IA et améliore les performances. Attention latente à plusieurs têtes (MLA): En se concentrant à plusieurs reprises sur les parties les plus importantes d'une phrase, le MLA réduit les chances de négliger des informations cruciales, capturant ainsi les nuances essentielles dans les données d'entrée.
Image: esigame.com
Cependant, les analystes de la semianalyse ont révélé que Deepseek exploite une vaste infrastructure de calcul avec environ 50 000 GPU Nvidia Hopper, dont 10 000 unités H800, 10 000 H100 supplémentaires et des GPU H20 supplémentaires. Ces ressources sont réparties sur plusieurs centres de données, utilisés pour la formation, la recherche et la modélisation financière de l'IA.
L'investissement total de la société dans les serveurs s'élève à environ 1,6 milliard de dollars, avec des coûts opérationnels estimés à 944 millions de dollars.
Deepseek est une filiale du High-Flyer de fonds spéculatifs chinois, qui a lancé la startup en tant que division distincte axée sur l'IA en 2023. Contrairement à la plupart des startups qui louent le pouvoir de calcul des fournisseurs de cloud, Deepseek possède ses centres de données, permettant un contrôle total sur l'optimisation du modèle AI et la mise en œuvre de l'innovation rapide. L'entreprise reste autofinancée, ce qui améliore son agilité et sa vitesse de prise de décision.
Image: esigame.com
En outre, certains chercheurs en profondeur gagnent plus de 1,3 million de dollars par an, tirant les meilleurs talents des principales universités chinoises (la société n'embauche pas de spécialistes étrangers).
Malgré cela, la récente affirmation de Deepseek de formation de son dernier modèle pour seulement 6 millions de dollars semble irréaliste. Ce chiffre ne représente que l'utilisation du GPU pendant la pré-formation et exclut les dépenses de recherche, le raffinement du modèle, le traitement des données et les coûts globaux des infrastructures.
Depuis son début, Deepseek a investi plus de 500 millions de dollars dans le développement de l'IA. Pourtant, sa taille plus petite par rapport aux entreprises plus grandes et plus bureaucratiques lui permet de mettre en œuvre les innovations d'IA plus activement et plus efficacement.
Image: esigame.com
Le cas de Deepseek montre qu'une entreprise d'IA indépendante bien financée peut défier les géants de l'industrie. Néanmoins, les experts soulignent que le succès de l'entreprise est largement dû à des investissements substantiels, à des percées techniques et à une équipe solide, plutôt qu'à un "budget révolutionnaire" pour le développement du modèle d'IA.
Pourtant, les coûts des concurrents restent considérablement plus élevés. Par exemple, Deepseek a dépensé 5 millions de dollars pour R1, tandis que ChatGpt4o a coûté 100 millions de dollars.