Het is echter nog steeds goedkoper dan zijn concurrenten.
De nieuwe chatbot van Deepseek begroette me met een intrigerende introductie:
Hallo, ik ben gemaakt, zodat je alles kunt vragen en een antwoord kunt krijgen dat je misschien zou kunnen verrassen.
Tegenwoordig is de AI van Deepseek naar voren gekomen als een formidabele speler in de markt, met name die bijdraagt aan een van de grootste aandelenkoers van NVIDIA.
Afbeelding: ensigame.com
Wat dit model onderscheidt, zijn de innovatieve architectuur- en trainingsmethoden, waaronder:
Multi-Token Prediction (MTP): deze techniek stelt het model in staat om meerdere woorden tegelijkertijd te voorspellen door verschillende delen van een zin te analyseren, zowel nauwkeurigheid als efficiëntie te verbeteren. Mix van experts (MOE): gebruik van 256 neurale netwerken, met acht geactiveerd voor elke tokenverwerkingstaak, deze architectuur versnelt AI -training en verbetert de prestaties. Multi-Head Latent Attention (MLA): door zich herhaaldelijk op de belangrijkste delen van een zin te concentreren, vermindert MLA de kans om cruciale informatie over het hoofd te zien, waardoor essentiële nuances worden vastgelegd in de invoergegevens. DEEPSEEK, een prominente Chinese startup, claimt een competitief AI-model tegen een minimale kosten, die alleen $ 6 miljoen hebben besteed aan de training van slechts 2048 grafische werkers.
Afbeelding: ensigame.com
Uit analisten bij semianyse heeft echter aangetoond dat Deepseek een enorme computationele infrastructuur heeft met ongeveer 50.000 Nvidia Hopper GPU's, waaronder 10.000 H800 -eenheden, nog eens 10.000 H100s en extra H20 GPU's. Deze bronnen zijn verspreid over meerdere datacenters, gebruikt voor AI -training, onderzoek en financiële modellering.
De totale investering van het bedrijf in servers bedraagt ongeveer $ 1,6 miljard, met operationele kosten geschat op $ 944 miljoen.
Deepseek is een dochteronderneming van het Chinese hedgefonds High-Flyer, dat de startup lanceerde als een afzonderlijke AI-gerichte divisie in 2023. In tegenstelling tot de meeste startups die computerpower van cloudproviders leasen, bezit Deepseek zijn datacenters, waardoor de volledige controle over AI-modeloptimalisatie en snellere innovatie-implementatie mogelijk is. Het bedrijf blijft zelf gefinancierd, wat zijn behendigheid en besluitvormingssnelheid verbetert.
Afbeelding: ensigame.com
Bovendien verdienen sommige DeepSeek -onderzoekers jaarlijks meer dan $ 1,3 miljoen, waardoor toptalent van toonaangevende Chinese universiteiten (het bedrijf geen buitenlandse specialisten inhuurt).
Desondanks lijkt de recente claim van Deepseek om zijn nieuwste model te trainen voor slechts $ 6 miljoen onrealistisch. Dit cijfer is alleen rekening gehouden met GPU-gebruik tijdens pre-training en sluit onderzoekskosten, modelverfijning, gegevensverwerking en algemene infrastructuurkosten uit.
Sinds de start heeft Deepseek meer dan $ 500 miljoen geïnvesteerd in AI -ontwikkeling. Toch stelt de kleinere omvang in vergelijking met grotere, meer bureaucratische bedrijven het in staat om AI -innovaties actiever en effectiever te implementeren.
Afbeelding: ensigame.com
De case van Deepseek illustreert dat een goed gefinancierd onafhankelijk AI-bedrijf de industriële reuzen kan uitdagen. Desalniettemin benadrukken experts dat het succes van het bedrijf grotendeels te wijten is aan substantiële investeringen, technische doorbraken en een sterk team, in plaats van een "revolutionair budget" voor AI -modelontwikkeling.
Toch blijven de kosten van concurrenten aanzienlijk hoger. Deepseek besteedde bijvoorbeeld $ 5 miljoen aan R1, terwijl chatgpt4o $ 100 miljoen kostte.