Gayunpaman, mas mura pa ito kaysa sa mga katunggali nito.
Ang bagong chatbot mula sa Deepseek ay bumati sa akin ng isang nakakaintriga na pagpapakilala:
Kumusta, nilikha ako upang maaari kang magtanong ng anuman at makakuha ng isang sagot na maaaring sorpresa ka.
Ngayon, ang Deepseek's AI ay lumitaw bilang isang mabigat na manlalaro sa merkado, lalo na na nag -aambag sa isa sa pinakamalaking pagtanggi ng presyo ng stock ng NVIDIA.
Larawan: ensigame.com
Ang nakikilala sa modelong ito ay ang makabagong mga pamamaraan ng arkitektura at pagsasanay, na kinabibilangan ng:
Multi-Token Prediction (MTP): Pinapayagan ng pamamaraan na ito ang modelo na mahulaan ang maraming mga salita nang sabay-sabay sa pamamagitan ng pagsusuri ng iba't ibang bahagi ng isang pangungusap, pagpapabuti ng parehong kawastuhan at kahusayan. Paghahalo ng mga eksperto (MOE): Paggamit ng 256 Neural Networks, na may walong na -aktibo para sa bawat gawain sa pagproseso ng token, ang arkitektura na ito ay nagpapabilis sa pagsasanay sa AI at nagpapahusay ng pagganap. Multi-head latent pansin (MLA): Sa pamamagitan ng pagtuon sa mga pinaka makabuluhang bahagi ng isang pangungusap nang paulit-ulit, binabawasan ng MLA ang pagkakataon na maabot ang mahahalagang impormasyon, sa gayon ay nakakakuha ng mahahalagang nuances sa data ng pag-input.Deepseek, isang kilalang pagsisimula ng Tsino, na nag-aangkin na nakabuo ng isang mapagkumpitensyang modelo ng AI sa isang minimal na gastos, na nag-uumpisa lamang sa $ 6 milyon sa pagsasanay na Deepseek V3, gamit lamang ang 2048 na mga graphic na proseso.
Larawan: ensigame.com
Gayunpaman, ang mga analyst sa semianalysis ay nagsiwalat na ang Deepseek ay nagpapatakbo ng isang malawak na imprastraktura ng computational na may halos 50,000 NVIDIA Hopper GPU, kabilang ang 10,000 H800 unit, isa pang 10,000 H100s, at karagdagang mga H20 GPU. Ang mga mapagkukunang ito ay kumakalat sa maraming mga sentro ng data, na ginagamit para sa pagsasanay, pananaliksik, at pagmomolde ng pananalapi.
Ang kabuuang pamumuhunan ng kumpanya sa mga server ay nakatayo sa humigit -kumulang na $ 1.6 bilyon, na may mga gastos sa pagpapatakbo na tinatayang $ 944 milyon.
Ang Deepseek ay isang subsidiary ng Chinese Hedge Fund High-flyer, na naglunsad ng pagsisimula bilang isang hiwalay na dibisyon na nakatuon sa AI noong 2023. Hindi tulad ng karamihan sa mga startup na nag-upa ng kapangyarihan ng computing mula sa mga tagapagbigay ng ulap, ang Deepseek ay nagmamay-ari ng mga sentro ng data nito, na nagpapahintulot sa buong kontrol sa pag-optimize ng modelo ng AI at mas mabilis na pagpapatupad ng pagbabago. Ang kumpanya ay nananatiling pondo sa sarili, na nagpapabuti sa liksi at bilis ng paggawa ng desisyon.
Larawan: ensigame.com
Bukod dito, ang ilang mga mananaliksik ng Deepseek ay kumita ng higit sa $ 1.3 milyon taun -taon, pagguhit ng nangungunang talento mula sa nangungunang unibersidad ng Tsino (ang kumpanya ay hindi umarkila ng mga dayuhang espesyalista).
Sa kabila nito, ang kamakailang pag -angkin ng Deepseek ng pagsasanay sa pinakabagong modelo nito para sa $ 6 milyon lamang ay lilitaw na hindi makatotohanang. Ang figure na ito ay nagkakaroon lamang ng paggamit ng GPU sa panahon ng pre-pagsasanay at hindi kasama ang mga gastos sa pananaliksik, pagpipino ng modelo, pagproseso ng data, at pangkalahatang mga gastos sa imprastraktura.
Mula nang magsimula ito, ang Deepseek ay namuhunan ng higit sa $ 500 milyon sa pag -unlad ng AI. Gayunpaman, ang mas maliit na sukat nito kumpara sa mas malaki, mas maraming mga kumpanya ng burukrasya ay nagbibigay -daan upang maipatupad ang mga makabagong AI na mas aktibo at epektibo.
Larawan: ensigame.com
Ang kaso ng Deepseek ay naglalarawan na ang isang mahusay na pinondohan na independiyenteng kumpanya ng AI ay maaaring hamunin ang mga higante sa industriya. Gayunpaman, binibigyang diin ng mga eksperto na ang tagumpay ng kumpanya ay higit sa lahat dahil sa malaking pamumuhunan, mga teknikal na tagumpay, at isang malakas na koponan, sa halip na isang "rebolusyonaryong badyet" para sa pag -unlad ng modelo ng AI.
Gayunpaman, ang mga gastos sa mga kakumpitensya ay mananatiling mas mataas. Halimbawa, ang Deepseek ay gumugol ng $ 5 milyon sa R1, habang ang Chatgpt4o ay nagkakahalaga ng $ 100 milyon.