Jest jednak nadal tańszy niż jego konkurenci.
Nowy chatbot z Deepseek powitał mnie intrygującym wprowadzeniem:
Cześć, zostałem stworzony, abyś mógł zapytać o wszystko i uzyskać odpowiedź, która może cię nawet zaskoczyć.
Dzisiaj AI Deepseek stała się potężnym graczem na rynku, w szczególności przyczyniając się do jednego z największych spadków cen akcji w NVIDIA.
Zdjęcie: engame.com
Tym, co wyróżnia ten model, to jego innowacyjna architektura i metody szkolenia, które obejmują:
Prognozowanie wielofunkcyjne (MTP): Ta technika pozwala modelowi przewidywać wiele słów jednocześnie poprzez analizę różnych części zdania, poprawiając zarówno dokładność, jak i wydajność. Mieszanka ekspertów (MOE): Wykorzystanie 256 sieci neuronowych, z ośmioma aktywowanymi dla każdego zadania przetwarzania tokenu, ta architektura przyspiesza szkolenie AI i zwiększa wydajność. Wielorakiej ukrytej uwagi (MLA): Koncentrując się na najważniejszych częściach zdania, MLA zmniejsza szansę przeoczenia kluczowych informacji, rejestrowając w ten sposób niezbędne niuanse w danych wejściowych. DEEPSEEK, wybitne chińskie startup, twierdzi, że opracował konkurencyjny model AI przy minimalnym koszcie, a ich minimalne koszty wydały tylko 6 milionów dolarów, używając tylko 2048 procesorów graficznych.
Zdjęcie: engame.com
Jednak analitycy z semianalizy ujawnili, że Deepseek prowadzi ogromną infrastrukturę obliczeniową z około 50 000 GPU Nvidia Hopper, w tym 10 000 jednostek H800, kolejne 10 000 H100 i dodatkowe GPU H20. Zasoby te są rozpowszechniane na wiele centrów danych, wykorzystywane do szkolenia AI, badania i modelowanie finansowe.
Całkowita inwestycja Spółki w serwerach wynosi około 1,6 miliarda USD, a koszty operacyjne wynoszą 944 mln USD.
DeepSeek jest spółką zależną chińskiego funduszu hedgingowego High-Flyer, która uruchomiła startup jako oddzielny podział ukierunkowany na sztuczną inteligencję w 2023 r. W przeciwieństwie do większości startupów, które wynajmują moc obliczeniową od dostawców chmur, DeepSeek jest właścicielem centrów danych, umożliwiając pełną kontrolę nad optymalizacją modelu AI i szybszą implementację innowacji. Firma pozostaje finansowana, co zwiększa jej zwinność i szybkość decyzyjną.
Zdjęcie: engame.com
Ponadto niektórzy deepeek badacze zarabiają ponad 1,3 miliona dolarów rocznie, czerpiąc najwyższe talenty wiodących chińskich uniwersytetów (firma nie zatrudnia zagranicznych specjalistów).
Mimo to ostatnie twierdzenie Deepseeka o szkolenie najnowszego modelu za jedyne 6 milionów dolarów wydaje się nierealne. Liczba ta uwzględnia tylko użycie GPU podczas wstępnego treningu i wyklucza wydatki badawcze, udoskonalanie modelu, przetwarzanie danych i ogólne koszty infrastruktury.
Od samego początku Deepseek zainwestował ponad 500 milionów dolarów w rozwój AI. Jednak jego mniejszy rozmiar w porównaniu z większymi, bardziej biurokratycznymi firmami umożliwia mu aktywniejsze i skuteczne wdrażanie innowacji AI.
Zdjęcie: engame.com
Sprawa Deepseek ilustruje, że dobrze finansowana niezależna firma AI może rzucić wyzwanie gigantom branżowym. Niemniej jednak eksperci podkreślają, że sukces firmy wynika głównie z znacznych inwestycji, przełomów technicznych i silnego zespołu, a nie „rewolucyjnego budżetu” dla rozwoju modelu AI.
Mimo to koszty konkurencji pozostają znacznie wyższe. Na przykład Deepseek wydał 5 milionów dolarów na R1, podczas gdy Chatgpt4O kosztował 100 milionów dolarów.