그러나 경쟁사보다 여전히 저렴합니다.
DeepSeek의 새로운 챗봇은 흥미로운 소개로 나를 맞이했습니다.
안녕하세요, 나는 당신이 무엇이든 물어보고 당신을 놀라게 할 수있는 대답을 얻을 수 있도록 만들어졌습니다.
오늘날 DeepSeek의 AI는 시장에서 강력한 선수로 부상하여 Nvidia의 가장 큰 주가 하락 중 하나에 기여했습니다.
이미지 : ensigame.com
이 모델을 구별하는 것은 다음과 같은 혁신적인 아키텍처 및 교육 방법입니다.
MTP ( Multi-Token Prediction ) :이 기술을 통해 모델은 문장의 다양한 부분을 분석하여 정확도와 효율성을 모두 향상시켜 여러 단어를 동시에 예측할 수 있습니다. 전문가 혼합 (MOE) : 256 개의 신경망을 활용하여 각 토큰 처리 작업마다 8 개의 활성화 된이 아키텍처는 AI 교육 속도를 높이고 성능을 향상시킵니다. 다중 헤드 잠재주의 (MLA) : 문장의 가장 중요한 부분에 중점을 두어 MLA는 중요한 정보를 간과 할 가능성을 줄여 입력 데이터의 필수 뉘앙스를 포착합니다.
이미지 : ensigame.com
그러나 Semianalysis의 분석가들은 DeepSeek이 10,000 H800 단위, 또 다른 10,000 H100 및 추가 H20 GPU를 포함하여 약 50,000 NVIDIA HOPPER GPUS를 갖춘 광범위한 계산 인프라를 운영한다고 밝혔다. 이러한 리소스는 여러 데이터 센터에 걸쳐 AI 교육, 연구 및 재무 모델링에 사용됩니다.
회사의 서버에 대한 총 투자는 약 16 억 달러이며 운영 비용은 9 억 9,400 만 달러로 추정됩니다.
DeepSeek은 중국 헤지 펀드 High-Flyer의 자회사로 2023 년에 별도의 AI 중심 부서로 스타트 업을 시작했습니다. 클라우드 제공 업체의 컴퓨팅 전력을 임대하는 대부분의 스타트 업과 달리 데이터 센터를 소유하고있어 AI 모델 최적화 및 더 빠른 혁신 구현을 완전히 제어 할 수 있습니다. 회사는 자체 자금을 유지하여 민첩성과 의사 결정 속도를 향상시킵니다.
이미지 : ensigame.com
또한 일부 심해 연구원들은 매년 130 만 달러 이상을 벌어 중국 대학에서 최고의 인재를 끌어 들이고 있습니다 (회사는 외국 전문가를 고용하지 않습니다).
그럼에도 불구하고, Deepseek의 최근 6 백만 달러에 대한 최신 모델을 훈련 한 주장은 비현실적으로 보입니다. 이 수치는 사전 훈련 중 GPU 사용을 설명하며 연구 비용, 모델 개선, 데이터 처리 및 전체 인프라 비용을 제외합니다.
DeepSeek은 처음부터 AI 개발에 5 억 달러 이상을 투자했습니다. 그러나 더 큰 관료적 회사에 비해 작은 규모는 AI 혁신을보다 적극적이고 효과적으로 구현할 수있게합니다.
이미지 : ensigame.com
Deepseek의 사례는 잘 자금을 지원하는 독립 AI 회사가 업계 거인에게 도전 할 수 있음을 보여줍니다. 그럼에도 불구하고 전문가들은 회사의 성공이 AI 모델 개발을위한 "혁신적인 예산"보다는 상당한 투자, 기술 혁신 및 강력한 팀 때문이라고 강조합니다.
그럼에도 불구하고 경쟁 업체의 비용은 상당히 높아집니다. 예를 들어, DeepSeek은 R1에 5 백만 달러를 소비 한 반면 ChatGpt4o는 1 억 달러가 들었습니다.