Tuy nhiên, nó vẫn rẻ hơn so với các đối thủ cạnh tranh.
Chatbot mới từ Deepseek đã chào đón tôi với lời giới thiệu hấp dẫn:
Xin chào, tôi đã được tạo ra để bạn có thể hỏi bất cứ điều gì và nhận được câu trả lời thậm chí có thể làm bạn ngạc nhiên.
Ngày nay, AI của Deepseek đã nổi lên như một người chơi đáng gờm trên thị trường, đáng chú ý là đóng góp cho một trong những giá cổ phiếu lớn nhất của Nvidia.
Hình ảnh: Ensigame.com
Những gì phân biệt mô hình này là các phương pháp đào tạo và kiến trúc sáng tạo của nó, bao gồm:
Dự đoán đa điểm (MTP): Kỹ thuật này cho phép mô hình dự đoán đồng thời nhiều từ bằng cách phân tích các phần khác nhau của câu, cải thiện cả độ chính xác và hiệu quả. Hỗn hợp các chuyên gia (MOE): Sử dụng 256 mạng thần kinh, với tám mạng được kích hoạt cho mỗi nhiệm vụ xử lý mã thông báo, kiến trúc này tăng tốc độ đào tạo AI và tăng cường hiệu suất. Sự chú ý tiềm ẩn nhiều đầu (MLA): Bằng cách tập trung vào các phần quan trọng nhất của câu nhiều lần, MLA làm giảm cơ hội nhìn ra thông tin quan trọng, do đó nắm bắt các sắc thái thiết yếu trong dữ liệu đầu vào.
Hình ảnh: Ensigame.com
Tuy nhiên, các nhà phân tích tại Semianalysis đã tiết lộ rằng Deepseek vận hành một cơ sở hạ tầng tính toán rộng lớn với khoảng 50.000 GPU phễu NVIDIA, bao gồm 10.000 đơn vị H800, 10.000 H100 khác và GPU H20 khác. Các tài nguyên này được trải rộng trên nhiều trung tâm dữ liệu, được sử dụng để đào tạo, nghiên cứu và mô hình tài chính AI.
Tổng số tiền đầu tư của công ty vào các máy chủ ở mức khoảng 1,6 tỷ đô la, với chi phí hoạt động ước tính khoảng 944 triệu đô la.
Deepseek là một công ty con của quỹ đầu cơ của Trung Quốc, đã khởi động công ty khởi nghiệp như một bộ phận tập trung vào AI riêng vào năm 2023. Không giống như hầu hết các công ty khởi nghiệp cho thuê sức mạnh điện toán từ các nhà cung cấp đám mây, DeepSeek sở hữu các trung tâm dữ liệu của mình, cho phép kiểm soát hoàn toàn đối với tối ưu hóa mô hình AI và triển khai đổi mới nhanh hơn. Công ty vẫn tự tài trợ, giúp tăng cường sự nhanh nhẹn và tốc độ ra quyết định.
Hình ảnh: Ensigame.com
Hơn nữa, một số nhà nghiên cứu Deepseek kiếm được hơn 1,3 triệu đô la hàng năm, thu hút tài năng hàng đầu từ các trường đại học hàng đầu Trung Quốc (công ty không thuê các chuyên gia nước ngoài).
Mặc dù vậy, yêu cầu đào tạo gần đây của Deepseek về mô hình mới nhất của mình chỉ với 6 triệu đô la xuất hiện không thực tế. Con số này chỉ chiếm việc sử dụng GPU trong quá trình đào tạo trước và loại trừ các chi phí nghiên cứu, sàng lọc mô hình, xử lý dữ liệu và chi phí cơ sở hạ tầng tổng thể.
Kể từ khi bắt đầu, Deepseek đã đầu tư hơn 500 triệu đô la vào sự phát triển của AI. Tuy nhiên, quy mô nhỏ hơn của nó so với các công ty lớn hơn, quan liêu hơn cho phép nó thực hiện các đổi mới AI tích cực và hiệu quả hơn.
Hình ảnh: Ensigame.com
Trường hợp của Deepseek minh họa rằng một công ty AI độc lập được tài trợ tốt có thể thách thức những người khổng lồ trong ngành. Tuy nhiên, các chuyên gia nhấn mạnh rằng thành công của công ty phần lớn là do các khoản đầu tư đáng kể, đột phá kỹ thuật và một nhóm mạnh mẽ, thay vì "ngân sách cách mạng" để phát triển mô hình AI.
Tuy nhiên, chi phí của đối thủ vẫn cao hơn đáng kể. Ví dụ, Deepseek đã chi 5 triệu đô la cho R1, trong khi TATGPT4O có giá 100 triệu đô la.