Sin embargo, sigue siendo más barato que sus competidores.
El nuevo chatbot de Deepseek me recibió con una introducción intrigante:
Hola, fui creado para que puedas preguntar cualquier cosa y obtener una respuesta que pueda sorprenderte.
Hoy, la IA de Deepseek se ha convertido en un jugador formidable en el mercado, especialmente contribuyendo a una de las mayores disminuciones del precio de las acciones de Nvidia.
Imagen: ensigame.com
Lo que distingue a este modelo son sus innovadores métodos de arquitectura y capacitación, que incluyen:
Predicción múltiple (MTP): esta técnica permite que el modelo predice múltiples palabras simultáneamente analizando varias partes de una oración, mejorando tanto la precisión como la eficiencia. Mezcla de expertos (MOE): utilizando 256 redes neuronales, con ocho activadas para cada tarea de procesamiento de tokens, esta arquitectura acelera la capacitación de IA y mejora el rendimiento. Atención latente de múltiples cabezas (MLA): al centrarse en las partes más significativas de una oración repetidamente, MLA reduce la posibilidad de pasar por alto información crucial, capturando así los matices esenciales en los datos de entrada.
Imagen: ensigame.com
Sin embargo, los analistas de Semianalysis han revelado que Deepseek opera una vasta infraestructura computacional con alrededor de 50,000 GPU de tolva NVIDIA, incluidas 10,000 unidades H800, otras 10,000 H100 y GPU H20 adicionales. Estos recursos se distribuyen en múltiples centros de datos, utilizados para capacitación de IA, investigación y modelado financiero.
La inversión total de la compañía en servidores es de aproximadamente $ 1.6 mil millones, con costos operativos estimados en $ 944 millones.
Deepseek es una subsidiaria del Fondo de cobertura chino High-Flyer, que lanzó la startup como una división separada centrada en la IA en 2023. A diferencia de la mayoría de las startups que arrendan el poder informático de los proveedores de la nube, Deepseek posee sus centros de datos, lo que permite un control total sobre la optimización del modelo AI y la implementación de innovación rápida. La compañía sigue siendo autofinanciada, lo que mejora su agilidad y velocidad de toma de decisiones.
Imagen: ensigame.com
Además, algunos investigadores de Deepseek ganan más de $ 1.3 millones anuales, lo que atrae el mejor talento de las principales universidades chinas (la compañía no contrata especialistas en el extranjero).
A pesar de esto, el reciente reclamo de Deepseek de capacitar a su último modelo por solo $ 6 millones parece poco realista. Esta cifra solo representa el uso de la GPU durante la capacitación previa y excluye los gastos de investigación, el refinamiento del modelo, el procesamiento de datos y los costos generales de infraestructura.
Desde su inicio, Deepseek ha invertido más de $ 500 millones en desarrollo de IA. Sin embargo, su tamaño más pequeño en comparación con las compañías más grandes y burocráticas le permite implementar innovaciones de IA de manera más activa y efectiva.
Imagen: ensigame.com
El caso de Deepseek ilustra que una compañía de IA independiente bien financiada puede desafiar a los gigantes de la industria. Sin embargo, los expertos enfatizan que el éxito de la compañía se debe en gran medida a inversiones sustanciales, avances técnicos y un equipo fuerte, en lugar de un "presupuesto revolucionario" para el desarrollo del modelo de IA.
Aún así, los costos de los competidores siguen siendo significativamente más altos. Por ejemplo, Deepseek gastó $ 5 millones en R1, mientras que ChatGPT4O costó $ 100 millones.