DeepSeek diz que modelo de IA custou menos de US$ 300 mil – 19/09/2025 – Tec

A desenvolvedora chinesa de IA DeepSeek afirmou que gastou US$ 294 mil (R$ 1,6 milhão) no treinamento de seu modelo R1, valor muito inferior aos números relatados por rivais americanas, em um artigo que provavelmente reacenderá o debate sobre o lugar de Pequim na corrida pelo desenvolvimento da inteligência artificial.

A primeira estimativa divulgada dos custos de treinamento do R1 da empresa sediada em Hangzhou apareceu em um artigo revisado por pares na revista acadêmica Nature, publicado na quarta-feira (17).

O lançamento pela DeepSeek do que disse serem sistemas de IA de menor custo em janeiro levou investidores globais a venderem ações de tecnologia, preocupados que os novos modelos pudessem ameaçar a dominância de líderes de IA, incluindo a Nvidia.

Desde então, a empresa e o fundador Liang Wenfeng praticamente desapareceram da vista do público, exceto por algumas atualizações de novos produtos.

O artigo na Nature, que listou Liang como um dos coautores, afirmou que o modelo R1 da DeepSeek, focado em raciocínio, custou US$ 294 mil para treinar e utilizou 512 chips Nvidia H800. Uma versão anterior do artigo publicada em janeiro não continha essa informação.

Os custos de treinamento para os modelos de linguagem grande que alimentam os chatbots de IA referem-se às despesas incorridas com a execução de um cluster de chips poderosos por semanas ou meses para processar vastas quantidades de texto e código.

Sam Altman, CEO da gigante americana OpenAI, disse em 2023 que o treinamento de modelos fundamentais custou “muito mais” que US$ 100 milhões (R$ 530 milhões) —embora sua empresa não tenha fornecido números detalhados para nenhum de seus lançamentos.

Algumas das declarações da DeepSeek sobre seus custos de desenvolvimento e a tecnologia utilizada foram questionadas por empresas e autoridades americanas.

Os chips H800 mencionados foram projetados pela Nvidia para o mercado chinês depois que os EUA, em outubro de 2022, tornaram ilegal a exportação de seus chips de IA mais poderosos, H100 e A100, para a China.

Autoridades americanas disseram à Reuters em junho que a DeepSeek tem acesso a “grandes volumes” de chips H100 que foram adquiridos após a implementação dos controles de exportação dos EUA. A Nvidia informou à Reuters na época que a DeepSeek utilizou chips H800 adquiridos legalmente, não H100.

Em um documento de informações suplementares que acompanha o artigo na Nature, a empresa reconheceu pela primeira vez que possui chips A100 e disse que os utilizou em estágios preparatórios de desenvolvimento.

“Em relação à nossa pesquisa sobre o DeepSeek-R1, utilizamos as GPUs A100 para preparar os experimentos com um modelo menor”, escreveram os pesquisadores. Após esta fase inicial, o R1 foi treinado por um total de 80 horas no cluster de 512 chips H800, acrescentaram.

A Reuters já havia relatado anteriormente que uma das razões pelas quais a DeepSeek conseguiu atrair as mentes mais brilhantes da China foi porque era uma das poucas empresas domésticas a operar um supercomputador com cluster A100.

DESTILAÇÃO DE MODELO

A DeepSeek também respondeu pela primeira vez, embora não diretamente, às afirmações de um alto conselheiro da Casa Branca e outras figuras americanas de IA em janeiro de que havia deliberadamente “destilado” os modelos da OpenAI em seus próprios.

A chinesa tem consistentemente defendido a destilação como algo que proporciona melhor desempenho do modelo, sendo muito mais barato para treinar e executar, permitindo acesso mais amplo às tecnologias baseadas em IA devido às demandas de recursos intensivos em energia desses modelos.

O termo refere-se a uma técnica pela qual um sistema de IA aprende com outro sistema de IA, permitindo que o modelo mais novo colha os benefícios dos investimentos de tempo e poder computacional que foram empregados na construção do modelo anterior, mas sem os custos associados.

A DeepSeek disse em janeiro que havia usado o modelo de IA Llama de código aberto da Meta para algumas versões destiladas de seus próprios modelos.

A DeepSeek afirmou na Nature que os dados de treinamento para seu modelo V3 dependiam de páginas web rastreadas que continham um “número significativo de respostas geradas por modelos da OpenAI, o que pode levar o modelo base a adquirir conhecimento de outros modelos poderosos indiretamente”.

Mas disse que isso não foi intencional, mas sim incidental.

A OpenAI não respondeu imediatamente a um pedido de comentário.

Visto primeiro na Folha de São Paulo

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *

This site uses Akismet to reduce spam. Learn how your comment data is processed.