DeepSeek propõe substituir palavras por imagens para melhorar desempenho de modelos
DeepSeek – A empresa chinesa de inteligência artificial DeepSeek está desenvolvendo uma nova abordagem para o armazenamento de informações em modelos de linguagem: trocar os tradicionais tokens de texto por “tokens visuais”. A técnica converte informações escritas em imagens compactadas, o que pode aprimorar a capacidade de memória e reduzir a perda de coerência em interações prolongadas.
De acordo com um estudo publicado neste mês, o método foi testado em um novo modelo de Reconhecimento Óptico de Caracteres (OCR), permitindo que o sistema retenha quase a mesma quantidade de informação utilizando menos tokens. Na prática, o processo “tira uma foto” das páginas e armazena o conteúdo como imagem, aplicando uma compressão em camadas. Dados mais antigos ficam levemente borrados para economizar espaço, mas continuam acessíveis. Os códigos e pesos de treinamento do projeto estão disponíveis no GitHub.
LEIA: Recursos ‘inteligentes’ de pagamentos por aproximação criam brechas de segurança
Solução para um problema comum
Atualmente, os grandes modelos de linguagem (LLMs) dividem textos em milhares de unidades menores, chamadas tokens, o que exige alto poder de processamento e causa o chamado context rot, quando a IA “esquece” partes iniciais da conversa. A proposta da DeepSeek pode ser uma alternativa mais eficiente.
A inovação chamou a atenção de nomes importantes do setor. Andrej Karpathy, ex-chefe de IA da Tesla e membro fundador da OpenAI, elogiou a pesquisa em sua conta no X/Twitter. Segundo ele, os tokens de texto podem ser “desperdiçadores e simplesmente terríveis na entrada”, enquanto imagens podem representar uma solução mais eficaz para os LLMs.
À revista MIT Technology Review, Manling Li, professora assistente de ciência da computação na Northwestern University, afirmou que, embora o uso de tokens visuais não seja totalmente inédito, “este é o primeiro estudo que vi que a leva tão longe e mostra que pode realmente funcionar”.
Outro ponto destacado pela pesquisa é a capacidade de geração de dados de treinamento. Com o novo sistema de OCR, a DeepSeek consegue produzir mais de 200 mil páginas de dados por dia usando apenas uma GPU, um ganho significativo em um momento em que esse tipo de recurso está cada vez mais escasso.
Desafios
Os pesquisadores, no entanto, reconhecem que o modelo ainda está em fase inicial. Li observa que a memória do sistema é tratada de forma linear, lembrando apenas o que foi mais recente. Ela aponta que futuras pesquisas devem buscar formas de tornar esse processo mais dinâmico, “semelhante a como podemos lembrar um momento transformador de anos atrás, mas esquecer o que comemos no almoço da semana passada”.
A DeepSeek já havia surpreendido o setor no início do ano ao lançar o DeepSeek-R1, modelo que rivalizou com os principais sistemas do mercado utilizando significativamente menos recursos computacionais.
(Com informações de Tecnoblog)
(Foto: Reprodução/Freepik/DC Studio)
Alinhamento raro entre o Sol, o cometa 3I/ATLAS e a sonda Europa Clipper pode permitir…
Indústria amplia presença em outros mercados e mantém estabilidade nas vendas externas, mesmo com o…
Fenati e Sinttec forneceram transporte gratuito para que trabalhadores da cidade do Triângulo Mineiro pudessem…