Federação Nacional dos Trabalhadores em Tecnologia da Informação

globo-ocular-robotico-transformar-visao-maquinas

Novo globo ocular robótico promete transformar a visão de máquinas inteligentes

Sistema EyeVLA integra visão, linguagem e ação para melhorar a percepção em tarefas que exigem precisão

Ocular robótico – Pesquisadores da Universidade de Shanghai Jiao Tong e da Academia Chinesa de Ciências anunciaram o EyeVLA, um dispositivo que funciona como um “olho robótico” capaz de oferecer visão ativa a sistemas de IA incorporada. A tecnologia ajusta o ângulo da câmera, controla o zoom e captura imagens conforme instruções, aproximando o comportamento de robôs da forma como humanos exploram o mundo ao redor.

A proposta busca solucionar um desafio persistente da visão robótica: o uso de câmeras RGB-D fixas, que registram cor e profundidade, mas falham ao equilibrar campo amplo e detalhes minuciosos numa mesma cena. O EyeVLA tenta romper essa limitação ao permitir que máquinas escolham o que observar e como refinar essa observação, ampliando tanto a percepção em áreas abertas quanto a identificação de elementos pequenos.

LEIA: Planalto pressiona Câmara por fim da escala 6×1 em projeto que reduz jornada de trabalho

O ponto central da inovação está na união entre visão, linguagem e controle da câmera. Enquanto muitos modelos de visão baseados em linguagem dependem apenas de imagens estáticas, o EyeVLA opera de forma ativa: em vez de apenas responder ao que está numa foto, ele decide qual será o próximo movimento da câmera para reduzir incertezas e avançar na tarefa.

O sistema integra pan, tilt e zoom num fluxo contínuo, orientado por caixas delimitadoras 2D que direcionam onde olhar. O hardware combina um suporte pan-tilt 2D e uma câmera com zoom, convertendo cada ajuste em pequenos tokens que se transformam em comandos precisos de movimento.

No núcleo do sistema, o EyeVLA utiliza uma versão adaptada do Qwen2.5-VL, reforçada com novos tokens que representam ações de câmera. Essa estrutura torna o modelo consideravelmente mais compacto: cada movimento demanda, em média, 2,3 tokens – número muito menor que métodos tradicionais.

O treinamento ocorre em duas etapas: alinhamento supervisionado com 50 mil amostras sintéticas e, depois, aprendizado por reforço, que corrige vieses e fortalece a política de ação. Com apenas 500 amostras reais, o sistema já foi capaz de gerar estratégias eficazes de controle.

Nos testes, o EyeVLA demonstrou alta precisão ao mover a câmera e ampliar regiões específicas da cena. No estágio mais avançado, atingiu 96% de conclusão nas tarefas e manteve erros angulares baixos tanto na rotação horizontal quanto na vertical. Essa capacidade foi essencial para resolver desafios que exigem percepção detalhada, como identificar um objeto parcialmente escondido.

Limitações

Apesar dos resultados, o método ainda enfrenta obstáculos práticos. A alta demanda computacional dos modelos de visão-linguagem e as limitações físicas do hardware dificultam o uso em tempo real. Além disso, ações mais complexas, como alternar entre zoom in e zoom out para recuperar o contexto de toda a cena, ainda são pouco viáveis.

Mesmo assim, o EyeVLA marca um avanço significativo na direção de robôs que não apenas interpretam imagens, mas decidem ativamente como observar o ambiente – um passo importante rumo a sistemas mais autônomos e eficientes.

(Com informações de Olhar Digital)
(Foto: Reprodução/Freepik)

Compartilhe:

Outras publicações