{"id":13730,"date":"2025-12-03T16:55:16","date_gmt":"2025-12-03T19:55:16","guid":{"rendered":"https:\/\/fenati.org.br\/?p=13730"},"modified":"2025-12-04T09:30:29","modified_gmt":"2025-12-04T12:30:29","slug":"globo-ocular-robotico-transformar-visao-maquinas","status":"publish","type":"post","link":"https:\/\/fenati.org.br\/en\/globo-ocular-robotico-transformar-visao-maquinas\/","title":{"rendered":"Novo globo ocular rob\u00f3tico promete transformar a vis\u00e3o de m\u00e1quinas inteligentes"},"content":{"rendered":"<p><strong>Ocular rob\u00f3tico &#8211;<\/strong> Pesquisadores da <a href=\"https:\/\/pt.wikipedia.org\/wiki\/Universidade_Jiao_Tong_de_Xangai#:~:text=Tem%2031%20escolas%20(departamentos)%2C,dos%20quais%201598%20s%C3%A3o%20internacionais.\" target=\"_blank\" rel=\"noopener nofollow\">Universidade de Shanghai Jiao Tong<\/a> e da Academia Chinesa de Ci\u00eancias anunciaram o EyeVLA, um dispositivo que funciona como um \u201colho rob\u00f3tico\u201d capaz de oferecer vis\u00e3o ativa a sistemas de IA incorporada. A tecnologia ajusta o \u00e2ngulo da c\u00e2mera, controla o zoom e captura imagens conforme instru\u00e7\u00f5es, aproximando o comportamento de rob\u00f4s da forma como humanos exploram o mundo ao redor.<\/p>\n<p>A proposta busca solucionar um desafio persistente da vis\u00e3o rob\u00f3tica: o uso de c\u00e2meras RGB-D fixas, que registram cor e profundidade, mas falham ao equilibrar campo amplo e detalhes minuciosos numa mesma cena. O EyeVLA tenta romper essa limita\u00e7\u00e3o ao permitir que m\u00e1quinas escolham o que observar e como refinar essa observa\u00e7\u00e3o, ampliando tanto a percep\u00e7\u00e3o em \u00e1reas abertas quanto a identifica\u00e7\u00e3o de elementos pequenos.<\/p>\n<p><a href=\"https:\/\/fenati.org.br\/en\/planalto-camara-fim-da-escala-6x1-jornada-trabalho\/\" target=\"_blank\" rel=\"noopener\"><strong>LEIA: Planalto pressiona C\u00e2mara por fim da escala 6\u00d71 em projeto que reduz jornada de trabalho<\/strong><\/a><\/p>\n<p>O ponto central da inova\u00e7\u00e3o est\u00e1 na uni\u00e3o entre vis\u00e3o, linguagem e controle da c\u00e2mera. Enquanto muitos modelos de vis\u00e3o baseados em linguagem dependem apenas de imagens est\u00e1ticas, o EyeVLA opera de forma ativa: em vez de apenas responder ao que est\u00e1 numa foto, ele decide qual ser\u00e1 o pr\u00f3ximo movimento da c\u00e2mera para reduzir incertezas e avan\u00e7ar na tarefa.<\/p>\n<p>O sistema integra pan, tilt e zoom num fluxo cont\u00ednuo, orientado por caixas delimitadoras 2D que direcionam onde olhar. O hardware combina um suporte pan-tilt 2D e uma c\u00e2mera com zoom, convertendo cada ajuste em pequenos tokens que se transformam em comandos precisos de movimento.<\/p>\n<p>No n\u00facleo do sistema, o EyeVLA utiliza uma vers\u00e3o adaptada do Qwen2.5-VL, refor\u00e7ada com novos tokens que representam a\u00e7\u00f5es de c\u00e2mera. Essa estrutura torna o modelo consideravelmente mais compacto: cada movimento demanda, em m\u00e9dia, 2,3 tokens \u2013 n\u00famero muito menor que m\u00e9todos tradicionais.<\/p>\n<p>O treinamento ocorre em duas etapas: alinhamento supervisionado com 50 mil amostras sint\u00e9ticas e, depois, aprendizado por refor\u00e7o, que corrige vieses e fortalece a pol\u00edtica de a\u00e7\u00e3o. Com apenas 500 amostras reais, o sistema j\u00e1 foi capaz de gerar estrat\u00e9gias eficazes de controle.<\/p>\n<p>Nos testes, o EyeVLA demonstrou alta precis\u00e3o ao mover a c\u00e2mera e ampliar regi\u00f5es espec\u00edficas da cena. No est\u00e1gio mais avan\u00e7ado, atingiu 96% de conclus\u00e3o nas tarefas e manteve erros angulares baixos tanto na rota\u00e7\u00e3o horizontal quanto na vertical. Essa capacidade foi essencial para resolver desafios que exigem percep\u00e7\u00e3o detalhada, como identificar um objeto parcialmente escondido.<\/p>\n<p><strong>Limita\u00e7\u00f5es<\/strong><\/p>\n<p>Apesar dos resultados, o m\u00e9todo ainda enfrenta obst\u00e1culos pr\u00e1ticos. A alta demanda computacional dos modelos de vis\u00e3o-linguagem e as limita\u00e7\u00f5es f\u00edsicas do hardware dificultam o uso em tempo real. Al\u00e9m disso, a\u00e7\u00f5es mais complexas, como alternar entre zoom in e zoom out para recuperar o contexto de toda a cena, ainda s\u00e3o pouco vi\u00e1veis.<\/p>\n<p>Mesmo assim, o EyeVLA marca um avan\u00e7o significativo na dire\u00e7\u00e3o de rob\u00f4s que n\u00e3o apenas interpretam imagens, mas decidem ativamente como observar o ambiente \u2013 um passo importante rumo a sistemas mais aut\u00f4nomos e eficientes.<\/p>\n<p><em><strong>(Com informa\u00e7\u00f5es de Olhar Digital)<\/strong><\/em><br \/>\n<em><strong>(Foto: Reprodu\u00e7\u00e3o\/Freepik)<\/strong><\/em><\/p>","protected":false},"excerpt":{"rendered":"<p>Sistema EyeVLA integra vis\u00e3o, linguagem e a\u00e7\u00e3o para melhorar a percep\u00e7\u00e3o em tarefas que exigem precis\u00e3o<\/p>","protected":false},"author":6,"featured_media":13731,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[35],"tags":[13],"class_list":["post-13730","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-ti","tag-sindical"],"_links":{"self":[{"href":"https:\/\/fenati.org.br\/en\/wp-json\/wp\/v2\/posts\/13730","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/fenati.org.br\/en\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/fenati.org.br\/en\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/fenati.org.br\/en\/wp-json\/wp\/v2\/users\/6"}],"replies":[{"embeddable":true,"href":"https:\/\/fenati.org.br\/en\/wp-json\/wp\/v2\/comments?post=13730"}],"version-history":[{"count":1,"href":"https:\/\/fenati.org.br\/en\/wp-json\/wp\/v2\/posts\/13730\/revisions"}],"predecessor-version":[{"id":13732,"href":"https:\/\/fenati.org.br\/en\/wp-json\/wp\/v2\/posts\/13730\/revisions\/13732"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/fenati.org.br\/en\/wp-json\/wp\/v2\/media\/13731"}],"wp:attachment":[{"href":"https:\/\/fenati.org.br\/en\/wp-json\/wp\/v2\/media?parent=13730"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/fenati.org.br\/en\/wp-json\/wp\/v2\/categories?post=13730"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/fenati.org.br\/en\/wp-json\/wp\/v2\/tags?post=13730"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}