BRcom - Agregador de Notícias
No Result
View All Result
No Result
View All Result
BRcom - Agregador de Notícias
No Result
View All Result

como usar função que ‘enxerga’ pela câmera do celular e responde em tempo real

BRCOM by BRCOM
julho 1, 2025
in News
0
Recurso do ChatGPT que ativa conversas por câmeras foi apresentado no ano passado e lançado meses depois para assinantes — Foto: Reprodução/OpenAI

Este conteúdo faz parte da newsletter IAí?, que existe para te guiar no universo da inteligência artificial. Assine aqui para receber toda terça-feira no seu e-mail.

Você lembra da assistente de inteligência artificial com a voz de Scarlett Johansson no filme Her, capaz de enxergar o que acontecia ao redor do protagonista e ter uma conversa que parecia ser real, entre duas pessoas? Essa era uma promessa distante, até que sistemas como o ChatGPT e o Gemini, do Google, começaram, discretamente, a cumpri-la.

Além de processar textos e áudio, os assistentes de IA aprimoraram nos últimos meses a habilidade de “enxergar” (pela câmera do seu celular). Quando habilita essa função, o usuário pode fazer como o personagem Theodore Twombly interpretado por Joaquin Phoenix no filme de 2013 e conversar com o robô a partir de referências do ambiente.

  • Vale a pena usar? ChatGPT ativa ferramenta de compras no Brasil

Isso significa que o mundo visual virou interface para ferramentas de IA, que podem explicar placas na rua e traduzir cardápios, por exemplo, mas também descrever cenas ao vivo (como de um esporte que você não entende) e debater como organizar melhor móveis em um ambiente.

No mundo das máquinas, a habilidade de “ver” já existia, mas a inteligência artificial impulsionou esse campo, chamado de visão computacional.

Mas o que acontece quando mostramos o que está ao nosso redor para essas ferramentas? A seguir, detalhamos como funciona essa função que transforma a câmera em ponte entre você e a máquina, além dos muitos meios de usá-la. Também explicamos como a indústria chegou a esse ponto — e por que isso é ainda tão controverso.

Conteúdo:

Toggle
  • 1. IA conectada com a câmera do celular
  • 2. Análise de telas e imagens compartilhadas
  • 3. Alerta: o que você mostra para a IA?
  • 3. Como essas ferramentas “enxergam” o mundo e por que isso importa
      • como usar função que ‘enxerga’ pela câmera do celular e responde em tempo real

1. IA conectada com a câmera do celular

Para usar a câmera com a IA, basta fazer login no aplicativo do Gemini (gratuito) ou do ChatGPT (apenas para assinantes) e tocar no botão “Live”. Depois, é preciso ativar o ícone da câmera e aí apontar para o que deseja mostrar. As duas ferramentas, por enquanto, são as únicas com essa funcionalidade de conversas ao vivo com imagens.

A OpenAI, criadora do ChatGPT, dá alguns exemplos práticos de como a função pode ser utilizada. Ao mostrar um cardápio em japonês, o GPT‑4o pode traduzir os itens, explicar a história de cada prato e indicar o que é mais popular, por exemplo.

Recurso do ChatGPT que ativa conversas por câmeras foi apresentado no ano passado e lançado meses depois para assinantes — Foto: Reprodução/OpenAI

É possível, por exemplo, exibir um jogo de futebol (ou qualquer outro esporte) e pedir que o chatbot explique as regras. Em um teste, O GLOBO apontou um lance de falta em uma partida de futebol na TV, e pediu para a IA interpretar (o sistema consegue analisar, debater a jogada e explicar o que houve com base nas imagens).

Aqui estão mais algumas sugestões para explorar a funcionalidade:

  • Traduzir cardápios, placas e rótulos: é possível apontar para uma placa em alemão, por exemplo, e receber a tradução em tempo real. O sistema também pode analisar imagens de um prato e explicar sobre um ingrediente.
  • Pedir ajuda com pequenos consertos: um dos usos sugeridos pelo Google é o de usar o recurso para auxiliar em pequenos reparos, com um cabo desconectado ou uma peça quebrada.
  • Explicar sinais e instruções visuais: sinais de trânsito, símbolos técnicos, ícones confusos em aparelhos eletrônicos ou etiquetas de roupa: o recurso ajuda a explicar o que significam.
  • Buscar inspiração para organizar ou criar: mostre um armário bagunçado, uma estante lotada ou até uma paisagem interessante. A IA pode sugerir formas de organizar o espaço, ideias de reaproveitamento ou referências com base nas cores, texturas e elementos de uma imagem.

Por enquanto, o ChatGPT parece melhor “de papo”, com uma conversa mais natural e com um tempo de resposta menor — de fato mais parecida com Samantha, a assistente do filme Her. O Gemini, no entanto, tem a vantagem de estar disponível para todos os usuários gratuitamente, tanto na versão Android como iOS.

2. Análise de telas e imagens compartilhadas

Aqui, uma sugestão extra: a IA do Google também tem um recurso adicional que é o de responder a perguntas a partir do compartilhamento de tela. Para isso, ao acionar o recurso “Live”, basta o usuário clicar no item que dá acesso da ferramenta à tela.

Isso significa que o usuário pode usar o sistema, por exemplo, para pedir ajuda em uma configuração no celular, analisar um gráfico de um arquivo que está lendo online ou para fazer perguntas sobre produtos.

Recursos de câmera e compartilhamento de tela do Gemini Live — Foto: Reprodução/Google
Recursos de câmera e compartilhamento de tela do Gemini Live — Foto: Reprodução/Google

Vale lembrar que, embora só Gemini e ChatGPT tenham conversa ao vivo com câmera, vários chatbots — como Claude, Le Chat, DeepSeek e Qwen — permitem enviar imagens estáticas para análise. Basta clicar no botão “+” e anexar a foto para fazer perguntas sobre ela.

Com o envio de imagens estáticas, os chatbots podem redigir textos de documentos físicos e analisar gráficos, por exemplo. Também ajudam a ler textos manuscritos, interpretar mapas, revisar slides e até sugerir receitas a partir de ingredientes fotografados. A IA ainda pode indicar produtos mais saudáveis numa prateleira ou sugerir legendas para fotos.

3. Alerta: o que você mostra para a IA?

Em todos os casos, o professor do curso de ciência de dados da Escola Superior de Propaganda e Marketing (ESPM), Carlos Rafael Gimenes das Neves, lembra que ainda é preciso cautela quanto à confiabilidade das respostas. Mesmo parecendo entender o que vê, a IA ainda pode cometer erros de interpretação.

Além disso, ao depender da câmera para aprender com o mundo, esses sistemas capturam ambientes e rostos. Os recursos com imagens, desde que foram apresentados, levantaram diversos alertas sobre privacidade.

  • Funciona mesmo? Testamos a IA do Google que traduz reuniões no Meet em tempo real.

Uma das preocupações é sobre a capacidade desses sistemas saberem a localização de pessoas a partir de fotos. O ChatGPT, por exemplo, já demonstrou conseguir identificar locais com base em elementos visuais de imagens como o padrão das ondas do mar, a inclinação do terreno e características da rua.

É sempre bom lembrar também que as informações exibidas podem ser retidas por esses sistemas. No caso do Google, as imagens e interações feitas com o recurso Live do Gemini são armazenadas por até 72 horas.

3. Como essas ferramentas “enxergam” o mundo e por que isso importa

A visão computacional existe há décadas, lembra Gimenes, e consiste em “extrair informações a partir de uma imagem”. Por muito tempo, esse foi um campo usado em contextos industriais e científicos, e também nos bastidores de aplicativos comuns do dia a dia.

Na IA, o salto veio com o avanço dos modelos multimodais, que combinam diferentes formas de interação, com texto, som, imagem ou vídeo. A ideia é simples: se humanos pensam com base em todos os sentidos, as máquinas também deveriam cruzar múltiplas referências para responder com mais profundidade.

Os avanços acontecem em meio à corrida da indústria para tornar os modelos cada vez mais parecidos com assistentes multitarefas. O ChatGPT, da OpenAI, desde 2023 permite fazer perguntas a partir de imagens estáticas. No ano passado, o lançamento do GPT‑4o tornou o sistema multimodal. A função de vídeo ao vivo chegou em dezembro. Já o Gemini, do Google, liberou gratuitamente o uso da câmera para perguntas em maio deste ano.

Tela inicial do ChatGPT na função'live'. Para ativar vídeo, usuário precisa clicar em símbolo da câmera — Foto: Reprodução/OpenAI
Tela inicial do ChatGPT na função ‘live’. Para ativar vídeo, usuário precisa clicar em símbolo da câmera — Foto: Reprodução/OpenAI

Carlos Gimenes explica que a IA reconhece imagens com base em probabilidades. Para serem assertivos diante da variedade de padrões da realidade, os modelos tiveram que ser expostos a bilhões de imagens, incluindo de obras de arte, fotografias, documentos técnicos e até conteúdos sensíveis — o que levantou debates sobre direitos autorais, privacidade e transparência.

Ele lembra que, por trás do refinamento desses sistemas, há ainda um trabalho humano invisível: milhares de trabalhadores (geralmente sub-remunerados) fazem o que é conhecido por “anotação” de dados, que consiste em rotular manualmente milhões de imagens para explicar às IAs o que há nelas:

— Temos questões sociais, empresariais e éticas tensas no que diz respeito à inteligência artificial e imagem. A obtenção das fotos que treinaram esses modelos está longe de ter sido transparente. E esses modelos, para ter acurácia, precisaram de um olhar especialista, de um humano.

como usar função que ‘enxerga’ pela câmera do celular e responde em tempo real

Previous Post

Operação da PF mira compras irregulares feitas pelo Hospital Geral de Bonsucesso durante pandemia, em 2020

Next Post

Supersalários de juízes acima do teto custam R$ 10,5 bilhões por ano, aponta pesquisa

Next Post
Fonte: "A corrida para além do teto" (Movimento Pessoas à Frente/Bruno Carazza) — Foto: Reprodução

Supersalários de juízes acima do teto custam R$ 10,5 bilhões por ano, aponta pesquisa

  • #55 (sem título)
  • New Links
  • newlinks

© 2026 JNews - Premium WordPress news & magazine theme by Jegtheme.

No Result
View All Result
  • #55 (sem título)
  • New Links
  • newlinks

© 2026 JNews - Premium WordPress news & magazine theme by Jegtheme.