Este conteúdo faz parte da newsletter IAí?, que existe para te guiar no universo da inteligência artificial. Assine aqui para receber toda terça-feira no seu e-mail.

Você lembra da assistente de inteligência artificial com a voz de Scarlett Johansson no filme Her, capaz de enxergar o que acontecia ao redor do protagonista e ter uma conversa que parecia ser real, entre duas pessoas? Essa era uma promessa distante, até que sistemas como o ChatGPT e o Gemini, do Google, começaram, discretamente, a cumpri-la.

Além de processar textos e áudio, os assistentes de IA aprimoraram nos últimos meses a habilidade de “enxergar” (pela câmera do seu celular). Quando habilita essa função, o usuário pode fazer como o personagem Theodore Twombly interpretado por Joaquin Phoenix no filme de 2013 e conversar com o robô a partir de referências do ambiente.

  • Vale a pena usar? ChatGPT ativa ferramenta de compras no Brasil

Isso significa que o mundo visual virou interface para ferramentas de IA, que podem explicar placas na rua e traduzir cardápios, por exemplo, mas também descrever cenas ao vivo (como de um esporte que você não entende) e debater como organizar melhor móveis em um ambiente.

No mundo das máquinas, a habilidade de “ver” já existia, mas a inteligência artificial impulsionou esse campo, chamado de visão computacional.

Mas o que acontece quando mostramos o que está ao nosso redor para essas ferramentas? A seguir, detalhamos como funciona essa função que transforma a câmera em ponte entre você e a máquina, além dos muitos meios de usá-la. Também explicamos como a indústria chegou a esse ponto — e por que isso é ainda tão controverso.

Para usar a câmera com a IA, basta fazer login no aplicativo do Gemini (gratuito) ou do ChatGPT (apenas para assinantes) e tocar no botão “Live”. Depois, é preciso ativar o ícone da câmera e aí apontar para o que deseja mostrar. As duas ferramentas, por enquanto, são as únicas com essa funcionalidade de conversas ao vivo com imagens.

A OpenAI, criadora do ChatGPT, dá alguns exemplos práticos de como a função pode ser utilizada. Ao mostrar um cardápio em japonês, o GPT‑4o pode traduzir os itens, explicar a história de cada prato e indicar o que é mais popular, por exemplo.

Recurso do ChatGPT que ativa conversas por câmeras foi apresentado no ano passado e lançado meses depois para assinantes — Foto: Reprodução/OpenAI

É possível, por exemplo, exibir um jogo de futebol (ou qualquer outro esporte) e pedir que o chatbot explique as regras. Em um teste, O GLOBO apontou um lance de falta em uma partida de futebol na TV, e pediu para a IA interpretar (o sistema consegue analisar, debater a jogada e explicar o que houve com base nas imagens).

Aqui estão mais algumas sugestões para explorar a funcionalidade:

  • Traduzir cardápios, placas e rótulos: é possível apontar para uma placa em alemão, por exemplo, e receber a tradução em tempo real. O sistema também pode analisar imagens de um prato e explicar sobre um ingrediente.
  • Pedir ajuda com pequenos consertos: um dos usos sugeridos pelo Google é o de usar o recurso para auxiliar em pequenos reparos, com um cabo desconectado ou uma peça quebrada.
  • Explicar sinais e instruções visuais: sinais de trânsito, símbolos técnicos, ícones confusos em aparelhos eletrônicos ou etiquetas de roupa: o recurso ajuda a explicar o que significam.
  • Buscar inspiração para organizar ou criar: mostre um armário bagunçado, uma estante lotada ou até uma paisagem interessante. A IA pode sugerir formas de organizar o espaço, ideias de reaproveitamento ou referências com base nas cores, texturas e elementos de uma imagem.

Por enquanto, o ChatGPT parece melhor “de papo”, com uma conversa mais natural e com um tempo de resposta menor — de fato mais parecida com Samantha, a assistente do filme Her. O Gemini, no entanto, tem a vantagem de estar disponível para todos os usuários gratuitamente, tanto na versão Android como iOS.

2. Análise de telas e imagens compartilhadas

Aqui, uma sugestão extra: a IA do Google também tem um recurso adicional que é o de responder a perguntas a partir do compartilhamento de tela. Para isso, ao acionar o recurso “Live”, basta o usuário clicar no item que dá acesso da ferramenta à tela.

Isso significa que o usuário pode usar o sistema, por exemplo, para pedir ajuda em uma configuração no celular, analisar um gráfico de um arquivo que está lendo online ou para fazer perguntas sobre produtos.

Recursos de câmera e compartilhamento de tela do Gemini Live — Foto: Reprodução/Google
Recursos de câmera e compartilhamento de tela do Gemini Live — Foto: Reprodução/Google

Vale lembrar que, embora só Gemini e ChatGPT tenham conversa ao vivo com câmera, vários chatbots — como Claude, Le Chat, DeepSeek e Qwen — permitem enviar imagens estáticas para análise. Basta clicar no botão “+” e anexar a foto para fazer perguntas sobre ela.

Com o envio de imagens estáticas, os chatbots podem redigir textos de documentos físicos e analisar gráficos, por exemplo. Também ajudam a ler textos manuscritos, interpretar mapas, revisar slides e até sugerir receitas a partir de ingredientes fotografados. A IA ainda pode indicar produtos mais saudáveis numa prateleira ou sugerir legendas para fotos.

3. Alerta: o que você mostra para a IA?

Em todos os casos, o professor do curso de ciência de dados da Escola Superior de Propaganda e Marketing (ESPM), Carlos Rafael Gimenes das Neves, lembra que ainda é preciso cautela quanto à confiabilidade das respostas. Mesmo parecendo entender o que vê, a IA ainda pode cometer erros de interpretação.

Além disso, ao depender da câmera para aprender com o mundo, esses sistemas capturam ambientes e rostos. Os recursos com imagens, desde que foram apresentados, levantaram diversos alertas sobre privacidade.

  • Funciona mesmo? Testamos a IA do Google que traduz reuniões no Meet em tempo real.

Uma das preocupações é sobre a capacidade desses sistemas saberem a localização de pessoas a partir de fotos. O ChatGPT, por exemplo, já demonstrou conseguir identificar locais com base em elementos visuais de imagens como o padrão das ondas do mar, a inclinação do terreno e características da rua.

É sempre bom lembrar também que as informações exibidas podem ser retidas por esses sistemas. No caso do Google, as imagens e interações feitas com o recurso Live do Gemini são armazenadas por até 72 horas.

3. Como essas ferramentas “enxergam” o mundo e por que isso importa

A visão computacional existe há décadas, lembra Gimenes, e consiste em “extrair informações a partir de uma imagem”. Por muito tempo, esse foi um campo usado em contextos industriais e científicos, e também nos bastidores de aplicativos comuns do dia a dia.

Na IA, o salto veio com o avanço dos modelos multimodais, que combinam diferentes formas de interação, com texto, som, imagem ou vídeo. A ideia é simples: se humanos pensam com base em todos os sentidos, as máquinas também deveriam cruzar múltiplas referências para responder com mais profundidade.

Os avanços acontecem em meio à corrida da indústria para tornar os modelos cada vez mais parecidos com assistentes multitarefas. O ChatGPT, da OpenAI, desde 2023 permite fazer perguntas a partir de imagens estáticas. No ano passado, o lançamento do GPT‑4o tornou o sistema multimodal. A função de vídeo ao vivo chegou em dezembro. Já o Gemini, do Google, liberou gratuitamente o uso da câmera para perguntas em maio deste ano.

Tela inicial do ChatGPT na função 'live'. Para ativar vídeo, usuário precisa clicar em símbolo da câmera — Foto: Reprodução/OpenAI
Tela inicial do ChatGPT na função ‘live’. Para ativar vídeo, usuário precisa clicar em símbolo da câmera — Foto: Reprodução/OpenAI

Carlos Gimenes explica que a IA reconhece imagens com base em probabilidades. Para serem assertivos diante da variedade de padrões da realidade, os modelos tiveram que ser expostos a bilhões de imagens, incluindo de obras de arte, fotografias, documentos técnicos e até conteúdos sensíveis — o que levantou debates sobre direitos autorais, privacidade e transparência.

Ele lembra que, por trás do refinamento desses sistemas, há ainda um trabalho humano invisível: milhares de trabalhadores (geralmente sub-remunerados) fazem o que é conhecido por “anotação” de dados, que consiste em rotular manualmente milhões de imagens para explicar às IAs o que há nelas:

— Temos questões sociais, empresariais e éticas tensas no que diz respeito à inteligência artificial e imagem. A obtenção das fotos que treinaram esses modelos está longe de ter sido transparente. E esses modelos, para ter acurácia, precisaram de um olhar especialista, de um humano.

como usar função que ‘enxerga’ pela câmera do celular e responde em tempo real