Este conteúdo faz parte da newsletter IAí?, que existe para te guiar no universo da inteligência artificial. Assine aqui para receber toda terça-feira no seu e-mail.
Você lembra da assistente de inteligência artificial com a voz de Scarlett Johansson no filme Her, capaz de enxergar o que acontecia ao redor do protagonista e ter uma conversa que parecia ser real, entre duas pessoas? Essa era uma promessa distante, até que sistemas como o ChatGPT e o Gemini, do Google, começaram, discretamente, a cumpri-la.
Além de processar textos e áudio, os assistentes de IA aprimoraram nos últimos meses a habilidade de “enxergar” (pela câmera do seu celular). Quando habilita essa função, o usuário pode fazer como o personagem Theodore Twombly interpretado por Joaquin Phoenix no filme de 2013 e conversar com o robô a partir de referências do ambiente.
- Vale a pena usar? ChatGPT ativa ferramenta de compras no Brasil
Isso significa que o mundo visual virou interface para ferramentas de IA, que podem explicar placas na rua e traduzir cardápios, por exemplo, mas também descrever cenas ao vivo (como de um esporte que você não entende) e debater como organizar melhor móveis em um ambiente.
No mundo das máquinas, a habilidade de “ver” já existia, mas a inteligência artificial impulsionou esse campo, chamado de visão computacional.
Mas o que acontece quando mostramos o que está ao nosso redor para essas ferramentas? A seguir, detalhamos como funciona essa função que transforma a câmera em ponte entre você e a máquina, além dos muitos meios de usá-la. Também explicamos como a indústria chegou a esse ponto — e por que isso é ainda tão controverso.
Para usar a câmera com a IA, basta fazer login no aplicativo do Gemini (gratuito) ou do ChatGPT (apenas para assinantes) e tocar no botão “Live”. Depois, é preciso ativar o ícone da câmera e aí apontar para o que deseja mostrar. As duas ferramentas, por enquanto, são as únicas com essa funcionalidade de conversas ao vivo com imagens.
A OpenAI, criadora do ChatGPT, dá alguns exemplos práticos de como a função pode ser utilizada. Ao mostrar um cardápio em japonês, o GPT‑4o pode traduzir os itens, explicar a história de cada prato e indicar o que é mais popular, por exemplo.
É possível, por exemplo, exibir um jogo de futebol (ou qualquer outro esporte) e pedir que o chatbot explique as regras. Em um teste, O GLOBO apontou um lance de falta em uma partida de futebol na TV, e pediu para a IA interpretar (o sistema consegue analisar, debater a jogada e explicar o que houve com base nas imagens).
Aqui estão mais algumas sugestões para explorar a funcionalidade:
- Traduzir cardápios, placas e rótulos: é possível apontar para uma placa em alemão, por exemplo, e receber a tradução em tempo real. O sistema também pode analisar imagens de um prato e explicar sobre um ingrediente.
- Pedir ajuda com pequenos consertos: um dos usos sugeridos pelo Google é o de usar o recurso para auxiliar em pequenos reparos, com um cabo desconectado ou uma peça quebrada.
- Explicar sinais e instruções visuais: sinais de trânsito, símbolos técnicos, ícones confusos em aparelhos eletrônicos ou etiquetas de roupa: o recurso ajuda a explicar o que significam.
- Buscar inspiração para organizar ou criar: mostre um armário bagunçado, uma estante lotada ou até uma paisagem interessante. A IA pode sugerir formas de organizar o espaço, ideias de reaproveitamento ou referências com base nas cores, texturas e elementos de uma imagem.
Por enquanto, o ChatGPT parece melhor “de papo”, com uma conversa mais natural e com um tempo de resposta menor — de fato mais parecida com Samantha, a assistente do filme Her. O Gemini, no entanto, tem a vantagem de estar disponível para todos os usuários gratuitamente, tanto na versão Android como iOS.
2. Análise de telas e imagens compartilhadas
Aqui, uma sugestão extra: a IA do Google também tem um recurso adicional que é o de responder a perguntas a partir do compartilhamento de tela. Para isso, ao acionar o recurso “Live”, basta o usuário clicar no item que dá acesso da ferramenta à tela.
Isso significa que o usuário pode usar o sistema, por exemplo, para pedir ajuda em uma configuração no celular, analisar um gráfico de um arquivo que está lendo online ou para fazer perguntas sobre produtos.
/i.s3.glbimg.com/v1/AUTH_da025474c0c44edd99332dddb09cabe8/internal_photos/bs/2025/z/K/Y2ADBsRD6qHMAl8bUemg/whatsapp-image-2025-07-01-at-11.27.44.jpeg)
Vale lembrar que, embora só Gemini e ChatGPT tenham conversa ao vivo com câmera, vários chatbots — como Claude, Le Chat, DeepSeek e Qwen — permitem enviar imagens estáticas para análise. Basta clicar no botão “+” e anexar a foto para fazer perguntas sobre ela.
Com o envio de imagens estáticas, os chatbots podem redigir textos de documentos físicos e analisar gráficos, por exemplo. Também ajudam a ler textos manuscritos, interpretar mapas, revisar slides e até sugerir receitas a partir de ingredientes fotografados. A IA ainda pode indicar produtos mais saudáveis numa prateleira ou sugerir legendas para fotos.
3. Alerta: o que você mostra para a IA?
Em todos os casos, o professor do curso de ciência de dados da Escola Superior de Propaganda e Marketing (ESPM), Carlos Rafael Gimenes das Neves, lembra que ainda é preciso cautela quanto à confiabilidade das respostas. Mesmo parecendo entender o que vê, a IA ainda pode cometer erros de interpretação.
Além disso, ao depender da câmera para aprender com o mundo, esses sistemas capturam ambientes e rostos. Os recursos com imagens, desde que foram apresentados, levantaram diversos alertas sobre privacidade.
- Funciona mesmo? Testamos a IA do Google que traduz reuniões no Meet em tempo real.
Uma das preocupações é sobre a capacidade desses sistemas saberem a localização de pessoas a partir de fotos. O ChatGPT, por exemplo, já demonstrou conseguir identificar locais com base em elementos visuais de imagens como o padrão das ondas do mar, a inclinação do terreno e características da rua.
É sempre bom lembrar também que as informações exibidas podem ser retidas por esses sistemas. No caso do Google, as imagens e interações feitas com o recurso Live do Gemini são armazenadas por até 72 horas.
3. Como essas ferramentas “enxergam” o mundo e por que isso importa
A visão computacional existe há décadas, lembra Gimenes, e consiste em “extrair informações a partir de uma imagem”. Por muito tempo, esse foi um campo usado em contextos industriais e científicos, e também nos bastidores de aplicativos comuns do dia a dia.
Na IA, o salto veio com o avanço dos modelos multimodais, que combinam diferentes formas de interação, com texto, som, imagem ou vídeo. A ideia é simples: se humanos pensam com base em todos os sentidos, as máquinas também deveriam cruzar múltiplas referências para responder com mais profundidade.
Os avanços acontecem em meio à corrida da indústria para tornar os modelos cada vez mais parecidos com assistentes multitarefas. O ChatGPT, da OpenAI, desde 2023 permite fazer perguntas a partir de imagens estáticas. No ano passado, o lançamento do GPT‑4o tornou o sistema multimodal. A função de vídeo ao vivo chegou em dezembro. Já o Gemini, do Google, liberou gratuitamente o uso da câmera para perguntas em maio deste ano.
/i.s3.glbimg.com/v1/AUTH_da025474c0c44edd99332dddb09cabe8/internal_photos/bs/2025/4/Y/iydB8gTDSb09A2CIteIA/675c59e652dd0818d1a70830.webp)
Carlos Gimenes explica que a IA reconhece imagens com base em probabilidades. Para serem assertivos diante da variedade de padrões da realidade, os modelos tiveram que ser expostos a bilhões de imagens, incluindo de obras de arte, fotografias, documentos técnicos e até conteúdos sensíveis — o que levantou debates sobre direitos autorais, privacidade e transparência.
Ele lembra que, por trás do refinamento desses sistemas, há ainda um trabalho humano invisível: milhares de trabalhadores (geralmente sub-remunerados) fazem o que é conhecido por “anotação” de dados, que consiste em rotular manualmente milhões de imagens para explicar às IAs o que há nelas:
— Temos questões sociais, empresariais e éticas tensas no que diz respeito à inteligência artificial e imagem. A obtenção das fotos que treinaram esses modelos está longe de ter sido transparente. E esses modelos, para ter acurácia, precisaram de um olhar especialista, de um humano.