Interrogando APIs de Visão Computacional – publicado relatório do #SMARTDataSprint

No final de janeiro aconteceu mais uma edição do SMART Data Sprint, um evento que reúne pesquisadores, programadores e designers para trabalho colaborativo sobre um determinado tema de pesquisa – e bases de dados. Tive a oportunidade de, junto ao Andre Mintz, idealizar o projeto “Interrogating Vision APIs“. Durante quatro dias, Mintz se juntou aos pesquisadores Beatrice Gobbo, Elena Pilipets, Hamdan Azhar, Helen Takamitsu, Janna Joceli Omena e Taís Oliveira para analisar ao mesmo tempo, com métodos digitais, duas perguntas de pesquisa:

a) Quais são as diferenças entre os principais fornecedores de visão computacional?

b) Podemos investigar representações nacionais usando ferramentas de visão computacional?

Para responder estas perguntas, foram processadas mais de 60 mil imagens provenientes de bancos de imagens (Shutterstock, Adobe Stock e Getty Images) para resultados à buscas como “brazilian”, “british”, “indian”, “portuguese” e outros marcadores de nacionalidade em cada um dos recursos de visão computacional citados anteriormente. O time focou em quatro nacionalidades (brasileiros, nigerianos, austríacos e portugueses).

Foram aplicados de modo emergente métodos como text analysis, visualização de redes, descrição densa e cálculos estatísticos para entender as similaridades e diferenças tanto entre os fornecedores de visão computacional quanto entre os diferentes bancos de imagens e nacionalidades representadas.

Como primeiro resultado público do esforço, um extenso relatório que também inclui protocolos de pesquisa (para replicação), detalhes sobre a metodologia, questões de pesquisa, design da pesquisa, descobertas e dicussão foi publicado no site do Inova Media Lab, organizador do evento. Em breve os autores produzirão textos acadêmicos e desdobramentos sobre o estudo, mas gostaria de adiantar – para os lusófonos, um mini-resumo das principais descobertas.

 

Diferenças entre fornecedores de computação visual

As três APIs de computação visual abordadas – desenvolvidas por Google, IBM e Microsoft – apresentam características bem diferentes de etiquetagem que descrevem diferentes ontologias e espaços semânticos. Sobre níveis de detalhes, a API da Google tende a maiores níveis de especificidade; IBM apresenta alguma especificidade mas não tanta quanto a da Google; e a da Microsoft é geralmente muito genérica e possui um escopo limitado de etiquetagem. A imagem abaixo apresenta uma comparação anedótica sobre as abordagens:

 

Redes visuais como ferramentas descritivas úteis à pesquisa social sobre representação

Sites de bancos de imagens representam visualidades com temas recorrentes para os quais as APIs de computação visual são úteis como recursos descritivos, mostrando configurações e padrões emergentes dos temas construídos como típicos para cada grupo – nacionalidade no caso. A visualização abaixo, por exemplo, mostra na rede de labels (etiquetas) como, para cada país, as APIs e a clusterização em rede (no Gephi) permitiu encontrar um padrão recorrente de grupos ligados a: a) natureza; b) comida; e c) pessoas. Para cada país um grande grupo de imagens sobre algum aspecto cultural (ou estereótipo online) esteve também presente: Carnaval para Brasil; Têxtil para Portugal; Cidade e Arquitetura para Áustria; e Dinheiro para Nigéria.

 

Visão computacional e culturas

As APIs de visão computacional apresentaram diferentes níveis de sensibilidade e modos de tratamento de imagens de culturas específicas. Por exemplo, enquanto o Google reconheceu vários itens específicos sobre comida ou instrumentos musicais, a precisão nem sempre foi satisfatória tanto no serviço da Google quanto na dos demais. Em alguns casos, as APIs reproduziram invisibilidades de marcadores culturais de grupos minorizados, possível reforço de relações étnico-raciais hierarquizadas. Na imagem abaixo vemos um dos exemplos nos quais a Google Vision marcou como peruca (“wig”) um cabelo natural:

Há muito mais no relatório que pode ser lido em toda sua extensão em https://smart.inovamedialab.org/smart-2019/project-reports/interrogating-vision-apis/

Evocando Cartões Postais no Instagram: estudo automatizado de imagens

Escrito em parceria com a orientanda de especialização Mariana Zanotti, aprovei artigo Evocando Cartões Postais no Instagram: estudo automatizado de imagens no Congresso Nacional da Intercom deste ano, que acontecerá em Joinville. O artigo faz parte de uma série de experimentos sobre a aplicação de computação visual ao estudo da comunicação e cultura, que estamos desenvolvendo no IBPAD e já teve estudos sobre marketing turístico, estudo de influenciadores, construção de imagem política entre outros.

Resumo: Os cartões postais são materiais mistificados desde a sua gênese no final do século XX. Entre sinais de crise e ressignificação, mantêm-se como objeto cultural reconhecível por indivíduos de todo o mundo, a despeito de serem efetivamente usuários ou não do formato. Com a popularização de sites de redes sociais e aplicativos voltados a publicação cotidiana de fotografias, como o Instagram, usuários evocam estilos de formatos consagrados. O artigo apresenta experimento de análise e visualização apoiada por computação visual de 14 mil publicações com a hashtag #postcard. Como resultado da aplicação de algoritmos de modularidade, identificou 7 agrupamentos de entidades visuais presentes nas fotografias, através das quais os usuários se apropriam do conhecimento tácito dos públicos sobre o formato para gerar conteúdos de construção estratégica de seus perfis pessoais para suas audiências.

A imagem abaixo representa a rede de imagens gerada durante a análise e descrita no trabalho. Além do artigo, compartilhamos também os datasets principais.

 

Saiba mais sobre o evento em http://www.portalintercom.org.br/eventos1/congresso-nacional/2018  e acesse o artigo diretamente no ResearchGate