Interrogando APIs de Visão Computacional – publicado relatório do #SMARTDataSprint

No final de janeiro aconteceu mais uma edição do SMART Data Sprint, um evento que reúne pesquisadores, programadores e designers para trabalho colaborativo sobre um determinado tema de pesquisa – e bases de dados. Tive a oportunidade de, junto ao Andre Mintz, idealizar o projeto “Interrogating Vision APIs“. Durante quatro dias, Mintz se juntou aos pesquisadores Beatrice Gobbo, Elena Pilipets, Hamdan Azhar, Helen Takamitsu, Janna Joceli Omena e Taís Oliveira para analisar ao mesmo tempo, com métodos digitais, duas perguntas de pesquisa:

a) Quais são as diferenças entre os principais fornecedores de visão computacional?

b) Podemos investigar representações nacionais usando ferramentas de visão computacional?

Para responder estas perguntas, foram processadas mais de 60 mil imagens provenientes de bancos de imagens (Shutterstock, Adobe Stock e Getty Images) para resultados à buscas como “brazilian”, “british”, “indian”, “portuguese” e outros marcadores de nacionalidade em cada um dos recursos de visão computacional citados anteriormente. O time focou em quatro nacionalidades (brasileiros, nigerianos, austríacos e portugueses).

Foram aplicados de modo emergente métodos como text analysis, visualização de redes, descrição densa e cálculos estatísticos para entender as similaridades e diferenças tanto entre os fornecedores de visão computacional quanto entre os diferentes bancos de imagens e nacionalidades representadas.

Como primeiro resultado público do esforço, um extenso relatório que também inclui protocolos de pesquisa (para replicação), detalhes sobre a metodologia, questões de pesquisa, design da pesquisa, descobertas e dicussão foi publicado no site do Inova Media Lab, organizador do evento. Em breve os autores produzirão textos acadêmicos e desdobramentos sobre o estudo, mas gostaria de adiantar – para os lusófonos, um mini-resumo das principais descobertas.

 

Diferenças entre fornecedores de computação visual

As três APIs de computação visual abordadas – desenvolvidas por Google, IBM e Microsoft – apresentam características bem diferentes de etiquetagem que descrevem diferentes ontologias e espaços semânticos. Sobre níveis de detalhes, a API da Google tende a maiores níveis de especificidade; IBM apresenta alguma especificidade mas não tanta quanto a da Google; e a da Microsoft é geralmente muito genérica e possui um escopo limitado de etiquetagem. A imagem abaixo apresenta uma comparação anedótica sobre as abordagens:

 

Redes visuais como ferramentas descritivas úteis à pesquisa social sobre representação

Sites de bancos de imagens representam visualidades com temas recorrentes para os quais as APIs de computação visual são úteis como recursos descritivos, mostrando configurações e padrões emergentes dos temas construídos como típicos para cada grupo – nacionalidade no caso. A visualização abaixo, por exemplo, mostra na rede de labels (etiquetas) como, para cada país, as APIs e a clusterização em rede (no Gephi) permitiu encontrar um padrão recorrente de grupos ligados a: a) natureza; b) comida; e c) pessoas. Para cada país um grande grupo de imagens sobre algum aspecto cultural (ou estereótipo online) esteve também presente: Carnaval para Brasil; Têxtil para Portugal; Cidade e Arquitetura para Áustria; e Dinheiro para Nigéria.

 

Visão computacional e culturas

As APIs de visão computacional apresentaram diferentes níveis de sensibilidade e modos de tratamento de imagens de culturas específicas. Por exemplo, enquanto o Google reconheceu vários itens específicos sobre comida ou instrumentos musicais, a precisão nem sempre foi satisfatória tanto no serviço da Google quanto na dos demais. Em alguns casos, as APIs reproduziram invisibilidades de marcadores culturais de grupos minorizados, possível reforço de relações étnico-raciais hierarquizadas. Na imagem abaixo vemos um dos exemplos nos quais a Google Vision marcou como peruca (“wig”) um cabelo natural:

Há muito mais no relatório que pode ser lido em toda sua extensão em https://smart.inovamedialab.org/smart-2019/project-reports/interrogating-vision-apis/