Analisando mediações algorítmicas em bancos de imagens e APIs de visão computacional

O artigo “APIs de Visão Computacional: investigando mediações algorítmicas a partir de estudo de bancos de imagens” foi resultado de trabalho colaborativo em parceria com André Mintz, Janna Joceli Omena, Beatrice Gobbo, Taís Oliveira, Helen Tatiana Takamitsu, Elena Pilipets, Hamdan Azhar a partir da penúltima edição do SMART Data Sprint. Faz parte de dossiê “Instabilidade e Conflito das/nas Imagens” da revista Logos. Resumo:

O artigo apresenta resultados de estudo sobre Interfaces de Programação de Aplicações (API, na sigla em inglês) de visão computacional e sua interpretação de representações em bancos de imagens. A visão computacional é um campo das ciências da computação dedicado a desenvolver algoritmos e heurísticas para interpretar dados visuais, mas são ainda incipientes os métodos para sua aplicação ou investigação críticas. O estudo investigou três APIs de visão computacional por meio de sua reapropriação na análise de 16.000 imagens relacionadas a brasileiros, nigerianos, austríacos e portugueses em dois dos maiores bancos de imagens do ocidente. Identificamos que: a) cada API apresenta diferentes modos de
etiquetamento das imagens; b) bancos de imagens representam
visualidades nacionais com temas recorrentes, mostrando-se úteis
para descrever figurações típicas emergentes; c) APIs de visão
computacional apresentam diferentes graus de sensibilidade e
modos de tratamento de imagens culturalmente específicas.

Leia em https://www.e-publicacoes.uerj.br/index.php/logos/article/view/51523

Apresentação sobre Visão Computacional e Vieses Racializados no COPENE

No último dia 29 de maio, apresentei no COPENE Nordeste o trabalho Visão Computacional e Vieses Racializados: branquitude como padrão no aprendizado de máquina, que fez parte da Sessão Temática “Branquitude, Representações e Mídia”. O slideshow já está disponível:

Em breve o artigo completo será publicado nos anais do evento. Acompanhe as publicações relacionadas no ResearchGate ou Lattes.

Interrogando APIs de Visão Computacional – publicado relatório do #SMARTDataSprint

No final de janeiro aconteceu mais uma edição do SMART Data Sprint, um evento que reúne pesquisadores, programadores e designers para trabalho colaborativo sobre um determinado tema de pesquisa – e bases de dados. Tive a oportunidade de, junto ao Andre Mintz, idealizar o projeto “Interrogating Vision APIs“. Durante quatro dias, Mintz se juntou aos pesquisadores Beatrice Gobbo, Elena Pilipets, Hamdan Azhar, Helen Takamitsu, Janna Joceli Omena e Taís Oliveira para analisar ao mesmo tempo, com métodos digitais, duas perguntas de pesquisa:

a) Quais são as diferenças entre os principais fornecedores de visão computacional?

b) Podemos investigar representações nacionais usando ferramentas de visão computacional?

Para responder estas perguntas, foram processadas mais de 60 mil imagens provenientes de bancos de imagens (Shutterstock, Adobe Stock e Getty Images) para resultados à buscas como “brazilian”, “british”, “indian”, “portuguese” e outros marcadores de nacionalidade em cada um dos recursos de visão computacional citados anteriormente. O time focou em quatro nacionalidades (brasileiros, nigerianos, austríacos e portugueses).

Foram aplicados de modo emergente métodos como text analysis, visualização de redes, descrição densa e cálculos estatísticos para entender as similaridades e diferenças tanto entre os fornecedores de visão computacional quanto entre os diferentes bancos de imagens e nacionalidades representadas.

Como primeiro resultado público do esforço, um extenso relatório que também inclui protocolos de pesquisa (para replicação), detalhes sobre a metodologia, questões de pesquisa, design da pesquisa, descobertas e dicussão foi publicado no site do Inova Media Lab, organizador do evento. Em breve os autores produzirão textos acadêmicos e desdobramentos sobre o estudo, mas gostaria de adiantar – para os lusófonos, um mini-resumo das principais descobertas.

 

Diferenças entre fornecedores de computação visual

As três APIs de computação visual abordadas – desenvolvidas por Google, IBM e Microsoft – apresentam características bem diferentes de etiquetagem que descrevem diferentes ontologias e espaços semânticos. Sobre níveis de detalhes, a API da Google tende a maiores níveis de especificidade; IBM apresenta alguma especificidade mas não tanta quanto a da Google; e a da Microsoft é geralmente muito genérica e possui um escopo limitado de etiquetagem. A imagem abaixo apresenta uma comparação anedótica sobre as abordagens:

 

Redes visuais como ferramentas descritivas úteis à pesquisa social sobre representação

Sites de bancos de imagens representam visualidades com temas recorrentes para os quais as APIs de computação visual são úteis como recursos descritivos, mostrando configurações e padrões emergentes dos temas construídos como típicos para cada grupo – nacionalidade no caso. A visualização abaixo, por exemplo, mostra na rede de labels (etiquetas) como, para cada país, as APIs e a clusterização em rede (no Gephi) permitiu encontrar um padrão recorrente de grupos ligados a: a) natureza; b) comida; e c) pessoas. Para cada país um grande grupo de imagens sobre algum aspecto cultural (ou estereótipo online) esteve também presente: Carnaval para Brasil; Têxtil para Portugal; Cidade e Arquitetura para Áustria; e Dinheiro para Nigéria.

 

Visão computacional e culturas

As APIs de visão computacional apresentaram diferentes níveis de sensibilidade e modos de tratamento de imagens de culturas específicas. Por exemplo, enquanto o Google reconheceu vários itens específicos sobre comida ou instrumentos musicais, a precisão nem sempre foi satisfatória tanto no serviço da Google quanto na dos demais. Em alguns casos, as APIs reproduziram invisibilidades de marcadores culturais de grupos minorizados, possível reforço de relações étnico-raciais hierarquizadas. Na imagem abaixo vemos um dos exemplos nos quais a Google Vision marcou como peruca (“wig”) um cabelo natural:

Há muito mais no relatório que pode ser lido em toda sua extensão em https://smart.inovamedialab.org/smart-2019/project-reports/interrogating-vision-apis/