Google acha que ferramenta em mão negra é uma arma

A desinteligência artificial é uma constante mesmo em grandes empresas reconhecidas pelos seus feitos na tecnologia digital. Na minha Linha do Tempo do Racismo Algorítmico há alguns casos como: a Google marcando pessoas negras como gorilas; Instagram vendo violência e armas onde não há; IBM e Microsoft não reconhecendo gênero de mulheres negras.

Internacionalmente esforços coordenados buscam proibir ou ao menos suspender o uso de inteligência artificial por instituições públicas, sobretudo em segurança pública. As taxas de erro são enormes, de Salvador até centros globais financeiros e tecnológicos como Londres. Atualmente a pandemia de COVID-19 tem sido a desculpa para empresas questionáveis forçarem a normalização de uso de tecnologias problemáticas seja no Brasil ou no exterior.

Mais um caso vulgar de erro em visão computacional foi mapeado. Nas imagens abaixo, o pesquisador Nicolas Kayser-Bril rodou duas imagens de pessoas segurando um termômetro na Google Vision, recurso de análise de imagens. Na foto com a pessoa asiática, as etiquetas “Tecnologia” e “Dispositivo Eletrônico” lideraram. Na com a pessoa negra, a etiqueta “Arma” foi marcada com 88% de certeza.

Esse tipo de erro é causado por um acúmulo de fatores, que vai da base de dados de péssima qualidade, lógica relacional do aprendizado de máquina falta de diversidade no campo e ao technochauvinismo dos profissionais da área que não criam ou reforçam mecanismos de representação adequada. A depender do seu ceticismo você está buscando motivos na imagem para justificar a questão? O pesquisador Bart Nagel responde com o experimento abaixo, onde embranqueceu a mão da foto:

Este é mais um de inúmeros casos da vulgaridade da aplicação da inteligência artificial para supostamente entender questões complexas e sociais da realidade. Mas quando falamos de segurança pública, o horror da necropolítica está agindo claramente. Os inúmeros casos de assassinato de cidadãos por policiais que se “confundiram” possuem uma ligação que não é coincidência com a estupidez da visão computacional. Não podemos, enquanto sociedade, permitir que o technochauvinismo avance ainda mais na segurança pública.

Veja mais casos do horror do racismo algorítmico na Linha do Tempo, entenda como estes recursos funcionam e são nocivos no artigo Visão computacional e Racismo Algorítmico: branquitude e opacidade no aprendizado de máquina e no relatório Interrogating Vision APIs, onde propomos metodologia de auditoria destes sistemas.

Interrogando APIs de Visão Computacional – publicado relatório do #SMARTDataSprint

No final de janeiro aconteceu mais uma edição do SMART Data Sprint, um evento que reúne pesquisadores, programadores e designers para trabalho colaborativo sobre um determinado tema de pesquisa – e bases de dados. Tive a oportunidade de, junto ao Andre Mintz, idealizar o projeto “Interrogating Vision APIs“. Durante quatro dias, Mintz se juntou aos pesquisadores Beatrice Gobbo, Elena Pilipets, Hamdan Azhar, Helen Takamitsu, Janna Joceli Omena e Taís Oliveira para analisar ao mesmo tempo, com métodos digitais, duas perguntas de pesquisa:

a) Quais são as diferenças entre os principais fornecedores de visão computacional?

b) Podemos investigar representações nacionais usando ferramentas de visão computacional?

Para responder estas perguntas, foram processadas mais de 60 mil imagens provenientes de bancos de imagens (Shutterstock, Adobe Stock e Getty Images) para resultados à buscas como “brazilian”, “british”, “indian”, “portuguese” e outros marcadores de nacionalidade em cada um dos recursos de visão computacional citados anteriormente. O time focou em quatro nacionalidades (brasileiros, nigerianos, austríacos e portugueses).

Foram aplicados de modo emergente métodos como text analysis, visualização de redes, descrição densa e cálculos estatísticos para entender as similaridades e diferenças tanto entre os fornecedores de visão computacional quanto entre os diferentes bancos de imagens e nacionalidades representadas.

Como primeiro resultado público do esforço, um extenso relatório que também inclui protocolos de pesquisa (para replicação), detalhes sobre a metodologia, questões de pesquisa, design da pesquisa, descobertas e dicussão foi publicado no site do Inova Media Lab, organizador do evento. Em breve os autores produzirão textos acadêmicos e desdobramentos sobre o estudo, mas gostaria de adiantar – para os lusófonos, um mini-resumo das principais descobertas.

 

Diferenças entre fornecedores de computação visual

As três APIs de computação visual abordadas – desenvolvidas por Google, IBM e Microsoft – apresentam características bem diferentes de etiquetagem que descrevem diferentes ontologias e espaços semânticos. Sobre níveis de detalhes, a API da Google tende a maiores níveis de especificidade; IBM apresenta alguma especificidade mas não tanta quanto a da Google; e a da Microsoft é geralmente muito genérica e possui um escopo limitado de etiquetagem. A imagem abaixo apresenta uma comparação anedótica sobre as abordagens:

 

Redes visuais como ferramentas descritivas úteis à pesquisa social sobre representação

Sites de bancos de imagens representam visualidades com temas recorrentes para os quais as APIs de computação visual são úteis como recursos descritivos, mostrando configurações e padrões emergentes dos temas construídos como típicos para cada grupo – nacionalidade no caso. A visualização abaixo, por exemplo, mostra na rede de labels (etiquetas) como, para cada país, as APIs e a clusterização em rede (no Gephi) permitiu encontrar um padrão recorrente de grupos ligados a: a) natureza; b) comida; e c) pessoas. Para cada país um grande grupo de imagens sobre algum aspecto cultural (ou estereótipo online) esteve também presente: Carnaval para Brasil; Têxtil para Portugal; Cidade e Arquitetura para Áustria; e Dinheiro para Nigéria.

 

Visão computacional e culturas

As APIs de visão computacional apresentaram diferentes níveis de sensibilidade e modos de tratamento de imagens de culturas específicas. Por exemplo, enquanto o Google reconheceu vários itens específicos sobre comida ou instrumentos musicais, a precisão nem sempre foi satisfatória tanto no serviço da Google quanto na dos demais. Em alguns casos, as APIs reproduziram invisibilidades de marcadores culturais de grupos minorizados, possível reforço de relações étnico-raciais hierarquizadas. Na imagem abaixo vemos um dos exemplos nos quais a Google Vision marcou como peruca (“wig”) um cabelo natural:

Há muito mais no relatório que pode ser lido em toda sua extensão em https://smart.inovamedialab.org/smart-2019/project-reports/interrogating-vision-apis/

Evocando Cartões Postais no Instagram: estudo automatizado de imagens

Escrito em parceria com a orientanda de especialização Mariana Zanotti, aprovei artigo Evocando Cartões Postais no Instagram: estudo automatizado de imagens no Congresso Nacional da Intercom deste ano, que acontecerá em Joinville. O artigo faz parte de uma série de experimentos sobre a aplicação de computação visual ao estudo da comunicação e cultura, que estamos desenvolvendo no IBPAD e já teve estudos sobre marketing turístico, estudo de influenciadores, construção de imagem política entre outros.

Resumo: Os cartões postais são materiais mistificados desde a sua gênese no final do século XX. Entre sinais de crise e ressignificação, mantêm-se como objeto cultural reconhecível por indivíduos de todo o mundo, a despeito de serem efetivamente usuários ou não do formato. Com a popularização de sites de redes sociais e aplicativos voltados a publicação cotidiana de fotografias, como o Instagram, usuários evocam estilos de formatos consagrados. O artigo apresenta experimento de análise e visualização apoiada por computação visual de 14 mil publicações com a hashtag #postcard. Como resultado da aplicação de algoritmos de modularidade, identificou 7 agrupamentos de entidades visuais presentes nas fotografias, através das quais os usuários se apropriam do conhecimento tácito dos públicos sobre o formato para gerar conteúdos de construção estratégica de seus perfis pessoais para suas audiências.

A imagem abaixo representa a rede de imagens gerada durante a análise e descrita no trabalho. Além do artigo, compartilhamos também os datasets principais.

 

Saiba mais sobre o evento em http://www.portalintercom.org.br/eventos1/congresso-nacional/2018  e acesse o artigo diretamente no ResearchGate