(Des)Inteligência Artificial: como computadores não compreendem o mundo

Quem acompanhou o caso dos 12 garotos presos na caverna Tham Luang Nang Non, na Tailândia, possivelmente acompanhou a iniciativa do bilionário Elon Musk em criar um submarino para resgate. Ignorando os esforços locais de profissionais da Tailândia e outros países empenhados no resgate, o rosto público das empresas Tesla, Boring Company e SpaceX, Musk chegou a agredir verbalmente e difamar um jornalista que criticou a iniciativa do empresário como apenas uma iniciativa fútil de RP. E realmente era. Os 12 garotos foram resgatados por heróis incansáveis e especialistas em suas áreas, atividades e na região da caverna. Como disse o coordenador do centro de comando do resgate, Narongsak Osatanakorn, “Apesar de sua tecnologia ser boa é sofisticada, não é prática para esta missão”.

Essa postura delirante e egoica de tentar consertar o que não está quebrado com mais tecnologia, ignorando esforços, especialistas e dinâmicas anteriores, já pôde ser vista recentemente em figuras similares como Steve Jobs e Mark Zuckerberg. Entretanto, o histórico da computação e inteligência traz casos similares ao de Musk aos borbotões. Um particularmente anedótico é uma conversa atribuída a Marvin Minsky, um dos grandes nomes da área, que fundou o laboratório de inteligência artificial do MIT e ensinou centenas de cientistas e professores que desenvolveram a área. Stephen Wolfram conta que, no início dos anos 1980, em visita a Minsky na casa de sua filha, que tinha uma coleção de plantas, Wolfram percebeu que algumas delas estavam com pragas de insetos. A partir daí seguiu-se uma longa discussão sobre desenvolvimento de micro-robôs que poderiam eliminar os insetos. Porém, ao perguntar o que fazer com as plantas, Minsky responde: “Ah, acho melhor você falar com minha esposa”.

Este caso, incluído no livro, é um dos melhores exemplos da importância da publicação de trabalhos como Artificial (Un)Intelligence: how computer misunderstand the world, de Meredith Broussard. Foi lançado em abril deste ano e reúne estudos e aprendizados da autora como jornalista, programadora e pesquisadora.  Meredith Broussard é professora do Arthur L. Carter Journalism Institute da NYU e pesquisadorea no Moore-Sleam Data Science Environmnent. Neste livro, apresenta 12 capítulos divididos em três partes chamadas “Como computadores funcionam”, “Quando computadores não funcionam” e “Trabalhando juntos”.

Em comparação a outros livros sobre viés algorítmicos e problemas na inteligência artificial que recomendei no blog, Artificial (Un)Intelligence possui uma vantagem muito interessante: em vários capítulos Broussard faz uma espécie de tour guiado por conceitos básicos da programação, de modo a levar até o leitor mais leigo a compreender como funciona parte do trabalho de construção de códigos e decisões imbricadas que depois se invisibilizam nas caixas pretas dos dispositivos. É o que acontece no capítulo 02, chamado “Hello World” – saber como imprimir/visualizar estas duas palavras estão entre os primeiros passos de mais que 9 entre 10 cursos de novas linguagens. A partir da tarefa do título, a autora apresenta alguns passos simples para a criação de um algoritmo condicional simples.

Porém, não se trata efetivamente de ensinar a leitora ou leitor a começar a programar. Mas sim levar quem lê a entender, na prática, que os códigos são socialmente construídos.

Although the data may be generated in different ways, there’s one thing all the preceding examples have in common: all of the data is generated by people. This is true Although the data may be generated in different ways, there’s one thing all the preceding examples of all data. Ultimately, data always comes down to people counting things. If we don’t think too hard about it, we might imagine that data springs into the world fully formed from the head of Zeus. We assume that because there is data, the data must be true. Note the first principle of this book: data is socially constructed. Please let go of any notion that data is made by anything except people.

Na primeira parte do livro, ao longo dos outros capítulos “Hello, reader”, “Hello AI” e “Hello, data journalism”, Broussard apresenta uma excelente introdução aos conceitos de inteligência artificial, jornalismo de dados e o papel destes nas democracias. Enfatiza bem a diferença entre “inteligência artificial geral” e “inteligência artificial estrita” para dissipar percepções erradas, criadas em parte pela ficção, sobre agentes artificiais que tomariam o mundo, de Skynet à Samantha de Her. Não é este o problema quanto à inteligência artificial e uso pervasivo de dados sociais, mas sim a sua interface com aumento de desigualdade, concentração de poder e piora das relações internacionais.

Apesar disso, existe uma adesão voluntária à ideia de que mais computadores, big data e inteligência artificial é algo necessariamente bom e remediador. É o “tecnochauvinismo” que, de modo resumido, seria a crença de que mais “tecnologia” é sempre a solução. Tecnochauvinismo é frequentemente acompanhado por meritocracia neoliberal, defesa distorcida da “liberdade de expressão” para manter discurso de ódio; da ideia de que computadores seria objetivos e uma fé de que o mundo com mais computadores resolveriam problemas sociais.”Para descrever casos reais e combater o tecnochauvinismo, Broussard se debruça na parte dois em cinco capítulos sobre questões e problemas muito reais sobre computadores e inteligência artificial: testes padronizados no sistema de ensino; raízes de desigualdade de gênero e raça na academia e mercado que produzem as tecnologias e sistemas de AI; corrida por legalização de carros autônomos; e os malefícios de equalizar popularidade com qualidade nas plataformas de comunicação como Google e Facebook. Também faz parte da segunda parte do livro um capítulo sobre  aprendizado de máquina (machine learning). Broussard ataca a frequente confusão quanto a este termo, que leva leigos a acreditar que os sistemas aprendem “sozinhos”, ao invés de serem ensinados a partir de bases de dados criadas por seres humanos.

No atual momento, no qual inteligência artificial é uma “buzzword”, ou palavra da moda no marketing, esta crença é perigosa. Para explicar as diferenças entre os tipos de aprendizado de máquina, assim como apresentar passos e decisões comuns que os desenvolvedores deveriam enfrentar de forma responsável, Broussard volta às linhas de código. No capítulo “Machine Learning: the DL on ML“, Broussard explora junto conosco um dataset com informações sobre as pessoas que morreram no naufrágio do Titanic. Passando por variáveis como gênero, classe, idade e tipo de cabine a autora explica como a construção de um sistema preditivo requer muitas decisões difíceis quando está ligado a vidas humanas. E está longe de ser apenas um recurso pedagógico: decisões similares são feitas em sistemas de policiamento, planos de saúde, crédito financeiro e afins.

A terceira parte do livro traz dois casos mais particulares da autora. O primeiro capítulo desta parte é um relato de participação da autora  em um evento de um hackaton para criação de startups chamado Startup Bus. Broussard usa o relato da experiência e construção de um pitch de startup para discorrer sobre o ethos das startups e como seus afiliados deixam de lado com frequência – seja por ignorância, seja por má fé – muitas reflexões e responsabilidades éticas e morais em prol de construção de possíveis sucessos comerciais. O segundo descreve a construção do sistema Bailiwick Campaign Finance. Broussard construiu este website para oferecer “histórias automatizadas” sobre financiamento de campanha: ao cruzar dados de políticos e financiadores, tem como objetivo ajudar jornalistas a encontrar possíveis temas para investigação. Veja abaixo:

O livro Artificial (Un)Intelligence é uma leitura necessária e rápida para qualquer comunicador e pesquisador interessado no tema da pervasividade dos algoritmos e seus impactos. Para finalizar, veja abaixo uma entrevista sobre o livro:

Os Riscos dos Vieses e Erros na Inteligência Artificial

O relatório An Intelligence in Our Image – The Risks of Bias and Errors in Artificial Intelligence foi lançado em 2017 pela RAND Corporation com o objetivo de lançar luz sobre vieses e erros na inteligência artificial e pontuar a relevância do debate sobre o tema. Foi escrito por Osonde Osoba, Doutor em Engenharia, e William Welser IV, Mestre em Finanças, ambos analistas da RAND.

O texto é estruturado em quatro capítulos: Introdução; Algoritmos: definição e avaliação; O Problema em Foco: fatores e remediações; Conclusão. Na introdução e parte inicial do segundo capítulo, os autores revisam histórico, definições e nuances dos principais tipos de “agentes artificiais” (conceito que engloba a junção de inteligência artificial em algoritmos efetivamente aplicados em sistemas decisórios). Sublinham em interessante trecho a opacidade dos sistemas algorítmicos com exemplos clássicos como a Google Flu Trends, crise financeira de 2008 e outros desastres em gestão pública.

Com a abundância de dados na “era do big data”, entretanto, a emergência dos sistemas de machine learning traz o debate para os modos pelos quais são construídos e suas vulnerabilidades quanto ao datasets de treino, etapa essencial mas comumente deixada de lado (e pouquíssimo debatida).

“Learning algorithms tend to be vulnerable to characteristics of their training data. This is a feature of these algorithms: the ability to adapt in the face of changing input. But algorithmic adaptation in response input data also presents an attack vector for malicious users. This data diet vulnerability in learning algorithms is a recurring theme.”

Partindo de casos documentados por Batya Friedman e Nissenbaum 22 anos atrás em Bias in Computer Systems, os autores trazem casos contemporâneos de redlining e até discriminação baseada em proxies de raça (como nomes tipicamente afro-americanos), chegando ao conceito de scored society de Citron e Pasquale.

they mean the current state in which unregulated, opaque, and sometimes hidden algorithms produce authoritative scores of individual reputation that mediate access to opportunity. These scores include credit, criminal, and employability scores. Citron and Pasquale particularly focused on how such systems violate reasonable expectations of due process, especially expectations of fairness, accuracy, and the existence of avenues for redress. They argue that algorithmic credit scoring has not reduced bias and discriminatory practices.

O relatório cita então trabalhos de Solon Barocas e Helen Nissenbaum que argumentam firmemente que o uso de big data para alimentar algoritmos não os torna mais neutros e justos, mas justamente o contrário. Além disto, os cuidados comumente empregados é esconder campos “sensíveis” nos dados em algoritmos de aprendizado, como raça e gênero. Porém, diversos estudos já mostraram que estas variáveis podem ser descobertas implicitamente e inseridas nos modelos para classificação discriminatória.

Em algumas áreas como vigilância e segurança pública, a aplicação inadequada de algoritmos e aprendizado de máquina podem ser fatais. Como demonstra trabalho da ProPublica, um sistema de “avaliação de risco criminal” que tinha como objetivo prever reincidência criminal errou de forma criminosa e racista. Réus negros estiveram sujeitos em dobro a serem classificados erroneamente como potenciais reincidentes violentos, enquanto réus brancos efetivamente reincidentes foram classificados erroneamente como de baixo risco 62.3% mais frequentemente que réus negros.

Departamentos de polícia tem usado algoritmos também para decidir onde e como alocar recursos de vigilância, para direcionar policiamento “preditivo”. Porém, a lógica inerente ao sistema tende a gerar mais erros e discriminação. O gráfico abaixo é uma simulação feita pelos autores sobre um hipotético sistema que aloca mais vigilância policial em uma determinada área ou grupo demográfico, por alguma decisão inicial no setup do sistema. Poderia ser, por exemplo, a série histórica de dados (uma região periférica que tenha histórico maior de crimes recebe mais vigilância inicialmente). No padrão destes sistemas de alocação, a vigilância maior nesta área vai crescentemente direcionar mais vigilância pois mais dados de crime serão gerados nesta área por causa, justamente, da vigilância. E nas interseções de classe, raça, país de origem e afins, esta dinâmica aumenta a desigualdade continuamente, criminalizando e piorando as condições das populações que inicialmente possuíam alguma desvantagem econômica ou de status.

No terceiro capítulo, os autores resumem os principais tipos de causas dos problemas e possíveis soluções. Sobre os vieses, relembram que um agente artificial é tão bom quanto os dados a partir dos quais aprende a tomar decisões. Uma vez que a geração de dados é um fenômeno social, está repleta de vieses humanos. Aplicar algoritmos tecnicamente corretos a dados enviesados apenas ensina os agentes artificiais a imitar e intensificar os vieses que os dados contêm. Outro ponto dos vieses é que os julgamentos nas esferas sociais e morais são difusas, raramente são critérios simples ou binários.  Quanto aos fatores técnicos, apontam problemas como disparidade de amostragem, adaptação e hacking social dos sistemas e variáveis sensíveis inferidas dos dados.

Mas, como combater todos estes problemas? O relatório também aponta alguns caminhos possíveis.

a) Algoritmos de Raciocínio Causal – os autores citam casos na Suprema Corte de uso de métodos quantitativos empíricos para ilustrar a desproporção de penas capitais no estado da Georgia (EUA), nos quais foram contestadas as relações causais. Algoritmos devem ser auditados quanto suas pretensões de fatores causais nas decisões – uma posição necessária uma vez que há defensores do poder da correlação no contexto do big data (o argumento de que o volume de dados seria suficiente para direcionar escolhas).

b) Literacia e Transparência sobre Algoritmos – combater vieses algoritmos passa também por um público educado a ponto de compreender os mecanismos pelos quais as desigualdades e injustiças podem ser geradas por sistemas mal construídos. Transparência informada e clara sobre os algoritmos presentes em plataformas de comunicação, educação e jurídicas pode avançar ainda mais o papel dos usuários em questionar, criticar e debater os sistemas.

c) Abordagens de Pessoal – Identificar os vieses e erros sistêmicos em algoritmos requerem não apenas conhecimento computacional, matemático e estatístico, mas também exposição à questionamentos e reflexões sobre questões da sociedade e políticas públicas. Frequentemente, entretanto, os criadores ou detentores das plataformas, sistemas e algoritmos não foram treinados ou expostos a formação sobre ética, sociologia ou ciência política.

d) Regulação – por fim, o papel de organismos regulatórios do estado e sociedade civil são essenciais e devem ser impulsionados pelo interesse da sociedade e campo acadêmico. Os autores apontam que a auditoria de algoritmos pode ser complexa tecnica, social e mercadologicamente. Entretanto, apoiam a proposta de Christian Sandvig de olhar não para as minúcias e tecnicalidades internas dos agentes artificiais, mas sim para as consequências de seus resultados, decisões e ações:

Certain audit types ignore the inner workings of artificial agents and judge them according to the fairness of their results. This is akin to how [ we often judge human agents: by the consequences of their outputs (decisions and actions) and not on the content or ingenuity of their code base (thoughts).

Para finalizar, mais uma dica de conteúdo. O pequeno vídeo abaixo é uma palestra de Osonde Osoba no TEDx Massachussets de dezembro de 2017. Osoba fala sobre os desafios de “tornar inteligência artificial justa”.

Confira mais trabalhos de Osoba em https://scholar.google.com/citations?user=w5oYjbYAAAAJ

Entenda o Monitoramento de Mídias Sociais com e-book brasileiro

É com imensa satisfação que anuncio a publicação do e-book Para Entender o Monitoramento de Mídias Sociais. Consegui reunir 27 artigos inéditos de profissionais e pesquisadores da área, entre analistas, coordenadores e diretores de agências e departamentos de mídias sociais, desenvolvedores de ferramentas e softwares, professores, pesquisadores acadêmicos e gerentes de marketing e comunicação de grandes empresas.

Inspirado nas publicações Para Entender a Internet e Para Entender as Mídias Sociais, o e-book trata de 22 tópicos sobre o tema: Informação; Reputação; Análise de Sentimento; SAC; Profissionais; ROI; Relevância; Monitoramento; Mensuração; Inteligência Artificial; Gestão de Crises; Classificação; Geolocalização; Conteúdo; Netnografia; Softwares Plenos; Perfis; Opinião Pública; Convergência; SEO; Visualização; e Gestão do Conhecimento.