A Prisão dos Números – podcast discute métricas, algoritmos, youtubers e raça

O podcast Depois das 19 é produzido por Marcus Martins, Nonny Gomes  e Luiz Phelipe Santos e trata de pautas enegrecidas variadas, como política, literaturaafrocentricidade, democratização da mídia, super-heróishumor, festa e outras minorias. Tive o prazer de participar da última edição, intitulada A Prisão dos Números, falando sobre mídias sociais, algoritmos e racialização em plataformas digitais junto ao youtuber Rick Trindade. Ouça abaixo:

Como prevenir resultados discriminatórios com machine learning?

Lançado em março de 2018, o relatório How to Prevent Discriminatory Outcomes in Machine Learning é resultado de um de trabalho em andamento do Global Future Council on Human Rights do World Economic Forum, que reúne acadêmicos, sociedade civil e experts do mercado para discutir os principais temas do futuro quanto a direitos humanos.

Um destes temas, é claro, é a inteligência artificial e técnicas como aprendizado de máquina (machine learning) que, cada vez mais, automatizam decisões em áreas como negócios, segurança,

Com 30 páginas, o documento é bastante direto em quatro seções. A primeira trata de desafios sobre machine learning quanto a problemas relacionados a dados e relacionados ao design dos algoritmos em si. O viés dos dados que servem de input nos sistemas de aprendizado de máquina podem gerar a intensificação dos vieses devido a (falta de) disponibilidade dos dados de uma determinada população ou devido a dados que já estão repletos de vieses. Vimos aqui no blog um bom exemplo de dataset de treinamento pobre com o caso dos robôs identificados pela Joy Boulamwini e um exemplo de datasets de treinamento ruins com o algoritmo de vigilância preditiva.

Ao tratar dos problemas resultantes do desenho dos algoritmos, os autores falam das seguintes possibilidades: escolha de modelo errado; construção de modelo com recursos discriminatórios acidentais; ausência de supervisão e envolvimento humanos; sistemas imprevisíveis e inescrutáveis; e discriminação intencional. O documento, que busca ser o mais neutro possível, traz apenas casos “hipotéticos” para exemplificar os problemas e remediações. Acredito ser importante enfatizar os problemas relacionados à ausência dos humanos no loop de forma contínua, como no caso das prescrições erradas oferecidas pela IBM Watson à pacientes com câncer.

Para combate aos problemas, são propostos quatro princípios: inclusão ativa;  equidade; direito à compreensão; e acesso a remediação.

A terceira parte chama à responsabilidade as empresas e, por fim, a quarta seção traz checklists sobre o que as empresas, governo, academia e cidadão podem fazer em prol do combate à discriminação ligada à inteligência artificial.

Interrogando plataformas e algoritmos digitais – palestra no Congresso Nacional de Estudos Comunicacionais

No último dia 31 de outubro tive a honra de participar do terceiro CONEC – Congresso Nacional de Estudos Comunicacionais realizado pela PUC Minas – Poço de Caldas. Além de apresentação de artigo sobre inteligência artificial e mapeamento de fake news, realizei palestra sobre um ponto de minha pesquisa de doutorado: como interrogar plataformas e algoritmos digitais. Segue o slideshow, repleto de alguns casos e referências:

Pesquisadoras propõem método para documentação de datasets em aprendizado de máquina

Sistemas de inteligência artificial são totalmente dependentes dos conjuntos de dados (datasets) usados para treiná-los. Escolhas ruins de datasets para aprendizado de máquina (machine learning) são responsáveis por resultados ruins e perigosos nas áreas mais variadas: mecanismos de buscas, reconhecimento de imagens, vigilância preditiva entre outros. Entretanto, há milhares de pesquisadoras em todo o mundo enfrentando este problema.

No artigo em produção Datasheets for Datasets, as pesquisadoras Timnit Gebru, Jamie Morgenstern, Briana Vecchione, Jennifer Wortman Vaughan, Hanna Wallach, Hal Daumé III e Kate Crawford propõe uma “ficha de dados” para documentação de datasets, com questões relevantes a serem documentadas em áreas como: motivos e objetivos para criação; composição; coleta de dados; pre-processamento; distribuição; manutenção; e considerações legais e éticas.

Três outras áreas são evocadas para mostrar a importância e a factibilidade de criar padrões e regulações em novas tecnologias: indústria automotiva; testes clínicos em medicina; e dispositivos elétricos e eletrônicos. Quanto à indústria automotiva, por exemplo, as autoras apresentam histórico sobre regulações como freios, resistência de para-brisas e cintos de segurança, que foram implementados muitas décadas depois da popularização dos automóveis. Vieses e discriminações na construção destas tecnologias foram inúmeros. Apenas em 2011 os EUA obrigaram fabricantes a usar também manequins femininos em testes de acidentes. Na área da saúde, oito de dez medicamentos recolhidos entre 1997 e 2001 tiveram efeitos adversos mais intensos para mulheres. Nas opressões interseccionais, o histórico de práticas racistas na saúde é amplamente conhecido, como na própria invenção da ginecologia.

Além do debate sobre aspectos específicos e barreiras para a adoção das fichas de dados nas práticas de aprendizado de máquina, a publicação também inclui dois exemplos-protótipos de uso da datasheet proposta. Confira a seguir na arXiv: