Pesquisadoras propõem método para documentação de datasets em aprendizado de máquina

Sistemas de inteligência artificial são totalmente dependentes dos conjuntos de dados (datasets) usados para treiná-los. Escolhas ruins de datasets para aprendizado de máquina (machine learning) são responsáveis por resultados ruins e perigosos nas áreas mais variadas: mecanismos de buscas, reconhecimento de imagens, vigilância preditiva entre outros. Entretanto, há milhares de pesquisadoras em todo o mundo enfrentando este problema.

No artigo em produção Datasheets for Datasets, as pesquisadoras Timnit Gebru, Jamie Morgenstern, Briana Vecchione, Jennifer Wortman Vaughan, Hanna Wallach, Hal Daumé III e Kate Crawford propõe uma “ficha de dados” para documentação de datasets, com questões relevantes a serem documentadas em áreas como: motivos e objetivos para criação; composição; coleta de dados; pre-processamento; distribuição; manutenção; e considerações legais e éticas.

Três outras áreas são evocadas para mostrar a importância e a factibilidade de criar padrões e regulações em novas tecnologias: indústria automotiva; testes clínicos em medicina; e dispositivos elétricos e eletrônicos. Quanto à indústria automotiva, por exemplo, as autoras apresentam histórico sobre regulações como freios, resistência de para-brisas e cintos de segurança, que foram implementados muitas décadas depois da popularização dos automóveis. Vieses e discriminações na construção destas tecnologias foram inúmeros. Apenas em 2011 os EUA obrigaram fabricantes a usar também manequins femininos em testes de acidentes. Na área da saúde, oito de dez medicamentos recolhidos entre 1997 e 2001 tiveram efeitos adversos mais intensos para mulheres. Nas opressões interseccionais, o histórico de práticas racistas na saúde é amplamente conhecido, como na própria invenção da ginecologia.

Além do debate sobre aspectos específicos e barreiras para a adoção das fichas de dados nas práticas de aprendizado de máquina, a publicação também inclui dois exemplos-protótipos de uso da datasheet proposta. Confira a seguir na arXiv:

(Des)Inteligência Artificial: como computadores não compreendem o mundo

Quem acompanhou o caso dos 12 garotos presos na caverna Tham Luang Nang Non, na Tailândia, possivelmente acompanhou a iniciativa do bilionário Elon Musk em criar um submarino para resgate. Ignorando os esforços locais de profissionais da Tailândia e outros países empenhados no resgate, o rosto público das empresas Tesla, Boring Company e SpaceX, Musk chegou a agredir verbalmente e difamar um jornalista que criticou a iniciativa do empresário como apenas uma iniciativa fútil de RP. E realmente era. Os 12 garotos foram resgatados por heróis incansáveis e especialistas em suas áreas, atividades e na região da caverna. Como disse o coordenador do centro de comando do resgate, Narongsak Osatanakorn, “Apesar de sua tecnologia ser boa é sofisticada, não é prática para esta missão”.

Essa postura delirante e egoica de tentar consertar o que não está quebrado com mais tecnologia, ignorando esforços, especialistas e dinâmicas anteriores, já pôde ser vista recentemente em figuras similares como Steve Jobs e Mark Zuckerberg. Entretanto, o histórico da computação e inteligência traz casos similares ao de Musk aos borbotões. Um particularmente anedótico é uma conversa atribuída a Marvin Minsky, um dos grandes nomes da área, que fundou o laboratório de inteligência artificial do MIT e ensinou centenas de cientistas e professores que desenvolveram a área. Stephen Wolfram conta que, no início dos anos 1980, em visita a Minsky na casa de sua filha, que tinha uma coleção de plantas, Wolfram percebeu que algumas delas estavam com pragas de insetos. A partir daí seguiu-se uma longa discussão sobre desenvolvimento de micro-robôs que poderiam eliminar os insetos. Porém, ao perguntar o que fazer com as plantas, Minsky responde: “Ah, acho melhor você falar com minha esposa”.

Este caso, incluído no livro, é um dos melhores exemplos da importância da publicação de trabalhos como Artificial (Un)Intelligence: how computer misunderstand the world, de Meredith Broussard. Foi lançado em abril deste ano e reúne estudos e aprendizados da autora como jornalista, programadora e pesquisadora.  Meredith Broussard é professora do Arthur L. Carter Journalism Institute da NYU e pesquisadorea no Moore-Sleam Data Science Environmnent. Neste livro, apresenta 12 capítulos divididos em três partes chamadas “Como computadores funcionam”, “Quando computadores não funcionam” e “Trabalhando juntos”.

Em comparação a outros livros sobre viés algorítmicos e problemas na inteligência artificial que recomendei no blog, Artificial (Un)Intelligence possui uma vantagem muito interessante: em vários capítulos Broussard faz uma espécie de tour guiado por conceitos básicos da programação, de modo a levar até o leitor mais leigo a compreender como funciona parte do trabalho de construção de códigos e decisões imbricadas que depois se invisibilizam nas caixas pretas dos dispositivos. É o que acontece no capítulo 02, chamado “Hello World” – saber como imprimir/visualizar estas duas palavras estão entre os primeiros passos de mais que 9 entre 10 cursos de novas linguagens. A partir da tarefa do título, a autora apresenta alguns passos simples para a criação de um algoritmo condicional simples.

Porém, não se trata efetivamente de ensinar a leitora ou leitor a começar a programar. Mas sim levar quem lê a entender, na prática, que os códigos são socialmente construídos.

Although the data may be generated in different ways, there’s one thing all the preceding examples have in common: all of the data is generated by people. This is true Although the data may be generated in different ways, there’s one thing all the preceding examples of all data. Ultimately, data always comes down to people counting things. If we don’t think too hard about it, we might imagine that data springs into the world fully formed from the head of Zeus. We assume that because there is data, the data must be true. Note the first principle of this book: data is socially constructed. Please let go of any notion that data is made by anything except people.

Na primeira parte do livro, ao longo dos outros capítulos “Hello, reader”, “Hello AI” e “Hello, data journalism”, Broussard apresenta uma excelente introdução aos conceitos de inteligência artificial, jornalismo de dados e o papel destes nas democracias. Enfatiza bem a diferença entre “inteligência artificial geral” e “inteligência artificial estrita” para dissipar percepções erradas, criadas em parte pela ficção, sobre agentes artificiais que tomariam o mundo, de Skynet à Samantha de Her. Não é este o problema quanto à inteligência artificial e uso pervasivo de dados sociais, mas sim a sua interface com aumento de desigualdade, concentração de poder e piora das relações internacionais.

Apesar disso, existe uma adesão voluntária à ideia de que mais computadores, big data e inteligência artificial é algo necessariamente bom e remediador. É o “tecnochauvinismo” que, de modo resumido, seria a crença de que mais “tecnologia” é sempre a solução. Tecnochauvinismo é frequentemente acompanhado por meritocracia neoliberal, defesa distorcida da “liberdade de expressão” para manter discurso de ódio; da ideia de que computadores seria objetivos e uma fé de que o mundo com mais computadores resolveriam problemas sociais.”Para descrever casos reais e combater o tecnochauvinismo, Broussard se debruça na parte dois em cinco capítulos sobre questões e problemas muito reais sobre computadores e inteligência artificial: testes padronizados no sistema de ensino; raízes de desigualdade de gênero e raça na academia e mercado que produzem as tecnologias e sistemas de AI; corrida por legalização de carros autônomos; e os malefícios de equalizar popularidade com qualidade nas plataformas de comunicação como Google e Facebook. Também faz parte da segunda parte do livro um capítulo sobre  aprendizado de máquina (machine learning). Broussard ataca a frequente confusão quanto a este termo, que leva leigos a acreditar que os sistemas aprendem “sozinhos”, ao invés de serem ensinados a partir de bases de dados criadas por seres humanos.

No atual momento, no qual inteligência artificial é uma “buzzword”, ou palavra da moda no marketing, esta crença é perigosa. Para explicar as diferenças entre os tipos de aprendizado de máquina, assim como apresentar passos e decisões comuns que os desenvolvedores deveriam enfrentar de forma responsável, Broussard volta às linhas de código. No capítulo “Machine Learning: the DL on ML“, Broussard explora junto conosco um dataset com informações sobre as pessoas que morreram no naufrágio do Titanic. Passando por variáveis como gênero, classe, idade e tipo de cabine a autora explica como a construção de um sistema preditivo requer muitas decisões difíceis quando está ligado a vidas humanas. E está longe de ser apenas um recurso pedagógico: decisões similares são feitas em sistemas de policiamento, planos de saúde, crédito financeiro e afins.

A terceira parte do livro traz dois casos mais particulares da autora. O primeiro capítulo desta parte é um relato de participação da autora  em um evento de um hackaton para criação de startups chamado Startup Bus. Broussard usa o relato da experiência e construção de um pitch de startup para discorrer sobre o ethos das startups e como seus afiliados deixam de lado com frequência – seja por ignorância, seja por má fé – muitas reflexões e responsabilidades éticas e morais em prol de construção de possíveis sucessos comerciais. O segundo descreve a construção do sistema Bailiwick Campaign Finance. Broussard construiu este website para oferecer “histórias automatizadas” sobre financiamento de campanha: ao cruzar dados de políticos e financiadores, tem como objetivo ajudar jornalistas a encontrar possíveis temas para investigação. Veja abaixo:

O livro Artificial (Un)Intelligence é uma leitura necessária e rápida para qualquer comunicador e pesquisador interessado no tema da pervasividade dos algoritmos e seus impactos. Para finalizar, veja abaixo uma entrevista sobre o livro:

Especialização Online em Ciência dos Dados começa em Abril

Nova rodada de cursos online que compõem a Especialização em Ciência dos Dados, oferecida pela John Hopkins University, através do Coursera, começa nesta segunda feira 07 de abril.

O Coursera é um dos MOOC (massive online open course) mais famosos da atualidade, oferecendo cursos de renomadas universidades internacionais para dezenas de milhares de alunos por vez. Desde o ano passado começaram a oferecer “Especializações“: uma série coordenada de cursos que, uma vez completados, oferecem um certificado especial de especialização.

Amanhã, 07 de abril, três cursos da especialização em Data Science, oferecida pelos professores Brian Caffo, Jeff Leek e Roger D. Peng, todos do departamento de Bioestatística da John Hopkins University (Estados Unidos). Os três cursos que abrem amanhã são “The Data Scientist’s Toolbox”, “R Programming” e “Getting and Cleaning Data”. Cada um deles será oferecido em turmas de maio e junho também. Em maio os três cursos seguintes começarão a ser oferecidos, também três vezes sucessivas – maio, junho e julho. Por fim, os três últimos serão oferecidos em junho, julho e agosto. A especialização é encerrada com um projeto especial, ainda sem data definida.

data scientist

 

Os cursos podem ser feitos sem ordem pré-definida, mas existe uma ordem de dependência a depender do conhecimento do aluno. O requisito para conseguir o certificado de especialização é cursar a todos e realizar o projeto final. Os cursos são gratuitos, e o único custo são os certificados, 49 dólares por curso realizado. Além de foto, o sistema de autenticação analisa o padrão de digitação para ter certeza de que o próprio aluno está realizando as atividades.

Dica: não se assuste com a linguagem R de programação. Antes de começar o curso, faça o módulo “Try R” na Code School e, em apenas 2 horinhas, veja como é fácil gerar e analisar dados e gráficos no programa.