Pesquisadoras propõem método para documentação de datasets em aprendizado de máquina

Sistemas de inteligência artificial são totalmente dependentes dos conjuntos de dados (datasets) usados para treiná-los. Escolhas ruins de datasets para aprendizado de máquina (machine learning) são responsáveis por resultados ruins e perigosos nas áreas mais variadas: mecanismos de buscas, reconhecimento de imagens, vigilância preditiva entre outros. Entretanto, há milhares de pesquisadoras em todo o mundo enfrentando este problema.

No artigo em produção Datasheets for Datasets, as pesquisadoras Timnit Gebru, Jamie Morgenstern, Briana Vecchione, Jennifer Wortman Vaughan, Hanna Wallach, Hal Daumé III e Kate Crawford propõe uma “ficha de dados” para documentação de datasets, com questões relevantes a serem documentadas em áreas como: motivos e objetivos para criação; composição; coleta de dados; pre-processamento; distribuição; manutenção; e considerações legais e éticas.

Três outras áreas são evocadas para mostrar a importância e a factibilidade de criar padrões e regulações em novas tecnologias: indústria automotiva; testes clínicos em medicina; e dispositivos elétricos e eletrônicos. Quanto à indústria automotiva, por exemplo, as autoras apresentam histórico sobre regulações como freios, resistência de para-brisas e cintos de segurança, que foram implementados muitas décadas depois da popularização dos automóveis. Vieses e discriminações na construção destas tecnologias foram inúmeros. Apenas em 2011 os EUA obrigaram fabricantes a usar também manequins femininos em testes de acidentes. Na área da saúde, oito de dez medicamentos recolhidos entre 1997 e 2001 tiveram efeitos adversos mais intensos para mulheres. Nas opressões interseccionais, o histórico de práticas racistas na saúde é amplamente conhecido, como na própria invenção da ginecologia.

Além do debate sobre aspectos específicos e barreiras para a adoção das fichas de dados nas práticas de aprendizado de máquina, a publicação também inclui dois exemplos-protótipos de uso da datasheet proposta. Confira a seguir na arXiv:

(Des)Inteligência Artificial: como computadores não compreendem o mundo

Quem acompanhou o caso dos 12 garotos presos na caverna Tham Luang Nang Non, na Tailândia, possivelmente acompanhou a iniciativa do bilionário Elon Musk em criar um submarino para resgate. Ignorando os esforços locais de profissionais da Tailândia e outros países empenhados no resgate, o rosto público das empresas Tesla, Boring Company e SpaceX, Musk chegou a agredir verbalmente e difamar um jornalista que criticou a iniciativa do empresário como apenas uma iniciativa fútil de RP. E realmente era. Os 12 garotos foram resgatados por heróis incansáveis e especialistas em suas áreas, atividades e na região da caverna. Como disse o coordenador do centro de comando do resgate, Narongsak Osatanakorn, “Apesar de sua tecnologia ser boa é sofisticada, não é prática para esta missão”.

Essa postura delirante e egoica de tentar consertar o que não está quebrado com mais tecnologia, ignorando esforços, especialistas e dinâmicas anteriores, já pôde ser vista recentemente em figuras similares como Steve Jobs e Mark Zuckerberg. Entretanto, o histórico da computação e inteligência traz casos similares ao de Musk aos borbotões. Um particularmente anedótico é uma conversa atribuída a Marvin Minsky, um dos grandes nomes da área, que fundou o laboratório de inteligência artificial do MIT e ensinou centenas de cientistas e professores que desenvolveram a área. Stephen Wolfram conta que, no início dos anos 1980, em visita a Minsky na casa de sua filha, que tinha uma coleção de plantas, Wolfram percebeu que algumas delas estavam com pragas de insetos. A partir daí seguiu-se uma longa discussão sobre desenvolvimento de micro-robôs que poderiam eliminar os insetos. Porém, ao perguntar o que fazer com as plantas, Minsky responde: “Ah, acho melhor você falar com minha esposa”.

Este caso, incluído no livro, é um dos melhores exemplos da importância da publicação de trabalhos como Artificial (Un)Intelligence: how computer misunderstand the world, de Meredith Broussard. Foi lançado em abril deste ano e reúne estudos e aprendizados da autora como jornalista, programadora e pesquisadora.  Meredith Broussard é professora do Arthur L. Carter Journalism Institute da NYU e pesquisadorea no Moore-Sleam Data Science Environmnent. Neste livro, apresenta 12 capítulos divididos em três partes chamadas “Como computadores funcionam”, “Quando computadores não funcionam” e “Trabalhando juntos”.

Em comparação a outros livros sobre viés algorítmicos e problemas na inteligência artificial que recomendei no blog, Artificial (Un)Intelligence possui uma vantagem muito interessante: em vários capítulos Broussard faz uma espécie de tour guiado por conceitos básicos da programação, de modo a levar até o leitor mais leigo a compreender como funciona parte do trabalho de construção de códigos e decisões imbricadas que depois se invisibilizam nas caixas pretas dos dispositivos. É o que acontece no capítulo 02, chamado “Hello World” – saber como imprimir/visualizar estas duas palavras estão entre os primeiros passos de mais que 9 entre 10 cursos de novas linguagens. A partir da tarefa do título, a autora apresenta alguns passos simples para a criação de um algoritmo condicional simples.

Porém, não se trata efetivamente de ensinar a leitora ou leitor a começar a programar. Mas sim levar quem lê a entender, na prática, que os códigos são socialmente construídos.

Although the data may be generated in different ways, there’s one thing all the preceding examples have in common: all of the data is generated by people. This is true Although the data may be generated in different ways, there’s one thing all the preceding examples of all data. Ultimately, data always comes down to people counting things. If we don’t think too hard about it, we might imagine that data springs into the world fully formed from the head of Zeus. We assume that because there is data, the data must be true. Note the first principle of this book: data is socially constructed. Please let go of any notion that data is made by anything except people.

Na primeira parte do livro, ao longo dos outros capítulos “Hello, reader”, “Hello AI” e “Hello, data journalism”, Broussard apresenta uma excelente introdução aos conceitos de inteligência artificial, jornalismo de dados e o papel destes nas democracias. Enfatiza bem a diferença entre “inteligência artificial geral” e “inteligência artificial estrita” para dissipar percepções erradas, criadas em parte pela ficção, sobre agentes artificiais que tomariam o mundo, de Skynet à Samantha de Her. Não é este o problema quanto à inteligência artificial e uso pervasivo de dados sociais, mas sim a sua interface com aumento de desigualdade, concentração de poder e piora das relações internacionais.

Apesar disso, existe uma adesão voluntária à ideia de que mais computadores, big data e inteligência artificial é algo necessariamente bom e remediador. É o “tecnochauvinismo” que, de modo resumido, seria a crença de que mais “tecnologia” é sempre a solução. Tecnochauvinismo é frequentemente acompanhado por meritocracia neoliberal, defesa distorcida da “liberdade de expressão” para manter discurso de ódio; da ideia de que computadores seria objetivos e uma fé de que o mundo com mais computadores resolveriam problemas sociais.”Para descrever casos reais e combater o tecnochauvinismo, Broussard se debruça na parte dois em cinco capítulos sobre questões e problemas muito reais sobre computadores e inteligência artificial: testes padronizados no sistema de ensino; raízes de desigualdade de gênero e raça na academia e mercado que produzem as tecnologias e sistemas de AI; corrida por legalização de carros autônomos; e os malefícios de equalizar popularidade com qualidade nas plataformas de comunicação como Google e Facebook. Também faz parte da segunda parte do livro um capítulo sobre  aprendizado de máquina (machine learning). Broussard ataca a frequente confusão quanto a este termo, que leva leigos a acreditar que os sistemas aprendem “sozinhos”, ao invés de serem ensinados a partir de bases de dados criadas por seres humanos.

No atual momento, no qual inteligência artificial é uma “buzzword”, ou palavra da moda no marketing, esta crença é perigosa. Para explicar as diferenças entre os tipos de aprendizado de máquina, assim como apresentar passos e decisões comuns que os desenvolvedores deveriam enfrentar de forma responsável, Broussard volta às linhas de código. No capítulo “Machine Learning: the DL on ML“, Broussard explora junto conosco um dataset com informações sobre as pessoas que morreram no naufrágio do Titanic. Passando por variáveis como gênero, classe, idade e tipo de cabine a autora explica como a construção de um sistema preditivo requer muitas decisões difíceis quando está ligado a vidas humanas. E está longe de ser apenas um recurso pedagógico: decisões similares são feitas em sistemas de policiamento, planos de saúde, crédito financeiro e afins.

A terceira parte do livro traz dois casos mais particulares da autora. O primeiro capítulo desta parte é um relato de participação da autora  em um evento de um hackaton para criação de startups chamado Startup Bus. Broussard usa o relato da experiência e construção de um pitch de startup para discorrer sobre o ethos das startups e como seus afiliados deixam de lado com frequência – seja por ignorância, seja por má fé – muitas reflexões e responsabilidades éticas e morais em prol de construção de possíveis sucessos comerciais. O segundo descreve a construção do sistema Bailiwick Campaign Finance. Broussard construiu este website para oferecer “histórias automatizadas” sobre financiamento de campanha: ao cruzar dados de políticos e financiadores, tem como objetivo ajudar jornalistas a encontrar possíveis temas para investigação. Veja abaixo:

O livro Artificial (Un)Intelligence é uma leitura necessária e rápida para qualquer comunicador e pesquisador interessado no tema da pervasividade dos algoritmos e seus impactos. Para finalizar, veja abaixo uma entrevista sobre o livro:

Mudanças no monitoramento de Facebook: prepare-se!

Neste primeiro de maio, ironicamente, o Facebook passou a “dificultar” o trabalho dos profissionais da querida área de monitoramento de mídias sociais. Nesta data passaram a valer as novas regras das APIs do Facebook. O principal impacto para o mercado de monitoramento de mídias sociais é que nenhuma ferramenta, nem usuário, poderá fazer coleta de dados brutos a partir de pesquisa de termos. Isto significa que não teremos mais acesso ao texto bruto ou ao perfil dos usuários (nem sequer  nome e avatar!) de quem mencionar as marcas em suas timelines (fora de páginas e grupos).  Somente será possível coletar alguns indicadores e quantificações já processadas, como: número de menções a marcas; número de menções a termos; número de menções a atributos de um produto/serviço; distribuição demográfica de quem fala sobre cada termo buscado; circulação de links etc.

Ilustrando de forma muito simples abaixo: se antes tínhamos acesso a todo o texto, link e avatar do usuário (na esquerda), agora cada post virará “apenas” um número nos gráficos:facebook monitoramento - antes e depois

Os impactos negativos desta mudança são os mais óbvios e imediatos. Em primeiro lugar, as marcas que tentavam descobrir problemas específicos de consumidores individuais através do monitoramento de postagens públicas não poderão mais fazê-lo. Agências e consultorias de pesquisa que realizavam estudos qualitativos baseados no comportamento discursivo/expressivo de usuários não poderão mais fazer isto no Facebook (neste caso há algumas alternativas, mas de menor escala – e assunto pra outro post). Ações de engajamento que envolviam a participação ativa dos usuários em seus próprios perfis também minguarão, pois não será possível monitorar as menções para reportar resultados. Tudo isto traz impactos óbvios para os modelos de serviços e receita de agências e ferramentas.

Mas chorar pelo leite derramado não ajuda. Então vamos aproveitar o que for possível, dadas as condições. Segue uma lista de materiais comentados que pode ajudar muito neste momento de disrupção.

Pra começo de conversa, gostaria de indicar três textos de profissionais que admiro e trabalham com monitoramento há tanto (ou mais) tempo que eu: o Roberto Cassano publicou no Medium da Frog o post “A Era Negra do Monitoramento“, o Eduardo Vasques da TV1 o texto “A Crise do Monitoramento” e o Gabriel Ishida da dp6 com o texto “Sobre a API do Facebook e o seu Topic Data“. Apesar de achar os títulos dos dois primeiros textos prejudiciais, pois tem muita gente que não lê ou se informa com atenção e podem criar um clima apocalíptico, são observações e comentários essenciais. Como comenta o Cassano, ” é preciso desenvolver uma estratégia e uma metodologia, que use ferramentas para se alcançar os objetivos reconhecendo e explorando as enormes limitações e desafios impostos pelas novas plataformas e por uma maior maturidade do próprio consumidor, cada vez mais ciente da (correta) necessidade de preservar sua privacidade.” E, nas palavras do Vasques, é hora de: “Abrir novas frentes de interação e estimular ainda mais o diálogo para que os públicos se manifestem nesses ambientes aos quais as marcas têm acesso. Ou seja, é hora de se abrir para novos aprendizados.”

O Ishida, pragmático desde o título, lembra da importância de se profissionalizar de verdade o trabalho em mídias sociais em todas suas esferas:

Não duvido nada que, daqui um tempo, algumas pessoas chegarão perguntando: alguém conhece uma ferramenta de graça que pegue esses dados do Facebook? E ainda por cima vão xingar o Facebook por ter limitado os dados desse jeito. Se você quer dados legais, bem agregados, organizados, não só no Facebook, mas em todas as outras redes, você tem que pagar por uma ferramenta. Social media não é de graça, como ainda muita gente pensa. Há um trabalho sério por trás de tudo.

Antes de ir para as dicas técnicas, gostaria de lembrar da importância de se pensar a atuação neste mercado não só em termos da receita que você vai ganhar hoje com uma plataforma específica. Mas também em termos de saúde da internet como um todo. O modelo de negócio do Facebook , ao contrário de empresas como Google e Twitter, não se baseia na livre circulação de informações na internet, mas sim na construção de barreiras para que tudo fique dentro do Facebook. Não é à toa que Tim Berners-Lee, um dos inventores da web, alertou sobre o perigo que o Facebook traz aos princípios da internet.

eartquakeAno passado, nos 10 anos do Facebook, escrevi como o Facebook se tornou um “ponto obrigatório de passagem“, um nível de centralização de poder muito perigoso. Para comparar, recomendo o texto, também de minha autoria “250 milhões de motivos para defender o Twitter“. Para uma visão mais ligada à pesquisa acadêmica, leia o excelente texto “The redistribution of methods: on intervention in digital social research, broadly conceived” da Noortje Marres. De 2012, discute como a abundância de dados sociais hoje traz novas oportunidades e desafios para a construção de conhecimento, especialmente para a pesquisa acadêmica. Um dos motivos é a centralização destes dados em corporações como Facebook e Google. Três anos depois, o Facebook piorou bastante a situação para todos.

Então vamos falar de como se preparar para o novo modelo de monitoramento no Facebook. Em primeiro lugar, uma pequena revisão de como vai funcionar. Como falamos acima, o Facebook não entregará os dados brutos para nenhuma ferramenta. Nem sequer para a Datasift, fornecedora de dados (que ferramentas como o BrandCare contratam). A Datasift vai ser a intermediária para aplicação das regras nos dados, através de sistemas como Biblioteca de ClassifiersModelos Baseados em RegrasMachine Learning Models. Abaixo um esqueminha utlizado pela Datasift em suas apresentações:

datasift - topic data - classifiers

Um detalhe importante de mencionar é que este processamento de dados não acontecerá nem sequer nos servidores da Datasift. Mas dentro dos servidores do Facebook. E, ao contrário do Twitter, não oferecerão a possibilidade de coleta de dados retroativos (por exemplo, no BrandCare podemos coletar tweets desde 2006).

O problema (e oportunidade) destas três lógicas é que a análise de sentimento ou classificação automatizada são, como todos sabem, algo muito complexo. E consideravelmente imprecisa. Abaixo temos um exemplo de configuração na interface da Datasift. Em bom português, uma das linhas significa que textos sobre estas marcas automotivas sendo monitoradas que contenham as palavras “recall, fault, broke down ou broken” serão marcadas com o código de Feature(Característica/Aspecto) chamado Reliability (Confiabilidade).

datasift presentation- rules

Em ferramentas de monitoramento como o BrandCare, transformamos o estabelecimento de regras para uma forma bem simples como na tela abaixo. Ou seja, para o usuário final o estabelecimento de regras simples como estas é algo bem fácil como na tela abaixo. No exemplo, esta série de palavras como “barato” e “caro” são ligadas a um atributo: neste caso o aspecto “Preço”.

brandcare - dashboard e commerce - regras

Isto significa que quanto às regras, parte das práticas que serão feitas com a mudança de dados no Facebook já são realizadas em alguns projetos de monitoramento. No caso acima, esta e diversas outras regras são transformadas em gráficos com indicadores sobre as marcas monitoradas. Exemplificando, uma série de regras e parâmetros customizados são enviados para o Facebook e ele retorna dados que serão transformados pelas ferramentas em gráficos. É como acontece quando se usa regras normalmente. No exemplo abaixo, uma série de regras vira gráfico de Temáticas, Sentimento, Palavras Negativas etc.

da regra ao dado

Mas há um grande ponto que, na minha opinião, é um dos mais problemáticos nesta mudança. Quem trabalha bem com regras de processamento de texto/linguagem natural, melhora continuamente as informações ao conferir, em amostras dos textos, se tais regras resultaram em aplicações adequadas de códigos, tags e sentimento. Mas isto não será possível mais com o Facebook. Você não poderá conferir nos próprios dados se aquelas 200 regras adicionadas que processam 4000 keywords para gerar 40 tags diferentes estão 100% precisas. Para fazer isto, será preciso recorrer a uma compreensão ampla das dinâmicas de conversação, além de trabalhar com modelagem e testes utilizando outros parâmetros textuais para se aplicar aos textos do Facebook.

Neste momento, monitoramento e pesquisa digitais que englobem o Facebook se aproximam ainda mais da pesquisa acadêmica e de áreas que envolvam a compreensão profunda das estruturas linguísticas e discursivas, além da organização da informação. Áreas como linguística de corpus, sociolinguística, text analytics, computação social, NL (processamento natural da linguagem) tornam-se mais importantes. Como o Facebook vai deixar parte do trabalho “às cegas”, é importante ter o máximo de domínio destas técnicas em grande escala (big data) para que os dados sejam o mais precisos possíveis e as estratégias e táticas resultantes deem resultado.

Para começar, recomendo revisitar as estratégias de criação de Categorias e Tags em projetos de monitoramento de mídias sociais. Em whitepaper que escrevi na Social Figures, descrevo três táticas básicas para gerar as categorias e tags: decompor o produto/serviço; responder demanda de informação do cliente; e descobrir informações emergentes nas mídias sociais.  A materialização destas táticas em listas de códigos/tags organizados é o primeiro passo para criação das regras e sistemas de processamento em seguida.

decompor responder descobrir

Quanto a linguística de corpus, o Tom McEnery é um dos principais estudiosos do tema na atualidade e lançou um curso online na FutureLearn chamado “Corpus linguistics: method, analysis, interpretation“. Compreender as mecânicas da língua e como tem sido estudadas ao longo das décadas pela linguística de corpus é um passo essencial para aplicar heurísticas e proxies de dados para descobrir informações. O McEnery também possui um livro básico sobre o tema chamado “Corpus Linguistics: Method, Theory and Practice“.

discourse and social mediaFocada em mídias sociais, a Michele Zappavigna estudou um corpus de 7 milhões de tweets totalizando 100 milhões de palavras. A pesquisadora australiana publicou um livro com os resultados, chamado “Discourse of Twitter and Social Media: How We Use Language to Create Affiliation on the Web”, que já resenhei aqui no blog. É útil neste momento especialmente por três motivos. O primeiro é para que todos lembrem o quanto o Twitter é maleável e amigável a pesquisas e geração de informações de todos os tipos. O segundo é que a classificação que a Zappavigna aplica em marcadores de Julgamento, Afeto e Apreciação são úteis para a criação de regras que tragam dados além somente de aspectos e sentimentos. Por fim, Twitter e Blogs servirão aos bons e cuidadosos profissionais que desejarem criar modelagens e testes das regras em textos reais e atuais antes de aplicar ao monitoramento também do Facebook. Tenho uma proposta de palestra no SMW sobre o tema (vote, se interessar a você).

Além das regras e dos classifiers já prontos, outra possibilidade será aplicar machine learning nos textos. Ainda não está perfeitamente claro como funcionará, mas isto não significa que se deve ficar de braços cruzados. A aplicação mais frequente de aprendizado de máquina em texto natural é a modelagem de tópicos. De modo bem geral, é uma técnica que identifica, em uma lista/corpus de textos, os tópicos a partir da frequência, ausência e diferença de palavras-chaves. Temos cerca de 20 anos de estudos nesta área, sendo hoje o modelo mais comum o LDA – Latent Dirichlet allocation.

IntroToLDA

topic modeling

Como é frequente em se tratando de pesquisa acadêmica, há ferramentas gratuitas que ajudam neste processo. Criada por David Newman e Arun Balagopalan, é uma materialização simples do LDA que, a partir de inputs em CSV/TXT permite identificar os “tópicos” em uma série de textos. Ferramentas do tipo, associadas ao conhecimento de monitoramento de mídias sociais, ajudam no processo de inferir termos que possam ser significativos a temas e tópicos no Facebook, mesmo estando parcialmente “às cegas”.

Outra fonte essencial de informação e aprendizado para os analistas neste momento é o projeto Tapor. O Text Analysis Portal for Research é uma iniciativa de professores de algumas das principais universidades do Canadá e reúne quase 500 ferramentas para text analysis. São inúmeras possibilidades de processar, explorar e visualizar dados a partir de text analytics. Grande parte destas visualizações não serão possíveis devido às novas restrições do Facebook. Mas em parte delas tente imaginar: como eu posso fazer sistemas de queries que me permitam trazer dados tão ricos?

tapor

Sempre importante lembrar que a limitação que o Facebook impôs está na busca. Ou seja, ainda é possível coletar dados de Facebook Pages, incluindo os comentários. O mesmo no caso dos Grupos. Abaixo, um exemplo de estudo de benchmarking baseado em tipos de conteúdo publicados por marcas do segmento de fast fashion:

facebook pages

O cruzamento da construção de corpora tanto de textos antigos do Facebook quanto de texto atual de outras mídias sociais, modelagem de tópicos e compreensão das estruturas linguísticas das conversas e opiniões será essencial para os analistas de dados. Mas tudo isto, claro, pode ser aplicado nas diversas mídias sociais e fontes de dados textuais. O que não pode continuar é o crescente fechamento da internet no Facebook. Sempre defendi a necessidade de criação de ambientes proprietários para as marcas ou organizações. Agora, mais do que nunca, isto se torna essencial.

Além disto, é importante lembrar que é possível extrair ainda mais dados dos outros canais como Twitter, Blogs, Instagram, Google+, Fóruns, Websites de modo geral, Google Trends, Wikipedia etc. Existem inúmeras metodologias e técnicas de geração de informações, provenientes da história das ciências sociais e computacionais, que podem ser aplicadas para gerar mais e mais insights. A Análise de Redes Sociais, por exemplo, era utilizada por uma pequena parcela de profissionais através de programas como NodeXL e Gephi. Ano passado, tive a oportunidade de integrá-la com o BrandCare, permitindo a escalabilidade destas aplicações para nossos clientes, com excelente resultado. E é um tipo de metodologia que é favorecida especialmente pela estrutura de dados e conversas no Twitter. 

nsmnss - completa

Parte da rede da hashtag #NSMNSS

Em resumo, não é o fim ou a crise do monitoramento para fins comerciais. As mudanças que o Facebook impôs vão impactar alguns tipos de projetos, mas não é o fim do mundo. Bons profissionais, agências, ferramentas e afins continuarão a realizar um bom trabalho. Mas, acima de tudo, que isto sirva de lição para lembrarmos que a internet é uma ferramenta poderosa demais para ser tomada por modelos de negócio centralizadores.