ciência dos dados | Tarcízio Silva

Disrupção é uma palavra que sofre muito nas mãos de publicitários com ego inflado e baixo poder de auto-avaliação. Por ser usada em 95% dos casos de forma errônea, evito-a de modo consistente. Porém, difícil não falar de disrupção, quebra de paradigma, quando se trata da atual abundância de dados públicos e semi-públicos sobre atributos, relações e ações sociais, devido à emergência das mídias sociais. Este foi um dos motivos para Christian Rudder dar o título apocalíptico Dataclysm – Who We Are* (*When We Think No One’s Looking) a seu livro.

Rudder está numa posição invejável para a grande maioria dos cientistas sociais, sejam eles focados em pesquisa acadêmica ou mercadológica: na frente do site de encontros OkCupid e com habilidades estatísticas e computacionais, ele tem a chance de cruzar e analisar dados comportamentais, expressivos e afetivos exclusivos de milhões de usuários.

Twitter, Reddit, Tumblr, Instagram, all these companies are businesses first, but, as a close second, they’re demographers of unprecedented reach, thoroughness, and importance. Practically as an accident, digital data can now show us how we fight, how we love, how we age, who we are, and how we’re changing. All we have to do is look: from just a very slight remove, the data reveals how people behave when they think no one is watching.

Em inspirado trecho, Rudder fala sobre quem fez “história” no decorrer da existência humana: apenas algumas figuras públicas e/ou extraordinárias (geralmente as vencedoras, quando se trata de conflito) tornaram-se merecedoras de ter memória para além de sua existência. Mas esta assimetria acaba quando temos memória, armazenamento e registro abundante:

But this asymmetry is ending; the small noise, the crackle and hiss of the rest of us, is finally making it to tape. As the Internet has democratized journalism, photography, pornography, charity, comedy, and so many other courses of personal endeavor, it will, I hope, eventually democratize our fundamental narrative.

O livro é estruturado em três partes: What Brings Us Together; What Pulls Us Apart; e What Makes Us Who We Are. Como os títulos dão a entender, o autor vai procurar mostrar como os dados sociais digitais podem explicar ou representar similaridades, conflitos e individualidades. No primeiro capítulo, um dos dados mais curiosos, gerado a partir do próprio OkCupid, mostra a diferença entre atratibividade percebida no website entre indivíduos heterossexuais. No gráfico abaixo estão cruzadas a idade dos usuários e idades preferidas para parceiros, dado coletado a partir dos rates (avaliações) reais no site de encontros:

okcupid - preferencia por idade

É incrível observar como os homens, em média, mantem o ideal da mulher jovem adulta, enquanto as mulheres permanecem com um ideal de homem pouco mais jovem ou velho do que si mesmas. O dado fica ainda mais interessante quando cruzado com a média de idade em que os homens e mulheres efetivamente enviam mensagens, dado no qual a discrepância é muito menor.

A primeira parte do livro é baseada na análise das relações afetivo-sexuais a partir dos dados do OkCupid. Vale a menção também a um experimento realizado com um aplicativo de encontro às cegas, no qual os usuários não poderiam ver a imagem com quem estavam marcando encontros. Cruzando os dados das pessoas que se encontraram com a atratividade percebida no site OkCupid, mesmo nos casos em qual a atratividade era muito discrepante (digamos, uma homem com nota 9 e uma mulher com nota 6), a satisfação pós-encontro às cegas foi muito mais positiva do que o esperado.

Na segunda parte do livro, Rudder passa a analisar itens mais sensíveis, especificamente a “raça” dos usuários e atratividade percebida entre asiáticos, latinos, brancos e negros. Rudder procura contextualizar os dados de forma responsável, mas acaba por ficar patente a crise que vivemos na sociologia empírica (ver Savage & Burrows). A redistribuição das hierarquias também ocorreu na pesquisa, como bem descreveu a Noortje Marres, e este livro é um dos exemplos disto. A força (pseudo) legitimadora dos dados quantitativos em uma fatia de mensuração (rating entre usuários) resultou no compartilhamento do gráfico abaixo em fóruns racistas:

okcupid match scores races

O tema, tão importante, interessante e sensível merecia ter seus dados explorados de forma mais fina por pesquisadores e pensadores com uma maior bagagem e peso em ciências sociais. A cisão que está se aprofundando com as restrições de acesso e habilidades computacionais a estes dados sociais digitais clama por esforços urgentes dos interessantes em ciência mais aberta. Em tempos de engenharia afetiva no Facebook e seu bilhão de usuários (defendida pelo próprio Rudder), isto parece estar cada vez mais longe.

A terceira parte traz um dos capítulos mais interessantes, chamado “Tall for an Asian”. A partir dos campos biográficos de auto-expressão nos perfis da OkCupid, Rudder realiza a medição de quais palavras são outliers para cada grande grupo demográfico que analisa, mostrando como o gerenciamento de impressões de cada segmento populacional é enquadrado pelos seus comportamentos e expectativas percebidas. Outra vez uma densidade teórica maior faria diferença, como a aplicação de referencial do Interacionismo Simbólico e Teoria Dramatúrgica. Porém, enquanto exibição de possibilidades metodológicas, a seção traz muitas ideias.

Em resumo, Dataclysm é um livro característico das tendências que fascinam (e/ou amedrontam) interessados em análise social a partir de dados digitais e um dos primeiros a ser escrito pelos novos grandes e isolados privilegiados deste cataclisma dos dados: os criadores/detentores de mídias sociais. O que está subjacente na possibilidade de produção deste livro é o que temos de mais importante e crítico nas ciências em torno da comunicação digital hoje.

Nova rodada de cursos online que compõem a Especialização em Ciência dos Dados, oferecida pela John Hopkins University, através do Coursera, começa nesta segunda feira 07 de abril.

O Coursera é um dos MOOC (massive online open course) mais famosos da atualidade, oferecendo cursos de renomadas universidades internacionais para dezenas de milhares de alunos por vez. Desde o ano passado começaram a oferecer “Especializações“: uma série coordenada de cursos que, uma vez completados, oferecem um certificado especial de especialização.

Amanhã, 07 de abril, três cursos da especialização em Data Science, oferecida pelos professores Brian Caffo, Jeff Leek e Roger D. Peng, todos do departamento de Bioestatística da John Hopkins University (Estados Unidos). Os três cursos que abrem amanhã são “The Data Scientist’s Toolbox”, “R Programming” e “Getting and Cleaning Data”. Cada um deles será oferecido em turmas de maio e junho também. Em maio os três cursos seguintes começarão a ser oferecidos, também três vezes sucessivas – maio, junho e julho. Por fim, os três últimos serão oferecidos em junho, julho e agosto. A especialização é encerrada com um projeto especial, ainda sem data definida.

Os cursos podem ser feitos sem ordem pré-definida, mas existe uma ordem de dependência a depender do conhecimento do aluno. O requisito para conseguir o certificado de especialização é cursar a todos e realizar o projeto final. Os cursos são gratuitos, e o único custo são os certificados, 49 dólares por curso realizado. Além de foto, o sistema de autenticação analisa o padrão de digitação para ter certeza de que o próprio aluno está realizando as atividades.

Dica: não se assuste com a linguagem R de programação. Antes de começar o curso, faça o módulo “Try R” na Code School e, em apenas 2 horinhas, veja como é fácil gerar e analisar dados e gráficos no programa.

Tarcízio Silva

Pesquisa, ciência, tecnologia e sociedade, racismo algorítmico

Arquivo da tag: ciência dos dados

Dataclysm – a disrupção da abundância de dados

Especialização Online em Ciência dos Dados começa em Abril