“Estamos criando uma distopia apenas para que pessoas cliquem em anúncios” – @zeynep

Zeynep Tufekci (@zeynep) é uma das pesquisadoras mais importantes da atualidade. Turca, ensina e pesquisa na University of North Carolina, escreve no New York Times e é autora de artigos como “Can you see me now? Audience and disclosure regulation in online social network sites“; “Big Questions for Social Media Big Data: Representativeness, Validity and Other Methodological Pitfalls“; “Social Media and the Decision to Participate in Political Protest: Observations From Tahrir Square” e o fantástico livro recém-lançado “Twitter and Tear Gas:   The Power and Fragility of Networked Protest“.

Em setembro realizou mais uma palestra TED em Nova Iorque com o título “Estamos criando uma distopia apenas para pessoas clicarem em anúncios” (“We’re building a dystopia only just to make people click on ads”). Já falamos de alguns temas mencionados aqui no blog ou do IBPAD, mas a narrativa é sensacional e um resumo exemplar de um dos temas mais importantes da atualidade, então traduzi a transcrição em seguida. Veja abaixo:

 

Quando as pessoas falam de receios sobre inteligência artificial, geralmente, evocam imagens de robôs humanóides correndo descontrolados. Sabe como é? Como Exterminador do Futuro? Assim, isto é algo que pode ser considerado, mas é uma ameaça distante. Ou, nós nos preocupamos sobre vigilância digital com metáforas do passado. “1984”, o livro de George Orwell, está voltando para as prateleiras de best sellers. É um ótimo livro, mas não é a distopia correta para o século 21. O que precisamos temer de fato não é o que a inteligência artificial fará a nós sozinha, mas como as pessoas no poder usarão a inteligência artificial para nos controlar e nos manipular de novas, sutis e inesperadas maneiras, muitas vezes ocultas. Boa parte da tecnologia que ameaça nossa liberdade e dignidade em um futuro próximo está sendo desenvolvida por empresas do mercado de captar e vender nossos dados e atenção para publicitários e outros: Facebook, Google, Amazon, Alibaba, Tencent.

Hoje, a inteligência artificial começou a reforçar seus negócios também. E pode parecer que a inteligência artificial é a grande coisa logo depois dos anúncios online. Não é. É um salto em categoria. É um mundo totalmente diferente e tem grande potencial. Pode acelerar nosso entendimento em várias áreas de estudo e pesquisa. Mas para citar um famoso filósofo de Hollywood, “Enormes potenciais trazem enormes riscos”.

Agora vamos olhar para um fato básico nas nossas vidas digitals, os anúncios online. Certo? De certa forma nós os ignoramos. Achamos que são rudimentares, pouco efetivos. Todos nós já tivemos a experiência de ser seguido na web por um anúncio baseado em algo que buscamos ou lemos. Você sabe, quando você procura um par de botas e por uma semana, estas botas seguem você em todo o lugar que você vai. Mesmo depois que você se rende e as compra, elas continuam seguindo você. Estamos acostumados com esse tipo básico e simples de manipulação. Reviramos os olhos e pensamos “Quer saber? Estas coisas não funcionam”. Mas, online, as tecnologias digitais não são só anúncios. Agora, para entender isto, vamos pensar em um exemplo do mundo físico. Você sabe como, nas filas perto de caixas de supermercado, tem doces e balas no nível do olhar das crianças? Isto é pensado para fazê-las importunar os pais no momento da compra. É uma arquitetura de persuasão. Não é legal, mas funciona. É por isto que você a vê em todos os supermercados. Agora, no mundo físico, esta arquitetura de persuasão é relativamente limitada, pois você não pode colocar tudo perto dos caixas. Certo? E os doces e balas são os mesmos para todo mundo, mesmo que alguns só funcionem para quem tiver pequenos humanos chorando por perto. No mundo físico, convivemos com estas limitações.

No mundo digital, porém, arquiteturas de persuasão podem ser construídas na escala de bilhões [ver postagem relacionada] e podem direcionar, inferir, entender e entregues a indivíduos um a um ao descobrir suas fraquezas. E podem ser enviados para as telas de smartphones de cada um, então não são visíveis aos demais. Isto é diferente. E é apenas uma das coisas simples que a inteligência artificial pode fazer.

Vamos pensar em outro exemplo. Digamos que você vende passagens de avião para Vegas, ok? Então, no mundo antigo, você pode pensar em algumas características demográficas baseadas em experiência e no que você pode supor. Você pode tentar anunciar para, digamos, homens entre 25 e 25 ou pessoas que tem um limite muito alto em seus cartões de crédito, ou casais aposentados. Certo? É o que você pode fazer no passado.

Com big data e aprendizado de máquina (machine learning), não é como você faria mais. Então imagine isto, pense em todos os dados que o Facebook tem sobre você: cada post que já digitou, cada conversa no Messenger, cada lugar que você logou, todas suas fotografias que enviou. Se você começar a digitar algo, mudar de ideia e deletar sem psotar, o Facebook mantêm e analisa isto também. Crescentemente, tenta combinar com dados offline. Também compra muitos dados de data brojers. Pode ser qualquer coisa dos seus registros financeiros a histórico de navegação. Nos EUA, estes dados são rotineiramente coletados, agrupados e vendidos. Na Europa, as regras saõ mais rígidas.

Então o que acontece é que, ao combinar e espremer todos estes dados, os algoritmos de machine-learning – é por isto que são chamados de algoritmos de aprendizado – aprendem a entender características de pessoas que compraram tickets para Vegas. Quando aprendem isto dos dados existentes, também aprendem como aplicar a novas pessoas. Então se eles são apresentados a uma nova pessoa, podem classificar se esta pessoa tende a comprar um ticket para Vegas ou não. Mas tudo bem. Você deve estar pensando, uma oferta para comprar passagens para Vegas. Posso ignorar isto. Mas o problema não é este. O problema é que não entendemos mais realmente como estes complexos algoritmos funcionam. Não entendemos como fazem esta categorização. São matrizes gigantes, milhares de colunas e linhas, talvez milhões de colunas e linhas, e nem os programadores ou qualquer pessoa que olha para estes dados, mesmo que tenha todos os dados, entende mais exatamente como estão operando mais do que se você olhasse agora um corte do meu cérebro. É como se não estivéssemos mais programando, estamos alimentando inteligência que não entendemos realmente.

Todas estas coisas funcionam se há quantidade enorme de dados, então eles encoragem profunda vigilância de todos nós para que os algoritmos de machine learning possam trabalhar. É por isto que o Facebook quer coletar todos os dados sobre você que puder. Os algoritmos trabalharão melhor.

Então vamos forçar mais umpouco este exemplo sobre Vegas. E se o sistema que não entendemos descobre que é mais fácil vender passagens para Vegas a pessoas que são bipolares e estão prestes a entregar na fase maníaca. Estas pessoas tendem a se tornar gastadoras, jogadoras compulsivas. Eles podem fazer isto e você não teria ideia de que são estas variáveis escolhidas. Dei este exemplo a um grupo de cientistas da computação uma vez e, depois, um deles veio a mim. Ele estava desconcertado e falou “É por isto que não posso publicar”. E eu perguntei “Não pode publicar o quê?”. Ele tentou avaliar se poderia prever o início da crise maníaca a partir dos posts em mídias sociais antes dos sintomas clínicos. E funcionou, e funcionou muito bem, e ele não fazia ideia de como funcionou.

Agora, o problema não é resolvido se ele publica ou não, porque há outras empresas desenvolvendo este tipo de tecnologia, e boa parte dos recursos está disponível. Não é mais difícil.

Você já foi ao YouTube para ver apenas um vídeo e uma hora depois você percebeu que viu 27? Você sabe como o YouTube tem esta coluna na direita que diz “Up next” e toca automaticamente algo? É um algoritmo escolhendo o que acha que você pode estar interessado e talvez não encontre sozinho. Não é um editor humano. É isto que algoritmos fazem. Eles escolhem o que você viu e o que pessoas como você assistiram e inferem o que você pode estar interessado, o que você quer mais, e mostra mais disto. Soa como um recurso benigno e útil, mas não é.

Em 2016, fui a commícios do então candidato Donald Trup para estudar o movimento de apoio. Estudei movimentos sociais, este era mais um deles. Então quis escrever algo sobre um dos comícios, então assisti vídeo dele algumas vezes no YouTube. O YouTube então começou a recomendar no autoplay vídeos de supremacistas brancos em ordem crescente de extremismo. Se eu assistia uma, me oferecia outro mais extremo ainda e dava autoplay. Se você assistir conteúdo de Hillary Clinton ou Bernie Sanders, YouTube recomenda e dá autoplay em conteúdo de conspiração da esquerda e daí ladeira abaixo.

Bem, você deve estar pensando: política é isto. Mas não. Não é sobre política. É apenas o algoritmo entendendo o comportamento humano. Uma vez assisti um vídeo sobre vegetarianismo no YouTube e a plataforma recomendou e deu autoplay em vídeo sobre tornar-se vegano. É como se você nucna fosse hardcore o suficiente par o YouTube

Então o que está acontecendo? O algoritmo do YouTube é proprietário, mas o que imagino que acontece é o seguinte. O algoritmo descobre que se você pode atrair as pessoas a pensar que pode mostrar sempre algo mais intenso, as pessoas estão mais propensas a se manter no site assistindo vídeo após vídeo pela “toca do coelho” enquanto o Google entrega anúncios. Agora, mas quando ninguém se importanta com a ética da loja, estes sites podem perfilar pessoas que são odiadores de judeus, que acham que judeus são parasitas e que possuem conteúdo explicitamente antisemita e entregar anúncios direcionados. Também podem mobilizar algoritmos para encontrar para você as audiências similares (look-alike audiences), pessoas que não tem conteúdo explicitamente anti-semita em seus perfis, mas que o algoritmo detecta que podem ser suscetíveis a estas mensagens, permitindo direcionar anúncios a elas também. Este pode ser um exemplo implausível mas é real. A ProPublica investigou isto e descobriu que pode fazer isto no Facebook, e o Facebook oferece automaticamente sugestões de como expandir esta audiência. Buzzfeed tentou o mesmo no Google e descobriu rapidamente que também pode ser feito na plataforma da Google. E nem sequer foi caro. O jornalista da ProPublica usou 30 dólares para conseguir anunciar para esta categoria.

No último ano, o gerente de mídias sociais da campanha de Donald Trump informou que estavam usando os dark posts (posts ocultos) no Facebook para desmobilizar pessoas, não para persuadi-las, mas para convencê-las a não votar. E para fazer isto, direcionaram conteúdo especificamente para homens afro-americanos em cidades chave como Philadelphia. Agora vou citar exatamente o que ele falou, palavra por palavra.

Eles estavam usando “posts não públicos com visibilidade controlada pela campanha, de modo que somente as pessoas que queremos os veriam. Nós modelamos isto. Vai afetar dramaticamente a capacidade dela (Hillary Clinton) de converter essas pessoas”.

O que há nestes dark posts? Não temos ideia. O Facebook não nos conta.

Então o Facebook também organiza algoritmicamente os posts que seus amigos põem no Facebook ou as páginas que você segue. Não te exibe tudo cronologicamente. Ele coloca em ordem no modo que o algoritmo avalia que vai te incentiviar a ficar mais tempo no site.

Isto possui várias consequências. Você pode pensar que alguém está desprezando você no Facebook. O algoritmo pode nunca mostrar seu post a eles. O algoritmo está priorizando alguns e enterrando os oturos.

Experimentos mostram que o algoritmo escolhe mostrar o que pode afetar suas emoções. Mas isto não é tudo. Também afeta comportamento político. Em 2010, durante as eleições de meio período (midterm elections), o Facebook fez um experimento com 61 milhões de pessoas que foi divulgado apenas depois do ocorrido. Algumas pessoas viam um conteúdo simples “Hoje é dia de eleições”, de forma simples. E algumas pessoas recebiam a visualização com as pequenas imagens de amigos que clicaram “Eu votei”. Uma simples modificação, certo? As imagens eram a única mudança, mas este post gerou 340 mil mais votantes naquela eleição, de acordo com pesquisa que foi confirmada pela contagem. Casual? Não. Em 2012, repetiram o mesmo experimento. Desta vez, a mensagem cívica exibida uma vez gerou mais 270 mil votantes. Como referência, as eleições de 2016 foram decididas por cerca de 100 mil votos. Agora, o Facebook pode também facilmente inferir sua posição política, mesmo que nunca as falou no site. Os algoritmos podem realizar isto de modo relativamente fácil. E se uma plataforma com este tipo de poder decide apoiar um candidato em relação a outro? Como poderíamos saber?

Começamos de um lugar relativamente inócuo – anúncios onine que nos perseguem – e chegamos a outro lugar. Como público e cidadãos, nós não sabemos mais se estamos vendo a mesma informação ou o quê qualquer pessoa está vendo. E sem uma base comum de informação, pouco a pouco, o debate público está se tornando impossível, e estamos apenas nos estágios iniciais disto. Estes algoritmos podem facilmente inferir coisas como etnia, religião e posição política, traços de personalidade [ver postagem relacionada], inteligência, felicidade, uso de substâncias viciantes, separação dos pais, idade e gênero, apenas através de likes no Facebook. Estes algoritmos podem identificar protestantes mesmo se suas faces estão parcialmente cobertas. Estes algoritmos podem identificar orientação sexual das pessoas apenas dos seus avatares.

Estas são inferências probabilísticas, então não são 100 porcento corretas, mas não vejo poderosos resistindo a tenação de usar estas tecnologias apenas porque existem alguns falsos positivos, o que cria uma nova camada de problemas. Imagine o quê um Estado pode fazer com esta quantidade enorme de dados que possuem sobre seus cidadãos. China já usa tecnologia de reconhecimento facial para identificar e prender pessoas. E aqui temos a tragédia: estamos construindo esta infraestrutura de vigilância autoritária apenas para fazer pessoas clicarem em anúncios. E este não será um autoritarianismo nos moldes de Orwell. Não é “1984”. Agora, se o autoritarianismo é usado para impor medo e nos aterrorizar, nós estaremos assustados mas saberemos. Odiaremos e resistiremos. Mas se as pessoas no poder estão usando estes algoritmos para silenciosamente nos vigiar, julgar e manipular, para prever e identificar os rebeldes e insatisfeitos, para aplicar arquiteturas de persuasão em escala para manipular indivíduos uma a um usando suas fraquezas e vulnerabilidades individuais, e se estão entregando a telas privadas para que sequer saibamos o que nossos co-cidadãos e vizinhos estão vendo, o autoritarianismo vai nos envolver como uma teia de aranha e nem sequer saberemos que fomos pegos.

A avaliação de mercado do Facebook está aproximando-se de meio trilhão de dólares. Chegou a este valor porque funciona muito bem como arquitetura de persuasão. Mas a esrtrutura de persuasão é a mesma quer você esteja vendendo sapatos quer você esteja vendendo política. Os algoritmos não entendem a diferença. Os mesmos algoritmos que são soltos em nós para nos tornar mais dispostos a publicidade também estão organizando nossos fluxos de informações pessoais, políticas e sociais, e é isto que tem que mudar.

Mas não me entenda errado: usamos estas plataformas digitais porque nos fornecem muita utilidade e valor. Eu uso o Facebook para me manter em contato com amigos e famílias em torno do mundo. Já escrevi o quanto mídias sociais são cruciais para movimentos sociais. Estudei como estas tecnologias podem ser usadas para contornar censura em torno do mundo. Não é que as pessoas que dirigem, digamos, Facebook ou Google estão maliciosamente e deliberadamente tentando tornar o país ou mundo mais polarizado e encorajar extremismo. Eu li as várias declerações bem-intencionadas dessas pessoas. Mas não são as intenções ou declarações das pessoas nas tecnologias que importam, são as estruturas e modelos de negócios que estão construindo. E este é o núcleo do problema. Ou o Facebook é uma enorme fraude de meio trilhão de dólares e os anúncios não funcionam e não existe uma arquitetura da persuasão, ou seu poder de influência é preocupante. É um ou outro, e o mesmo pode ser dito sobre o Google.

Então, o que podemos fazer? Isto precisa mudar. Agora não posso oferecer uma receita simples, porque precisamos reestruturar o modo pelo qual nossas tecnologias digitais operam. Todos os aspectos das tecnologias desenvolvidas, economicamente ou não, são incorporadas nos sistemas. Nós temos que enfrentar e tentar lidar com a falta de transparência criada pelos algoritmos proprietários, o desafio estrutural da opacidade do machine learning e todos os dados indiscriminados que são coletados sobre nós. Temos uma grande tarefa na nossa frente. Temos que mobilizar nossa teccologia, nossa criatividade e, sim, nossos políticos para que possamos criar inteligência artificial que nos apoie nos objetivos humanos mas que também sejam constritos pelos valores humanos. E entendo que isto não será fácil. Talvez nem vamos concordar facilmente o que estas condições significam. Mas se nós queremos tratar de forma séria sobre estes sistemas dos quais dependemos tanto para operar, não vejo como postergar ainda mais esta conversação. Estas estruturas estão organizando como funcionamos e estão controlando o que podemos e não podemos fazer. E várias dessas plataformas baseadas em anúncios enfatizam que são gratuitas. Neste contexto, significa que nós somos o produto sendo vendido. E precisamos de uma economia digital na qual nossos dados e atenção não estejam à venda para o demagogo ou autoritário com o maior lance.

Futuros da pesquisa e das cidades: entrevista com Carolina Zaine

social analytics summit

Falta apenas 1 semana para o Social Analytics Summit! Aquecendo os motores para as palestras e mesas do evento, hoje temos mais uma entrevista. Carol Zaine, fundadora da Vert Inteligência Digital, participará do debate “Insights para Transformar as Cidades”, junto ao Douglas Oliveira da Thinking Insight.

carol zaineTarcízio: A Vert acabou de completar 5 anos focada em inteligência digital. Muita coisa mudou quanto a comportamentos e plataformas. Você acha que o crescente fechamento de dados, como as mudanças no Facebook, ameaçam nosso mercado?

Nesses 5 anos muitas coisas aconteceram. Por mais de uma vez ouvi pessoas dizendo “Agora sem poder fazer isso vai ficar difícil para vocês”. A questão primordial é que sempre existirão mudanças, porque é um jogo de interesses muito grande e que vai muito além da nossa atuação. Quando se trabalha com tecnologia, que talvez seja um dos mercados mais voláteis, devemos estar preparados para tudo, principalmente mudanças repentinas na “regra do jogo”. O mercado ficou bem receoso com o fechamento dos dados do Facebook e sabemos que eventualmente isso pode vir a acontecer em outras redes. Por isso, em paralelo ao trabalho que realizamos hoje, de análise de comportamento humano baseado em dados de redes sociais, temos que ir pensando em novas tecnologias, novos canais, novos métodos e nunca ser dependente de uma única estratégia.

T: Com formação e prática também em pesquisa de mercado, qual a sua opinião sobre as diferenças de lógicas de trabalho com informações e dados em agências em comparação a empresas de pesquisa?

C: O trabalho de análise de dados digitais, seja dados de navegação, redes sociais, entre outros…permite algumas coisas que o mercado de pesquisa tradicional não consegue entregar, ou se consegue, o custo fica altíssimo, como trabalhar com a análise de um alto volume de dados (big data), e a velocidade da analise que hoje, graças a recursos tecnológicos e mesmo com bases gigantescas, ainda é mais rápida que métodos tradicionais.

Muitos dizem que isso vai matar o mercado tradicional de pesquisa, como vem acontecendo com o jornalismo – Mídia física x Online. Mas eu não acredito nisso, acho que não só tem espaço para todos como são métodos que se complementam.

Percebo que ainda existe um receio dos mais antigos de mercado em trabalhar com dados proveniente de fontes como sites ou redes sociais, por exemplo, e percebo também uma falta de interesse dos jovens que estão entrando nesse mercado em entender o que já existe de pesquisa e métodos e saber como integrar de alguma maneira o que já existe com o que está para ser descoberto.

Tenho certeza de que se esses dois mercados, que ainda andam em paralelo de alguma maneira, ganhariam muito se interagissem mais.

T: O que é possível descobrir sobre uma cidade utilizando dados nas mídias sociais? Especialmente falando de bairros e áreas “marginalizados”, é possível entender comportamentos só a partir do social?

C: Acho que depende do que você quer descobrir, mas a princípio, os dados de redes sociais já dariam uma grande noção, por exemplo, do comportamento de consumo de uma dada região. As pessoas que frequentam o Centro da cidade, elas vão até lá em busca de que? Turismo? Compras? Restaurantes? Arte? Elas vivem no Centro e consomem no Centro? Ou elas são de outras partes da cidade mas gostam de frequentar o Centro por algum motivo especial?

Isso são só alguns exemplos básicos do que podemos descobrir monitorando o comportamento digital de quem frequenta essa parte da cidade e que já ajudariam a empresas ou até mesmo a prefeitura saber em que e como investir nessa região. Mostrando o potencial de consumo conseguimos contribuir para o desenvolvimento local, principalmente do Centro que é uma parte muito rica, em todos os aspectos, e extremamente marginalizada.

Leia mais entrevistas sobre o Social Analytics Summit aqui e no blog da Mariana Oliveira. Para saber mais sobre o evento e se inscrever, só seguir em mediaeducation.com.br/socialanalytics

Pesquisa baseada em Dados Sociais Digitais: mapeamento de ferramentas e táticas de coleta de dados no Intercom

Acaba de ser publicado meu artigo “Pesquisa baseada em Dados Sociais Digitais: mapeamento de ferramentas e táticas de coleta de dados no Intercom“, na revista digital iberoamericana Razón y Palabra. O objetivo do trabalho foi mapear padrões entre os artigos publicados no evento que realizaram coleta de dados interacionais, conversacionais e opinativos em sites de redes sociais. Variáveis relacionadas a quantidade de dados, ferramentas de coleta, plataformas analisadas e apresentação dos resultados foram rastreadas à luz de questões referentes aos desafios e potencialidades destas modalidades de pesquisa.

Total de Artigos x Artigos baseados em Coleta de Dados Sociais

O congresso da Intercom, Sociedade Brasileira de Estudos Interdisciplinares da Comunicação, é o maior congresso de ciências da comunicação no Brasil. Além de conferências, traz grupos de trabalho, atividades de exposição competitiva de produtos laboratoriais, lançamento de livros e outros espaços de sociabilidade e colaboração entre pesquisadores do Brasil e outros países. A produção publicada neste evento serviu de indicador para refletir sobre as oportunidades, desafios e tendências que a oferta de dados nos sites de redes sociais trazem para os pesquisadores acadêmicos.

principais fontes de dados sociais digitais

Os GTs diretamente relacionados à mídias sociais neste congresso foram mapeados: Núcleo de Pesquisa em Tecnologias da Informação e da Comunicação [até 2008) e os grupos Cibercultura e Conteúdos Digitais e Convergências Tecnológicas a partir de 2009. A partir da filtragem de 704 artigos, cheguei a 72 que trabalharam diretamente dados interacionais, conversacionais e opinativos. As questões de pesquisa abaixo são respondidas e cruzadas com questionamentos sobre a redistribuição de métodos e especificidades da pesquisa digital.

a) Quantos trabalhos publicados no evento utilizaram coleta de dados sociais digitais?
b) Quais sites de redes sociais são abordados nos trabalhos do evento?
c) Quais as ferramentas utilizadas para coleta e processamento dos dados?
d) Quais os tipos de conteúdo e volume analisados nos artigos?
e) Como os pesquisadores abordam a relação entre conteúdo e indivíduos publicadores?
f) O conteúdo é apresentado de forma direta ou através de visualizações?
g) Os indivíduos observados, direta ou indiretamente, nos dados empíricos, são anonimizados?

De modo geral, os resultados parecem apontar para a necessidade de maior domínio e clareza de procedimentos metodológicos, exploração do potencial de tratamento do volume de dados e detalhamento de processos de codificação e análise que potencializem o aproveitamento das particularidades dos sites de redes sociais.

Leia o artigo em: Pesquisa baseada em Dados Sociais Digitais: mapeamento de ferramentas e táticas de coleta de dados no Intercom.

Big Data: medindo e prevendo o comportamento humano

Em 20 de abril foi lançado o curso online massivo e aberto (MOOC: massive online open course) “Big Data: measuring and predicting human behaviour“. Possui a duração de 9 semanas e pode ser iniciado em qualquer momento até a última semana. Ou seja: corra pra fazer, que dá tempo!

Na primeira semana do curso, os professores se dedicam a apresentar o que é big data, especialmente em torno de um projeto desenvolvido pelos próprios professores do curso fazem parte. Suzy Moat e Tobias Preis falam sobre o Future Orientation Index, índice criado para identificar o quanto a população de determinado país se preocupa/planeja/pensa sobre o futuro. O mais interessante deste índice é que ele utiliza basicamente dados do Google Trends. Para cada país analisado (todos com 5mi ou mais de usuários de internet), os pesquisadores extraíram o volume de buscas pelos anos anteriores e anos futuros. O índice calcula se a população está mais voltada ao futuro ou ao passado em suas buscas. O gráfico da direita abaixo mostra considerável correlação entre o índice e o GDP per capita (Gross Domestic Product per capita, ou PIB per capita):

future orientation index

Tela de “Quantifying the Advantage of Looking Forward”, por Preis, Moat, Stanley e Bishop

Na segunda semana, o tema é “Medindo e Prevendo Comportamentos com Big Data”. São vários vídeos realizados pelos dois professores e por outros pesquisadores convidados mostrando seus projtos sobre mecanismos de busca, tecnologias vestíveis e cidades inteligentes. Merece destaque um projeto que me surpreendeu. Paul Lukowics, da DFKI/TU Kaiserslautern, mostra o “Magic Collar”, que tem o objetivo de conseguir medir classes de alimentos sendo engolidos através do som realizado na deglutição.
the magic collar

Nesta semana começam os exercícios práticos, que ensinarão coletas e processamentos simples de dados com o R e R-Studio. Da segunda à sexta semana, são apresentados passos simples de como redigir script para coletar dados históricos de visualização de páginas na Wikipedia. Tudo é realizado extraindo dados de forma organizada do stats.grok.se. Já conhecia e usava o website, mas a criação do script no R expande e aprofunda as possibilidades.

stats wikipedia

O mercado financeiro é o tema da terceira semana. Os professores e entrevistados da semana mostram exemplos de estudos que relacionam atividades online de busca de informação, como visitas à Wikipedia e busca no Google, como correlacionados a atividades no mercado financeiro. O gráfico abaixo, tela de aula do Tobias Preis, mostra estudo que compara a busca pelos termos Lehman Brothers e Financial Crisis com o índice S&P 500 em torno da crise de 2008.

big data - university of warwick - mercado financeiro

A quarta semana traz estudos sobre big data, crime e conflito. São aplicações em redução e prevenção de criminalidade, sobretudo a partir da compreensão das dinâmicas de ocorrências nas cidades. Um bom projeto é realizado por Toby Davies, da University College London, que utilizou métricas como intermediaridade de rede para analisar a disseminação de ocorrências.

intermediaridade - big data - crime nas cidades

Mas de particular interesse para os brasileiros é o estudo liderado por Neil Johnson, do Complex Systems Initiative at the University of Miami (oh, a ironia). Johnson procurou descobrir uma fonte de dados que pudesse ajudar a prever o tamanho dos protestos realizados em 2013 no Brasil. O pesquisador explica as dinâmicas encontradas e como se surpreendeu que este dado foi a atividade e crescimento em páginas do Facebook dedicadas à política e protestos.

big data - neil johnson

Durante todo o curso, há atividades específicas de comentários e discussão. A cada semana, os professores e a assistente, Chanuki Seresinhe, publicam um novo vídeo “round-up” para resumir a semana anterior e comentar dúvidas e colaborações dos alunos nos campos de discussões e comentários. Mas a quinta semana levará tudo isto além, incluindo uma seção de Twitter Chat em torno da hashtag #FLBigData. Já há bastante debate e colaborações, como você pode ver no widget abaixo, mas no dia 21 de maio, entre 1-2PM Uk Time (entre 10h-11h da manhã aqui na faixa de horário de Brasília), Suzy e Tobias participarão ao vivo da conversa.


Uso do big data para saúde é o tema da interessante sexta semana. O caso mais curioso é o da história da predição efetiva de tendências de gripe através de buscas no Google e a posterior falha do mecanismo em 2013, causada por mudanças no comportamento dos indivíduos.

Detecting flu infections with Google searchesfacebook likes como preditores de atributos

A sétima semana vai tratar de felicidade! Há projetos baseados tanto em quantified self através de smartphones quanto do que as pessoas falam em Facebook e Twitter, através da identificação de marcadores linguísticos sobre afetividade, positividade e negatividade. Os estudos experimentais realizados pelo Facebook sobre difusão de estados emocionais e sobre predição de atributos através de likes (já escrevi sobre, aqui no blog), também são apresentados.

Nesta semana começa também a série de exercícios no R de redação de scripts para coletar e cruzar os mesmos dados que serviram de base para a criação do Future Orientation Index pelos professores do curso. Os dados de busca, obtidos através do Google Trends, serão cruzados com os dados do CIA World Factbook  nos exercícios.

Tratando de mobilidade e desastres, as aulas da oitava semana mostram como smartphones, Flickr e mapas colaborativos tem ajudado pessoas em situações de calamidades naturais. A tela abaixo mostra a correlação entre número de fotografias com hashtags selecionadas referentes ao furacão Sandy e a medição de uma variável ambiental: pressão atmosférica. O número de fotos esteve correlacionado à força do furacão.

Furacão Sandy - Flickr - Pressão Atmosférica - Big Data

Por fim, a nona semana é dedicada especialmente à reflexão e discussão do que foi aprendido. Um dos vídeos da última semana trata de como contar histórias com dados. Apresentado por Adrian Letchford, também da Warwick Business School, discorre sobre o processo de descoberta enquanto conta uma interessante história pessoal. Como exemplo, traz visualizações como a exibida abaixo, que comparou termos de busca em estados dos EUA com maior e menor taxa de natalidade.

Telling stories with data

Imagino que alguns destes poucos exemplos já devem ter despertado o interesse, não? Então cadastre-se em https://www.futurelearn.com/courses/big-data e participe!