Big Data: medindo e prevendo o comportamento humano

Em 20 de abril foi lançado o curso online massivo e aberto (MOOC: massive online open course) “Big Data: measuring and predicting human behaviour“. Possui a duração de 9 semanas e pode ser iniciado em qualquer momento até a última semana. Ou seja: corra pra fazer, que dá tempo!

Na primeira semana do curso, os professores se dedicam a apresentar o que é big data, especialmente em torno de um projeto desenvolvido pelos próprios professores do curso fazem parte. Suzy Moat e Tobias Preis falam sobre o Future Orientation Index, índice criado para identificar o quanto a população de determinado país se preocupa/planeja/pensa sobre o futuro. O mais interessante deste índice é que ele utiliza basicamente dados do Google Trends. Para cada país analisado (todos com 5mi ou mais de usuários de internet), os pesquisadores extraíram o volume de buscas pelos anos anteriores e anos futuros. O índice calcula se a população está mais voltada ao futuro ou ao passado em suas buscas. O gráfico da direita abaixo mostra considerável correlação entre o índice e o GDP per capita (Gross Domestic Product per capita, ou PIB per capita):

future orientation index

Tela de “Quantifying the Advantage of Looking Forward”, por Preis, Moat, Stanley e Bishop

Na segunda semana, o tema é “Medindo e Prevendo Comportamentos com Big Data”. São vários vídeos realizados pelos dois professores e por outros pesquisadores convidados mostrando seus projtos sobre mecanismos de busca, tecnologias vestíveis e cidades inteligentes. Merece destaque um projeto que me surpreendeu. Paul Lukowics, da DFKI/TU Kaiserslautern, mostra o “Magic Collar”, que tem o objetivo de conseguir medir classes de alimentos sendo engolidos através do som realizado na deglutição.
the magic collar

Nesta semana começam os exercícios práticos, que ensinarão coletas e processamentos simples de dados com o R e R-Studio. Da segunda à sexta semana, são apresentados passos simples de como redigir script para coletar dados históricos de visualização de páginas na Wikipedia. Tudo é realizado extraindo dados de forma organizada do stats.grok.se. Já conhecia e usava o website, mas a criação do script no R expande e aprofunda as possibilidades.

stats wikipedia

O mercado financeiro é o tema da terceira semana. Os professores e entrevistados da semana mostram exemplos de estudos que relacionam atividades online de busca de informação, como visitas à Wikipedia e busca no Google, como correlacionados a atividades no mercado financeiro. O gráfico abaixo, tela de aula do Tobias Preis, mostra estudo que compara a busca pelos termos Lehman Brothers e Financial Crisis com o índice S&P 500 em torno da crise de 2008.

big data - university of warwick - mercado financeiro

A quarta semana traz estudos sobre big data, crime e conflito. São aplicações em redução e prevenção de criminalidade, sobretudo a partir da compreensão das dinâmicas de ocorrências nas cidades. Um bom projeto é realizado por Toby Davies, da University College London, que utilizou métricas como intermediaridade de rede para analisar a disseminação de ocorrências.

intermediaridade - big data - crime nas cidades

Mas de particular interesse para os brasileiros é o estudo liderado por Neil Johnson, do Complex Systems Initiative at the University of Miami (oh, a ironia). Johnson procurou descobrir uma fonte de dados que pudesse ajudar a prever o tamanho dos protestos realizados em 2013 no Brasil. O pesquisador explica as dinâmicas encontradas e como se surpreendeu que este dado foi a atividade e crescimento em páginas do Facebook dedicadas à política e protestos.

big data - neil johnson

Durante todo o curso, há atividades específicas de comentários e discussão. A cada semana, os professores e a assistente, Chanuki Seresinhe, publicam um novo vídeo “round-up” para resumir a semana anterior e comentar dúvidas e colaborações dos alunos nos campos de discussões e comentários. Mas a quinta semana levará tudo isto além, incluindo uma seção de Twitter Chat em torno da hashtag #FLBigData. Já há bastante debate e colaborações, como você pode ver no widget abaixo, mas no dia 21 de maio, entre 1-2PM Uk Time (entre 10h-11h da manhã aqui na faixa de horário de Brasília), Suzy e Tobias participarão ao vivo da conversa.


Uso do big data para saúde é o tema da interessante sexta semana. O caso mais curioso é o da história da predição efetiva de tendências de gripe através de buscas no Google e a posterior falha do mecanismo em 2013, causada por mudanças no comportamento dos indivíduos.

Detecting flu infections with Google searchesfacebook likes como preditores de atributos

A sétima semana vai tratar de felicidade! Há projetos baseados tanto em quantified self através de smartphones quanto do que as pessoas falam em Facebook e Twitter, através da identificação de marcadores linguísticos sobre afetividade, positividade e negatividade. Os estudos experimentais realizados pelo Facebook sobre difusão de estados emocionais e sobre predição de atributos através de likes (já escrevi sobre, aqui no blog), também são apresentados.

Nesta semana começa também a série de exercícios no R de redação de scripts para coletar e cruzar os mesmos dados que serviram de base para a criação do Future Orientation Index pelos professores do curso. Os dados de busca, obtidos através do Google Trends, serão cruzados com os dados do CIA World Factbook  nos exercícios.

Tratando de mobilidade e desastres, as aulas da oitava semana mostram como smartphones, Flickr e mapas colaborativos tem ajudado pessoas em situações de calamidades naturais. A tela abaixo mostra a correlação entre número de fotografias com hashtags selecionadas referentes ao furacão Sandy e a medição de uma variável ambiental: pressão atmosférica. O número de fotos esteve correlacionado à força do furacão.

Furacão Sandy - Flickr - Pressão Atmosférica - Big Data

Por fim, a nona semana é dedicada especialmente à reflexão e discussão do que foi aprendido. Um dos vídeos da última semana trata de como contar histórias com dados. Apresentado por Adrian Letchford, também da Warwick Business School, discorre sobre o processo de descoberta enquanto conta uma interessante história pessoal. Como exemplo, traz visualizações como a exibida abaixo, que comparou termos de busca em estados dos EUA com maior e menor taxa de natalidade.

Telling stories with data

Imagino que alguns destes poucos exemplos já devem ter despertado o interesse, não? Então cadastre-se em https://www.futurelearn.com/courses/big-data e participe!

Monitorando e avaliando presença online de hotéis e empresas do ramo de viagens

Dois estudos recentes sobre o mercado de viagens e hotéis. Um foi realizado pela Vivential Value e analisou hotéis espanhóis e o outro foi realizado pela sempre inovadora L2 Think Tank, sobre empresas do ramo de viagens (hotéis, companhias aéreas e cruzeiros):

12 livros para o profissional de mídias sociais ler em 2012 – parte 1

Continuando uma série de dicas de livros que iniciei em 2010 (parte 1, parte 2, parte 3 e parte 4) e continuei em 2011 (parte 1parte 2parte 3 e parte 4), vou indicar 12 livros que podem interessar e ajudar o profissional de mídias sociais. A ideia é indicar um livro para cada mês do ano. Vamos começar com três dicas de livros sobre mensuração e métricas esse primeiro post: espere mais nos próximos meses.

No livro Measure What Matters: Online Tools For Understanding Customers, Social Media, Engagement, and Key Relationships, a Katie Delahaye Paine continua sua jornada de produção de conteúdo sobre mensuração, pesquisa e relações públicas. Ao longo de 14 capítulos, Paine explica tanto como utilizar tecnologias digitais para medir reputação, ações de marketing, campanhas, eventos, medir a satisfação de consumidores e funcionários e identificar influenciadores como analisar as tecnologias digitais e mídias sociais como fontes de dados e análise.

Katie Paine e sua consultoria já publicaram outros livros e documentos, como Measuring Public Relations – the data-driven communicator’s guide to successMeasuring the Transparency of Environmental Sustainability Reporting Through Websites of Fortune 50 Corporations. Recomendo também ver o blog do livro Measure What Matters, a newsletter The Measurement Standard e seu blog pessoal. Além de  atualizar o Twitter, também possui diversas apresentações no SlideShare.

Sou um fã de John Lovett desde que comecei a pesquisar mídias sociais e publicidade digital. Não pude deixar de comprar o seu livro Social Media Metrics Secrets que, apesar do nome horrível, é um excelente manual para entendimento das métricas em mídias sociais. Na primeira parte do livro, Lovett parte da abundância dos dados que temos hoje, pra mostrar como selecionar e transformar dados em informação. Em seguida, mostra como gestionar as mídias sociais baseado em analítica. Na última parte, mostra como tudo isto resulta em avanços e retorno para as organizações.

Confira seu blog na WAD e o excelente documento Social Marketing Analytics, feito em parceria com o também ótimo Jeremiah Owyang do Altimeter Group: http://www.slideshare.net/jlovett/social-marketing-analytics

Guy Powell, Steven Groves e Jerry Dimos possuem um forte pensamento financeiro no livro Social Media ROI – How to Improve the Return on Your Social Marketing Investment. Destaco nesta publicação a compreensão dos diversos tipos de stakeholders envolvidos nas mídias sociais e suas motivações e o framework de engjamento com mídia. A partir da tríade influenciadores-consumidores-indivíduos, os autores apresentam estratégias e métodos de análise. Entre a prolífica produção anglófila sobre métricas em mídias sociais durante o último ano, este é um dos que já foram traduzidos para o português. Então, se preferir, confira o Retorno sobre Investimento em Mídias Sociais.

Compras coletivas prejudicam a reputação de empresas

Uma ótima análise publicada na Technology Review, e indicada pela Econsultancy, fala de um estudo que ligou as ofertas de compras coletivas à diminuição da reputação das empresas vendedoras.

Influência Oculta do Groupon na Reputação

Um dos maiores fenômenos da internet nos últimos anos foi o surgimento de sites de compras coletivas como Groupon ou Living Social. Esses sites oferecem descontos, geralmetne entre 40 e 50%, para produtos e serviços diponíveis em cidades específicas no mundo.

Essas ofertas são caras para os vendedores: Groupon leva cerca de metade da receita que os vouchers geram. Os vendedores podem levar um prejuízo durante a oferta, mas o potencial benefício é o crescimento a longo prazo graças a mais transações por parte dos consumidores.

Muitos vendedores foram persuadidos – as vendas nos sites de compras coletivas devem alcançar 1 bilhão de dólares neste ano. Então é importante entender como esse modelo de negócio funciona.

Hoje, John Byers e Georgia Zervas, da Universidade de Boston, e Michael Mitzenmacher, da Universidade de Harvard, oferecem um interessante insight nos mecanismos das compras coletivas.

Estes pesquisadores estudaram cerca de 16 mil ofertas no Groupon em 20 cidades americanas entre janeiro e julho deste ano. Eles monitoraram cada oferta a cada dez minutos para determinar o quanto as vendas variaram ao longo do tempo e também contaram o número de likes no Facebook que cada oferta gerou.

Ao mesmo tempo, eles coletaram reviews no Yelp – cerca de 56 mil de 2.322 empresas que lançaram 2.496 ofertas – examinando como as reputações dos vendedores mudaram antes e depois de uma oferta no Groupon.

Utilizam estes dados para entender o negócio das compras coletivas. Por exemplo, realizaram uma estimativa bastante precisa da receita semanal do Groupon por cidade, e checaram com os dados financeiros da empresa.

Também examinaram como a popularidade de uma oferta se dissemina através de likes no Facebook e construíram um modelo de cascata para mostrar o que acontece. O modelo sugere que o boca a boca no Facebook exerce um importante efeito nas vendas.

Mas a descoberta mais controversa é que uma oferta no Groupon tem um efeito adverso na reputação medida através das avaliações no Yelp. A análise mostra como o número de reviews cresce significantemente por causa das ofertas, mas as avaliações de quem menciona as ofertas é 10% menor que as gerais.

Examinaram o efeito em mais detalhe ao destacar reviews que mencionam as palavras “Groupon” e “cupom”. Segundo os pesquisadores, “Reviews mencionando cada palavra foram associadas com as avaliações (estrelas), que foram 10% menores que as reviews que não mencionaram, enquanto a pequena fração de reviews mencionando ambas as palavras-chave foram 20% menos favoráveis em média”.

Isto é preocupante tanto para o Groupon quanto para os vendedores. De um lado, os dados mostram evidência do aumetno do interesse que um vendedor ganha por causa de uma oferta. Por outro, as notas baixas dão um alerta.  “Isto pode indicar que uma audiência maior está sendo alcançada ou que a ligação entre o vendedor e estes novos consumidores é mais tênue do que com os consumidores prévios”, dizem Byers, Zervas e Mitzenmacher.

O teste real, evidentemente, é a receita a longo prazo que as ofertas podem gerar para os vendedores e estes estudo não possui dados que abordem isto. Então, no final das contas, apenas os vendedores podem saber o quanto essas ofertas são efetivas.

O que é claro é o poder das análises que unem dados de venda com os efeitos nas mídias sociais. Se Byers, Zervas e Mitzenmacher puderem construir um mecanismo de análise que colete e cruze esse tipo de dados, eles podem começar um novo fenômeno na internet.

 

10 blogs sobre análise, visualização e mineração de dados

Continuando a série de posts com listas de blogs para o profissional de comunicação digital, algumas dicas de conteúdo sobre análise, visualização e mineração de dados. Para visualizar as listas anteriores, confira 10 blogs sobre mensuração da comunicação e métricas para mídias sociais e 10 blogs sobre monitoramento de marcas e mídias sociais. Em breve, dicas de blog sobre pesquisa de marketing, cool hunting, geolocalização e inteligência competitiva.

Connected Actionwww.connectedaction.net
O blog de Marc Smith é baseado no seu trabalho de consultoria utilizando técnicas de análise de redes sociais. Smith é um dos criadores do NodeXL, ferramenta de ARS e organizador de livro sobre aplicação destas técnicas.

Liliendahlhttp://liliendahl.wordpress.com/
Blog de Henrik Liliendahl Sørensen, especialista em qualidade e gereciamento de dados.

Analysis Intelligence – http://www.analysisintelligence.com
Blog mantido pela Recorded Future sobre análise de dados open source e governamentais.

Predictive Signals – http://www.predictivesignals.com
Outro blog mantido pela Recorded Future, o Predictive Signals trata de análise preditiva a partir de news analytics do software.

Quantified Selfhttp://quantifiedself.com
O blog do projeto Quantified Self traz diversos relatos de pessoas que utilizam tecnologias digitais para obter mais auto-conhecimento.

Software Studieshttp://lab.softwarestudies.com
O site do projeto de pesquisa sobre software studies tem publicado bastante conteúdo sobre cultural analytics e big data.

Data Mining: Text Mining, Visualization and Social Media – http://datamining.typepad.com/data_mining/
Matthew Hurst, pesquisador da Microsoft, escreve sobre visualização e mineração de dados

Infosthetics – http://infosthetics.com/
Infosthetics é focado na estética informacional e apresenta análises de diferentes tipos de visualizações.

Flowing Data – http://flowingdata.com/
Por fim, o Flowing Data fala de visualização de dados para designers, estatísticos e cientistas da computação.

Social Flow Blog – http://blog.socialflow.com/
O blog da ferramenta Social Flow trata bastante de análise de dados no Twitter.