“Fluxos em redes sociotécnicas: das micronarrativas ao big data” é a primeira obra coletiva do Grupo de Pesquisa (GP) “Comunicação e Cultura Digital” da Intercom. Com organização de Beatriz Polivanov, Willian Araújo, Caio C. G. Oliveira e Tarcízio Silva, a coletânea é composta por prefácio de Sandra Montardo e Adriana Amaral e 14 artigos cujas versões iniciais foram submetidas e apresentadas no GP no ano de 2019 e posteriormente revisadas, a partir das sugestões dos pareceristas e debates ocorridos no encontro em Belém do Pará. A publicação reúne textos que abordam as múltiplas implicações que a circulação de narrativas e grandes dados gera no contexto das redes sociotécnicas em termos de fluxos comunicacionais, buscando explorar conflitos e negociações emergentes dentre diversos agentes e instituições.
O livro está dividido em quatro partes: 1) “Narrativas pessoais, práticas de consumo e disputas de sentido na cultura digital”; 2) “Epistemologias decoloniais”; 3) “O que fazem as máquinas e como pesquisá-las? Reflexões sobre plataformas e seus algoritmos” e 4) “Política e opinião pública em um Brasil (des)conectado”. Os autores são de distintas instituições de ensino brasileiras e apresentam referencial teórico e metodológico, bem como objetos empíricos de análise variados, trazendo contribuições diversas para o campo da Comunicação e, mais especificamente, para os estudos que se voltam para a cultura digital.
Ray Poynter, um dos principais advogados dos novos métodos de pesquisa no Reino Unido, principal ativador da excelente comunidade NewMR, lançou pequeno ebook chamado “The Smarter Researcher – how to survive in the changing market research landscape“. Entre as dicas para sobreviver no novo panorama da pesquisa de mercado, críticas relevantes ao big data. Clique para baixar:
A revista de acesso aberto Big Data & Society, editada por Evelyn Ruppert, da Goldsmiths, University of London, foi lançada em 2014 e continua a trazer relevantes reflexões sobre o impacto dos modelos de big data em aspectos sociais.
O primeiro deles se refere aos formatos dos dados distribuídos. Em seus pólos, temos duas possibilidades: structured channeling e adaptative tracking. Os canais que são percebidos como relevantes (por popularidade [como Twitter] ou objetivo [como Reclame Aqui]) são tomados como referenciais para a estruturação de coleta e organização dos dados. Tal postura acaba por definir affordances de ferramentas e potenciais/limites de projetos de digital social analytics. Vejamos, por exemplo, o caso das ferramentas de monitoramento de mídias sociais. Hoje vistas como principal técnica de análise de percepção das imagens das marcas nas mídias sociais, são firmadas, desde 2006~2007, em dados baseados em modelo de stream (fluxo) e real-time possibilitados pela coleta de blogs através de feeds e expandindo para APIs especialmente de Twitter e Facebook. Este modelo direcionou a construção do mercado de monitoramento de mídias sociais, seus tipos de entregas e monetização. Mas cada plataforma possui sua “unidade de conteúdo” com especificidades, especialmente quanto a modalidade de texto e restrição de tamanho.
No outro pólo, o tracking adaptativo tenta perceber os dados online para um referencial único. Estão, relativamente, em pouco número quanto comparados ao modo de estruturação dos canais. O excelente exemplo provido pelo autor é a ideia de link ou conexão. A transformação das relações entre entidades sociais, sejam físicas ou corporativas, em redes de conexões é apontada como a possibilidade final de adaptação dos dados de diferentes plataformas em um mesmo tipo.
A segunda característica descrita pelos autores é a necessidade por automatização. Em determinado grau, a maioria dos projetos de digital social analytics trazem algum tipo de automatização.
No pólo do Following (seguir os algoritmos), Madsen traz como exemplo a aplicação de clustering em uma rede de blogs. A distribuição dos blogs em grupos, uma vez que é baseada no algoritmo, engendra esquemas classificatórios que podem superar os preconceitos dos analistas. Enquanto Training, o autor traz exemplo de nuvem de palavras codificadas cromaticamente a partir de sentimentos vinculados às palavras pela percepção dos analistas em determinado domínio semântico.
Gosto particularmente deste exemplo pois acredito que estamos em um momento de cisão quanto à relação entre análise humana e automatização no mercado brasileiro de mídias sociais. Determinados tipos de automatização são vistos com desconfiança desde a emergência deste mercado no país, o que congelou, de certo modo, a demanda e aprendizado mais amplos sobre técnicas de computação social pelos profissionais. As mudanças na API do Facebook forçarão o preenchimento desta lacuna e superação da falsa dicotomia entre processamento computacional e análise humana, o que torna o artigo especialmente relevante para diversos tipos de stakeholders do mercado.
Em 20 de abril foi lançado o curso online massivo e aberto (MOOC: massive online open course) “Big Data: measuring and predicting human behaviour“. Possui a duração de 9 semanas e pode ser iniciado em qualquer momento até a última semana. Ou seja: corra pra fazer, que dá tempo!
Na primeira semana do curso, os professores se dedicam a apresentar o que é big data, especialmente em torno de um projeto desenvolvido pelos próprios professores do curso fazem parte. Suzy Moat eTobias Preis falam sobre o Future Orientation Index, índice criado para identificar o quanto a população de determinado país se preocupa/planeja/pensa sobre o futuro. O mais interessante deste índice é que ele utiliza basicamente dados do Google Trends. Para cada país analisado (todos com 5mi ou mais de usuários de internet), os pesquisadores extraíram o volume de buscas pelos anos anteriores e anos futuros. O índice calcula se a população está mais voltada ao futuro ou ao passado em suas buscas. O gráfico da direita abaixo mostra considerável correlação entre o índice e o GDP per capita (Gross Domestic Product per capita, ou PIB per capita):
Tela de “Quantifying the Advantage of Looking Forward”, por Preis, Moat, Stanley e Bishop
Na segunda semana, o tema é “Medindo e Prevendo Comportamentos com Big Data”. São vários vídeos realizados pelos dois professores e por outros pesquisadores convidados mostrando seus projtos sobre mecanismos de busca, tecnologias vestíveis e cidades inteligentes. Merece destaque um projeto que me surpreendeu. Paul Lukowics, da DFKI/TU Kaiserslautern, mostra o “Magic Collar”, que tem o objetivo de conseguir medir classes de alimentos sendo engolidos através do som realizado na deglutição.
Nesta semana começam os exercícios práticos, que ensinarão coletas e processamentos simples de dados com o R e R-Studio. Da segunda à sexta semana, são apresentados passos simples de como redigir script para coletar dados históricos de visualização de páginas na Wikipedia. Tudo é realizado extraindo dados de forma organizada do stats.grok.se. Já conhecia e usava o website, mas a criação do script no R expande e aprofunda as possibilidades.
O mercado financeiro é o tema da terceira semana. Os professores e entrevistados da semana mostram exemplos de estudos que relacionam atividades online de busca de informação, como visitas à Wikipedia e busca no Google, como correlacionados a atividades no mercado financeiro. O gráfico abaixo, tela de aula do Tobias Preis, mostra estudo que compara a busca pelos termos Lehman Brothers e Financial Crisis com o índice S&P 500 em torno da crise de 2008.
A quarta semana traz estudos sobre big data, crime e conflito. São aplicações em redução e prevenção de criminalidade, sobretudo a partir da compreensão das dinâmicas de ocorrências nas cidades. Um bom projeto é realizado por Toby Davies, da University College London, que utilizou métricas como intermediaridade de rede para analisar a disseminação de ocorrências.
Mas de particular interesse para os brasileiros é o estudo liderado por Neil Johnson, do Complex Systems Initiative at the University of Miami (oh, a ironia). Johnson procurou descobrir uma fonte de dados que pudesse ajudar a prever o tamanho dos protestos realizados em 2013 no Brasil. O pesquisador explica as dinâmicas encontradas e como se surpreendeu que este dado foi a atividade e crescimento em páginas do Facebook dedicadas à política e protestos.
Durante todo o curso, há atividades específicas de comentários e discussão. A cada semana, os professores e a assistente, Chanuki Seresinhe, publicam um novo vídeo “round-up” para resumir a semana anterior e comentar dúvidas e colaborações dos alunos nos campos de discussões e comentários. Mas a quinta semana levará tudo isto além, incluindo uma seção de Twitter Chat em torno da hashtag #FLBigData. Já há bastante debate e colaborações, como você pode ver no widget abaixo, mas no dia 21 de maio, entre 1-2PM Uk Time (entre 10h-11h da manhã aqui na faixa de horário de Brasília), Suzy e Tobias participarão ao vivo da conversa.
Uso do big data para saúde é o tema da interessante sexta semana. O caso mais curioso é o da história da predição efetiva de tendências de gripe através de buscas no Google e a posterior falha do mecanismo em 2013, causada por mudanças no comportamento dos indivíduos.
A sétima semana vai tratar de felicidade! Há projetos baseados tanto em quantified self através de smartphones quanto do que as pessoas falam em Facebook e Twitter, através da identificação de marcadores linguísticos sobre afetividade, positividade e negatividade. Os estudos experimentais realizados pelo Facebook sobre difusão de estados emocionais e sobre predição de atributos através de likes (já escrevi sobre, aqui no blog), também são apresentados.
Nesta semana começa também a série de exercícios no R de redação de scripts para coletar e cruzar os mesmos dados que serviram de base para a criação do Future Orientation Index pelos professores do curso. Os dados de busca, obtidos através do Google Trends, serão cruzados com os dados do CIA World Factbook nos exercícios.
Tratando de mobilidade e desastres, as aulas da oitava semana mostram como smartphones, Flickr e mapas colaborativos tem ajudado pessoas em situações de calamidades naturais. A tela abaixo mostra a correlação entre número de fotografias com hashtags selecionadas referentes ao furacão Sandy e a medição de uma variável ambiental: pressão atmosférica. O número de fotos esteve correlacionado à força do furacão.
Por fim, a nona semana é dedicada especialmente à reflexão e discussão do que foi aprendido. Um dos vídeos da última semana trata de como contar histórias com dados. Apresentado por Adrian Letchford, também da Warwick Business School, discorre sobre o processo de descoberta enquanto conta uma interessante história pessoal. Como exemplo, traz visualizações como a exibida abaixo, que comparou termos de busca em estados dos EUA com maior e menor taxa de natalidade.