O que se esconde por trás de uma nuvem de palavras?

Nuvem de palavras, word cloud ou tag cloud são vários termos utilizados para um tipo de visualização, assim como os grafos, bem própria da era digital, que democratizou uma série de ferramentas e capacidades analíticas para a pessoa comum. “Brincar com dados” é hoje uma atividade cultural tão fácil quanto qualquer outra na internet e, no caso das nuvens de palavras, algo que pode ser feito imediatamente através de sites como Wordle.

Apesar desta simplicidade de utilização, as nuvens de palavras e nuvens de tags escondem minúcias e fatos interessantes por trás de seu uso corriqueiro no nosso mercado de análise e apresentação de dados. Então, vamos lá: o que se esconde por trás de uma nuvem de palavras?

aladdin sane word cloudNuvens de palavras: como funcionam?
Em uma visualização do tipo, cada palavra tem seu tamanho regido pela relevância em determinado corpus de texto. Geralmente se trata de contagem simples das ocorrências de determinada palavra no texto. Uma palavra citada 276 vezes vai ter um tamanho proporcionalmente maior do que uma palavra citada 154 vezes. Ao lado, por exemplo, uma nuvem de palavras criada a partir da música “Aladdin Sane” do David Bowie.

O que fazer com nuvens de palavras?
O grande motivador da popularidade das nuvens de palavras para o público geral foi sua utilização desenfreada como recurso navegacional em blogs durante os anos 2000. Adicionar uma nuvem de palavras com as principais categorias ou tags do blog no sidebar era praticamente obrigatório durante um período. Eu enfatizaria o seu poder em três pilares:

  • Recurso Navegacional: então, o modo pelo qual podemos clicar em palavras ou tags para irmos direto a textos relativos a estas categorias e/ou com as determinadas palavras possui simplicidade intuitiva. O digital permite criar índices onomásticos de qualquer volume de textos e, considerando a pouca atenção e tempo que temos, a nuvem de palavras com a quantificação visual linkada é eficaz.
  • Método Heurístico de Análise: uma palavra repetida várias vezes o é por algum motivo. Nuvens de palavras são, então, um método heurístico de análise. Por si só não vão resolver um problema ou responder a uma questão de pesquisa, mas apontam caminhos para o quê se observar em um texto ou, mais importante ainda, em um grupo de textos. Os aplicativos que fazem nuvem de palavras via Twitter são reveladores por causa disto. Afinal de contas, um #trendingtopic no Twitter tem a mesma raiz de apontamento de relevância que uma nuvem de palavras.
  • Apresentação e Visualização de Dados: apresentar, de forma hiper resumida, um dado sobre texto(s) ou conversações através de nuvem de palavras tornou-se padrão. Clientes hoje pedem o recurso pois podem vislumbrar imediatamente os termos mais comuns.

Word Cloud, Tag Cloud, Nuvem de Palavras ou Nuvem de Tags?

A rigor, são utilizados de forma intercambiável, mas recomendo usar o termo tag cloud / nuvem de tags para visualizações que tratam de palavras bem definidas enquanto “tags” mesmo. Ou seja, marcações mais gerais, relacionadas a um sistema de classificação ou identificação criado pelos emissores (por exemplo, o uso de #hashtags) ou criado pelo analista (por exemplo, categorias de um monitoramento). Por outro lado, nuvens de palavras ou word clouds são termos para a visualização quantificada do número de ocorrência das palavras (ao invés das “categorias” ou “marcadores” no caso de tags).

Nuvens de palavras representam um novo tipo de visualização
Em seu clássico artigo “What is Visualization”, Lev Manovich explica que visualização de dados, historicamente, sempre envolveu a redução. Ao invés de mostrarmos uma lista com cinco mil respostas a uma survey, transformamos essa lista em um gráfico como um histograma, mostrando a distribuição das respostas. Ou seja, uma redução. Esta redução envolve transformar um dado em outro formato visual: o volume de respostas a cada pergunta, por exemplo, se é traduzido/reduzido em tamanho de colunas.

Mas quando falamos de texto e de nuvens de palavras, estamos falando de uma visualização direta. Utilizamos o mesmo objeto medido (palavras) para representar as relações entre o que estamos medindo (palavras!). Este tipo de visualização direta tem ocorrências muito mais elaboradas como o Cinema Redux, mas as nuvens de palavras são de longe a mais conhecida. Para ilustrar, imagine que as diferenças entre as visualizações das frequências das palavras mais comuns no início deste post:

histograma x word cloud

Nuvens de palavras? Realmente simples?
Quando falamos de nuvens de palavras (e quando vejo alguns relatórios e infográficos por aí…), parece que a montagem de uma nuvem é algo tão simples quanto abrir a ferramenta, apertar ctrl+c e ctrl+v. Fazer uma nuvem de palavras eficaz é algo bem mais complexo do que isto e devemos ter alguns cuidados, como os listados abaixo.

  • Nuvens de palavras baseadas em monitoramento de mídias sociais (ou baseados em queries): recomenda-se retirar ou relativizar o tamanho da palavra envolvida na query em questão. É óbvio que a palavra estará em todas as unidades de texto (menções), então seu tamanho será muito maior do que as outras palavras, prejudicando a clareza da visualização. Abaixo dois exemplos de nuvem brutas de tags, com e sem as palavras da query buscada.
Tagclouds com e sem query.

Tagclouds com e sem query.

  • Cores e Marcas de Clientes: assim como outros tipos de elementos visuais de um relatório, é mais eficiente utilizar as cores próprias da marca e branding da empresa ou produto do cliente ao se apresentar nuvens de palavras em torno da marca.
  • Simbologia Afetiva das Cores: assim como ocorre com os gráficos de sentimento, pode ser útil mostrar nuvens de palavras segmentadas de acordo com o sentimento atribuído na análise. Neste caso, a simbologia das cores mais básica está relacionada à análise de sentimento: vermelho, verde e laranja para denotar negativo, positivo e neutro. Arbitrárias, mas são codificações consensuais (pelo menos na maioria dos países), então não faça uma nuvem de palavras sobre “elogios de consumidores” usando tons de vermelho.
  • Cores enquanto gradação: a intensidade da cor em cada palavra pode direcionar o olhar, mas ser uma dimensão que não traz dados. Cuidado com as configurações básicas das ferramentas de nuvem de palavras. Não deixe que suas limitações façam uma visualização confusa.
  • Realmente dizem algo? Nem todas nuvens de palavras vão lhe dar informações relevantes. Em alguns casos, a nuvem de palavras vai reproduzir o óbvio ou, ainda, motivar interpretações errôneas. Imagine que você extraiu todas as bios dos seguidores de uma conta Twitter e usa uma nuvem de palavras pra medir e visualizar as mais comuns. Encontrará palavras como “apaixonado/a”, “mundo”, “deus” e outras bem comuns. Mas são termos comuns no Twitter brasileiro como um todo. Contexto e comparações são sempre bem vindos para refinar as interpretações.

 

Onde fazer nuvens de palavras?

  • A Wordle é o software online usado por 9 entre 10 analistas de monitoramento de mídias sociais. Basta copiar e colar um texto, editar as opções, ou ainda ir na seção avançada, e voilà!
  • A Wordcounter conta as palavras de um texto, recurso muitas vezes necessário para se realizar nuvens de palavas customizadas e mais claras no Wordle, por exemplo.
  • Tagxedo permite criar nuvens de palavras com formas abstratas e silhuetas representacionais, como o raio que caiu como uma luva para a letra de Aladdin Sane lá em cima.
  • O projeto Many Eyes permite criar não só nuvens de palavras, mas também outras visualizações de texto como phrase netword tree.
  • Já o portal Tapor é mantido pela Universidade de Alberta e se dedica a manter, investigar e produzir conteúdo e ferramentas de estudo de textos.

 

Nuvem de palavras formam apenas um cubinho de gelo do iceberg de text analytics e análise semântica

Análise semântica, análise de conteúdo e análise de discurso são metodologias amplamente consolidadas nas ciências sociais aplicadas e podem te ajudar a aprofundar bastante as interpretações realizadas. Dois excelentes livros, traduzidos para o português, tratam bastante do tema: Análise de Conteúdo, de Laurence Bardin; e Pesquisa Qualitativa com Imagem, Texto e Som, de Martin Bauer e George Gaskell.

E conheça a história e teoria por trás do popular Wordle no artigo Participatory Visualization with Wordle, Fernanda B. Viégas, Martin Wattenberg e Jonathan Feinberg.

Entenda o Monitoramento de Mídias Sociais com e-book brasileiro

É com imensa satisfação que anuncio a publicação do e-book Para Entender o Monitoramento de Mídias Sociais. Consegui reunir 27 artigos inéditos de profissionais e pesquisadores da área, entre analistas, coordenadores e diretores de agências e departamentos de mídias sociais, desenvolvedores de ferramentas e softwares, professores, pesquisadores acadêmicos e gerentes de marketing e comunicação de grandes empresas.

Inspirado nas publicações Para Entender a Internet e Para Entender as Mídias Sociais, o e-book trata de 22 tópicos sobre o tema: Informação; Reputação; Análise de Sentimento; SAC; Profissionais; ROI; Relevância; Monitoramento; Mensuração; Inteligência Artificial; Gestão de Crises; Classificação; Geolocalização; Conteúdo; Netnografia; Softwares Plenos; Perfis; Opinião Pública; Convergência; SEO; Visualização; e Gestão do Conhecimento.

10 blogs sobre análise, visualização e mineração de dados

Continuando a série de posts com listas de blogs para o profissional de comunicação digital, algumas dicas de conteúdo sobre análise, visualização e mineração de dados. Para visualizar as listas anteriores, confira 10 blogs sobre mensuração da comunicação e métricas para mídias sociais e 10 blogs sobre monitoramento de marcas e mídias sociais. Em breve, dicas de blog sobre pesquisa de marketing, cool hunting, geolocalização e inteligência competitiva.

Connected Actionwww.connectedaction.net
O blog de Marc Smith é baseado no seu trabalho de consultoria utilizando técnicas de análise de redes sociais. Smith é um dos criadores do NodeXL, ferramenta de ARS e organizador de livro sobre aplicação destas técnicas.

Liliendahlhttp://liliendahl.wordpress.com/
Blog de Henrik Liliendahl Sørensen, especialista em qualidade e gereciamento de dados.

Analysis Intelligence – http://www.analysisintelligence.com
Blog mantido pela Recorded Future sobre análise de dados open source e governamentais.

Predictive Signals – http://www.predictivesignals.com
Outro blog mantido pela Recorded Future, o Predictive Signals trata de análise preditiva a partir de news analytics do software.

Quantified Selfhttp://quantifiedself.com
O blog do projeto Quantified Self traz diversos relatos de pessoas que utilizam tecnologias digitais para obter mais auto-conhecimento.

Software Studieshttp://lab.softwarestudies.com
O site do projeto de pesquisa sobre software studies tem publicado bastante conteúdo sobre cultural analytics e big data.

Data Mining: Text Mining, Visualization and Social Media – http://datamining.typepad.com/data_mining/
Matthew Hurst, pesquisador da Microsoft, escreve sobre visualização e mineração de dados

Infosthetics – http://infosthetics.com/
Infosthetics é focado na estética informacional e apresenta análises de diferentes tipos de visualizações.

Flowing Data – http://flowingdata.com/
Por fim, o Flowing Data fala de visualização de dados para designers, estatísticos e cientistas da computação.

Social Flow Blog – http://blog.socialflow.com/
O blog da ferramenta Social Flow trata bastante de análise de dados no Twitter.