O que se esconde por trás de uma nuvem de palavras?

Nuvem de palavras, word cloud ou tag cloud são vários termos utilizados para um tipo de visualização, assim como os grafos, bem própria da era digital, que democratizou uma série de ferramentas e capacidades analíticas para a pessoa comum. “Brincar com dados” é hoje uma atividade cultural tão fácil quanto qualquer outra na internet e, no caso das nuvens de palavras, algo que pode ser feito imediatamente através de sites como Wordle.

Apesar desta simplicidade de utilização, as nuvens de palavras e nuvens de tags escondem minúcias e fatos interessantes por trás de seu uso corriqueiro no nosso mercado de análise e apresentação de dados. Então, vamos lá: o que se esconde por trás de uma nuvem de palavras?

Nuvens de palavras: como funcionam?
Em uma visualização do tipo, cada palavra tem seu tamanho regido pela relevância em determinado corpus de texto. Geralmente se trata de contagem simples das ocorrências de determinada palavra no texto. Uma palavra citada 276 vezes vai ter um tamanho proporcionalmente maior do que uma palavra citada 154 vezes. Ao lado, por exemplo, uma nuvem de palavras criada a partir da música “Aladdin Sane” do David Bowie.

O que fazer com nuvens de palavras?
O grande motivador da popularidade das nuvens de palavras para o público geral foi sua utilização desenfreada como recurso navegacional em blogs durante os anos 2000. Adicionar uma nuvem de palavras com as principais categorias ou tags do blog no sidebar era praticamente obrigatório durante um período. Eu enfatizaria o seu poder em três pilares:

Recurso Navegacional: então, o modo pelo qual podemos clicar em palavras ou tags para irmos direto a textos relativos a estas categorias e/ou com as determinadas palavras possui simplicidade intuitiva. O digital permite criar índices onomásticos de qualquer volume de textos e, considerando a pouca atenção e tempo que temos, a nuvem de palavras com a quantificação visual linkada é eficaz.
Método Heurístico de Análise: uma palavra repetida várias vezes o é por algum motivo. Nuvens de palavras são, então, um método heurístico de análise. Por si só não vão resolver um problema ou responder a uma questão de pesquisa, mas apontam caminhos para o quê se observar em um texto ou, mais importante ainda, em um grupo de textos. Os aplicativos que fazem nuvem de palavras via Twitter são reveladores por causa disto. Afinal de contas, um #trendingtopic no Twitter tem a mesma raiz de apontamento de relevância que uma nuvem de palavras.
Apresentação e Visualização de Dados: apresentar, de forma hiper resumida, um dado sobre texto(s) ou conversações através de nuvem de palavras tornou-se padrão. Clientes hoje pedem o recurso pois podem vislumbrar imediatamente os termos mais comuns.

Word Cloud, Tag Cloud, Nuvem de Palavras ou Nuvem de Tags?

A rigor, são utilizados de forma intercambiável, mas recomendo usar o termo tag cloud / nuvem de tags para visualizações que tratam de palavras bem definidas enquanto “tags” mesmo. Ou seja, marcações mais gerais, relacionadas a um sistema de classificação ou identificação criado pelos emissores (por exemplo, o uso de #hashtags) ou criado pelo analista (por exemplo, categorias de um monitoramento). Por outro lado, nuvens de palavras ou word clouds são termos para a visualização quantificada do número de ocorrência das palavras (ao invés das “categorias” ou “marcadores” no caso de tags).

Nuvens de palavras representam um novo tipo de visualização
Em seu clássico artigo “What is Visualization”, Lev Manovich explica que visualização de dados, historicamente, sempre envolveu a redução. Ao invés de mostrarmos uma lista com cinco mil respostas a uma survey, transformamos essa lista em um gráfico como um histograma, mostrando a distribuição das respostas. Ou seja, uma redução. Esta redução envolve transformar um dado em outro formato visual: o volume de respostas a cada pergunta, por exemplo, se é traduzido/reduzido em tamanho de colunas.

Mas quando falamos de texto e de nuvens de palavras, estamos falando de uma visualização direta. Utilizamos o mesmo objeto medido (palavras) para representar as relações entre o que estamos medindo (palavras!). Este tipo de visualização direta tem ocorrências muito mais elaboradas como o Cinema Redux, mas as nuvens de palavras são de longe a mais conhecida. Para ilustrar, imagine que as diferenças entre as visualizações das frequências das palavras mais comuns no início deste post:

histograma x word cloud

Nuvens de palavras? Realmente simples?
Quando falamos de nuvens de palavras (e quando vejo alguns relatórios e infográficos por aí…), parece que a montagem de uma nuvem é algo tão simples quanto abrir a ferramenta, apertar ctrl+c e ctrl+v. Fazer uma nuvem de palavras eficaz é algo bem mais complexo do que isto e devemos ter alguns cuidados, como os listados abaixo.

Nuvens de palavras baseadas em monitoramento de mídias sociais (ou baseados em queries): recomenda-se retirar ou relativizar o tamanho da palavra envolvida na query em questão. É óbvio que a palavra estará em todas as unidades de texto (menções), então seu tamanho será muito maior do que as outras palavras, prejudicando a clareza da visualização. Abaixo dois exemplos de nuvem brutas de tags, com e sem as palavras da query buscada.

9 comentários sobre “O que se esconde por trás de uma nuvem de palavras?”

Pingback: 7 blogs essenciais sobre monitoramento de mídias sociais | Social Figures Blog
Dyego Anderson disse:

em 14/07/2018 às 18:30

Boa noite Professor.
Estou no Mestrado e uso as nuvens de palavras no meu projeto.
Teria alguma bibliografia sobre o uso dessa ferramenta?
Bosco Barroso disse:

em 03/08/2018 às 08:31

Gostaria de obter informações e bibliografia sobre o uso da nuvem de palavras como recurso para resumo de textos, fichamento das principais ideias, etc.
Lou Figueiredo disse:

em 26/06/2019 às 16:11

Olá! Como o Dyego Anderson, gostaria de pedir alguma indicação de bibliografia. Obrigada!
RAKELLY nayara da silva cardoso disse:

em 10/11/2020 às 12:49

esse tipo de coisa é bem legal e explicativo
Aylla Karollina Queiroz De Carvalho disse:

em 10/12/2020 às 16:08

Achei muito interessante .
Valdiney Almeida disse:

em 15/03/2021 às 19:56

Parabéns Tarcízio, ótima explicação, muito apropriado. Usarei o método na minha tese, Quanti-qualitativa.
Juliana Vale Marques disse:

em 19/03/2021 às 12:22

Adorei seu post. Muito útil. Obrigada.
Melquisedech Brota disse:

em 30/04/2021 às 02:38

Excelente material professor Marcos!

Tarcízio Silva

Pesquisa, ciência, tecnologia e sociedade, racismo algorítmico

9 comentários sobre “O que se esconde por trás de uma nuvem de palavras?”

Deixe um comentário