Análise de Texto com AntConc: Frequência e Lista de Palavras

No últim opost, aprendemos o básico sobre AntConc. Agora vamos te mostrar como usar AntConc para gerar listas e frequência de palavras, além do útil File Viewer (Visualizador de Arquivos).

Não esqueça que

  1. Introdução e Configurações
  2. Lista, Frequência de Palavras e Visualizador (estamos aqui)
  3. Concordancer e Plotagem de ConcordÇancia  (em breve)
  4. Clusters e N-Grams (em breve)
  5. Colocações (em breve)

 

As funções do AntConc são acessadas através das sete abas abaixo:

Neste tutoria, vamos seguir os passos para produzir listas de palavras.

Lembre de abrir seu arquivo e importar as configurações recomendadas para pesquisa em mídia social [tutorial].

Gerando e navegando em uma Lista de Palavras

  1. Abra seu arquivo. Nos exemplos abaixo vou usar um dataset com 16 mil tweets em inglês contendo a palavra “brazil” (coletados através do Netlytic). Baixe o arquivo brazil_tweets_16732tweets_2017_11_30.txt em nossa pasta.

 

2. Na aba Word List,clique em Start e eespere alguns segundos:

3. Agora você pode explorar e navegar nos seus dados, descendo a barra de rolagem para encontrar palavras relevantes, organizar por Frequência (Frequency), Palavras (ordem alfabética) ou final da palavra (Word end).

4. Você pode buscar um termo específico na caixa de “Search Term” e clicar na busca “Search Only”:

 

5. Se você clicar em qualquer palavra, será direcionado para a aba Concordance. Em breve você poderá ler um tutorial aqui sobre a ferramenta.

 

6. Se clicar em qualquer palavra na ferramente de Concordance, será direcionado para a File View, onde poderá visualizar o termo/palavra. Funciona como um leitor simples de texto, onde você poderá ver o corpus/corpora completo.

 

7. Para exportar a lista, basta ir na aba Word List e clicar em File -> Save Output.

 

8. O resultado é um arquivo .txt similar a este:

9. Você pode abrir ou copiar-colar o resultado em um software de planilhas como Excel ou LibreOffice para outras análises:

 

 

Filtrando stopwords

Stopwords são palavras que você não quer contar ou visualizar. Geralmente, são as palavras mais comuns sem relevância semântica ou tópica para o seu problema de pesquisa (como artigos, pronomes e alguns advérbios).

 

  1. Primeiro, você vai precisar de uma lista pronta de stopwords. Você pode produzir ou editar uma lista você mesmo, mas vamos começar com um exemplo simples. Você pode baixar uma lista de stopwords em inglês na nossa pasta de listas:

 

2. Para carregar uma lista de stopwords a partir de um arquivo .txt vá em Tool Preferences -> Word List. Lá você verá a opção“Use a stoplist below” na seção “Word List Range”. Clique em Open e selecione seu arquivo .txt :

 

Se você fez corretamente, as palavras aparecerão na caixa:

 

Agora é só clicar em “Apply”!

  1. Volte para a aba Word List e clique no botão “Start”. Compare as duas listas abaixo. A primeira foi a lista original e a segunda é a lista com as stopwords filtradas:

 

 

Contando palavras específicas

Outra opção muito útil da Word List é contar apenas palavras específicas que você já conhecia ou descobriu como relevantes nos seus datasets/corpora. Siga os passos abaixo:

1. Primeiro, você precisa de uma lista de palavras. No nosso caso, vamos subir uma lista de palavras sobre times brasileiros. Baixe ela na pasta de listas.

 

2. Vá em Tool Preferences -> Word Lists e clique em “Add Words From File” para carregar o arquivo. Clique em “Use specific words below” e Apply:

 

3. Agora vá na aba Word List e clique ‘Start’ para gerar a lista novamente. O resultado vai ser uma lista apenas da palavras desejadas:

 

4. Exportar uma lista destas (através de File -> Save Output) permite que você use a contagem em outras ferramentas como a RAW Graphs para gerar visualizações como um Treemap:

 

É isto por agora! Espero que as funcionalidades acima te ajudem a explorar seus dados textuais extraídos de mídias sociais. O próximo tutorial vai focar no Concordancer e Concordance Plot (em breve)!

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *