Análise de Texto com AntConc: Frequência e Lista de Palavras

No últim opost, aprendemos o básico sobre AntConc. Agora vamos te mostrar como usar AntConc para gerar listas e frequência de palavras, além do útil File Viewer (Visualizador de Arquivos).

Não esqueça que

  1. Introdução e Configurações
  2. Lista, Frequência de Palavras e Visualizador (estamos aqui)
  3. Concordancer e Plotagem de ConcordÇancia  (em breve)
  4. Clusters e N-Grams (em breve)
  5. Colocações (em breve)

 

As funções do AntConc são acessadas através das sete abas abaixo:

Neste tutoria, vamos seguir os passos para produzir listas de palavras.

Lembre de abrir seu arquivo e importar as configurações recomendadas para pesquisa em mídia social [tutorial].

Gerando e navegando em uma Lista de Palavras

  1. Abra seu arquivo. Nos exemplos abaixo vou usar um dataset com 16 mil tweets em inglês contendo a palavra “brazil” (coletados através do Netlytic). Baixe o arquivo brazil_tweets_16732tweets_2017_11_30.txt em nossa pasta.

 

2. Na aba Word List,clique em Start e eespere alguns segundos:

3. Agora você pode explorar e navegar nos seus dados, descendo a barra de rolagem para encontrar palavras relevantes, organizar por Frequência (Frequency), Palavras (ordem alfabética) ou final da palavra (Word end).

4. Você pode buscar um termo específico na caixa de “Search Term” e clicar na busca “Search Only”:

 

5. Se você clicar em qualquer palavra, será direcionado para a aba Concordance. Em breve você poderá ler um tutorial aqui sobre a ferramenta.

 

6. Se clicar em qualquer palavra na ferramente de Concordance, será direcionado para a File View, onde poderá visualizar o termo/palavra. Funciona como um leitor simples de texto, onde você poderá ver o corpus/corpora completo.

 

7. Para exportar a lista, basta ir na aba Word List e clicar em File -> Save Output.

 

8. O resultado é um arquivo .txt similar a este:

9. Você pode abrir ou copiar-colar o resultado em um software de planilhas como Excel ou LibreOffice para outras análises:

 

 

Filtrando stopwords

Stopwords são palavras que você não quer contar ou visualizar. Geralmente, são as palavras mais comuns sem relevância semântica ou tópica para o seu problema de pesquisa (como artigos, pronomes e alguns advérbios).

 

  1. Primeiro, você vai precisar de uma lista pronta de stopwords. Você pode produzir ou editar uma lista você mesmo, mas vamos começar com um exemplo simples. Você pode baixar uma lista de stopwords em inglês na nossa pasta de listas:

 

2. Para carregar uma lista de stopwords a partir de um arquivo .txt vá em Tool Preferences -> Word List. Lá você verá a opção“Use a stoplist below” na seção “Word List Range”. Clique em Open e selecione seu arquivo .txt :

 

Se você fez corretamente, as palavras aparecerão na caixa:

 

Agora é só clicar em “Apply”!

  1. Volte para a aba Word List e clique no botão “Start”. Compare as duas listas abaixo. A primeira foi a lista original e a segunda é a lista com as stopwords filtradas:

 

 

Contando palavras específicas

Outra opção muito útil da Word List é contar apenas palavras específicas que você já conhecia ou descobriu como relevantes nos seus datasets/corpora. Siga os passos abaixo:

1. Primeiro, você precisa de uma lista de palavras. No nosso caso, vamos subir uma lista de palavras sobre times brasileiros. Baixe ela na pasta de listas.

 

2. Vá em Tool Preferences -> Word Lists e clique em “Add Words From File” para carregar o arquivo. Clique em “Use specific words below” e Apply:

 

3. Agora vá na aba Word List e clique ‘Start’ para gerar a lista novamente. O resultado vai ser uma lista apenas da palavras desejadas:

 

4. Exportar uma lista destas (através de File -> Save Output) permite que você use a contagem em outras ferramentas como a RAW Graphs para gerar visualizações como um Treemap:

 

É isto por agora! Espero que as funcionalidades acima te ajudem a explorar seus dados textuais extraídos de mídias sociais. O próximo tutorial vai focar no Concordancer e Concordance Plot (em breve)!

Análise de Texto com AntConc: introdução, arquivos e configurações

De modo geral, análise de texto computacional é um conjunto de técnicas para análise automatizada de conteúdo. Mesmo sem o uso de estatística complexa ou programação, pesquisadores das ciências sociais e humanidades podem otimizar suas técnicas de exploração de dados com técnicas como contagem de frequência, co-ocorrência e colocações.

AntConc é um dos softwares mais fáceis e úteis para análise textual e linguística de corpus. Foi desenvolvido por Laurence Anthony, Professor na Faculdade de Ciência e Engenharia da Waseda University, Japan. Ele desenvolve e oferece dúzias de ferramentas em seu website, como TagAntFireAnt.

Depois dessa introdução sobre AntConc, vamos cobrir suas principais funcionalidades nos posts a seguir:

  1. Introdução, Abrindo Arquivos e Configurações (estamos aqui)
  2. Lista e Frequência de Palavras
  3. Concordancer e Concordance Plot (em breve)
  4. Clusters e N-Grams (em breve)
  5. Colocações(em breve)

A matriz a seguir foi proposta no artigo Computational text analysis for social science: Model assumptions and complexity e resume as possibilidades entre estatística/computação simples x complexa e entre especialização forte x fraca no domínio. Usar AntConc para analisar dados textuais de mídias sociais engloba tarefas estatísticas simples como contagem de palavras e n-grams, mas pode ser avançada para contagem de termos chave em dicionários criados por especialistas no tema/assunto.

Para entender e comparar abordagens de análise apoiada por computador, análise textual interpretativa apoiada por computador e linguística de corpus, recomendo o artigo Taming textual data: The contribution of corpus linguistics to computer-aided text analysis.

AntConc permite realizar as principais técnicas de linguística de corpus como frequência de palavras (word frequencies), colocações (collocation), concordância (concordance), n-grams e comparação de corpora a qualquer tipo de texto.

Mas vamos começar do início! Baixe a AntConc e leia o texto a seguir, que vai te ensinar o básico sobre as configurações e como abrir um arquivo.

 

Como coletar dados textuais em mídias sociais?

Há dúzias de ferramentas para pesquisa em mídias sociais que permitem extrair ou monitorar dados textuais nas principais plataformas. A maioria delas coleta dados através de keywords/hashtags e/ou de páginas e websites específicos. Geralmente as ferramentas usam codificação UTF-8 para exportar arquivos no formato .csv . Você pode abri-los no Excel ou Libreoffice e copiar-colar os textos para um bloco de notas e salvá-los como um arquivo .txt, um dos formatos preferenciais para o AntConc.

Lista de ferramentas/respositórios:

Se você nunca coletou dados textuais em mídias sociais, recomendo fortemente que comece pela excelente e super fácil de usar Netlytic  e colete alguns tweets ou comentários do YouTube. Mas não se preocupe: vou lhe dar alguns datasets de exemplo nos próximos posts.

 

Formatos de arquivo

AntConc pode ler vários formatos diferentes: .txt, .xml, .html, .ant. O mais simples é o .txt, que você pode criar com um Bloco de Notas.

Formato Descrição
.txt .TXT é o formato mais simples para guardar arquivos. Softwares como Bloco de Notas, Notepad++, TextMate, Word dos editores de texto podem salvar seu arquivo neste formato.
.html .HTML é o padrão para salvar páginas web. Você pode salvar uma pa´gina web e carregá-la direto no AntConc.

AntConc tem algumas configurações que permite ignorar o texto entre os caracteres “<” e “>” usados em arquivos HTML.

.xml .XML: Extensible Markup Language. É similar a um arquivo .HTML, mas usa tags customizadas para definir objetos e dados dentro de cada objeto. Na análise de texto ou linguística de corpus é usada para marcar cada palavra com suas categorias/classes em Etiquetamento de Texto (Part-of-Speech Tagging).
.ant .ANT é um formato específico usado pela AntConc, intercambiável com .txt.

 

  1. Codificação

É recomendável que você salve seus arquivos de texto com a codificação UTF-8. Codificação de caracteres é uma padronização de como o software vai processar caracteres e símbolos. UTF-8 é definido pelo padrão Unicode, que engloba caracteres usados na maioria das línguas e scripts ocidentais. Graças a isto, muitas ferramentas de coleta de dados usam a codificação UTF-8 como padrão. Então lembra de salvar seus arquivos como UTF-8!

 

Configurações óptimas para Textos de Mídia Social

  1. Arquivo pré-configurado

AntConc não foi desenvolvido apenas para dados de mídias sociais mas para todos os tipos de texto, especialmente literatura, linguagem natural e corpora nacionais. Então são necessários alguns ajustes nas configurações.

As especificação serão listadas abaixo, mas ao invés de seguir cada passo, você pode simplesmente importar um Arquivo de Configurações (Settings File) com as opções recomendadas que preparei para você. Baixe o arquivo antconc_settings_for_social_media.ant e, no AntConc, vá em File -> Import Settings from File…, selecione e abra o arquivo:

 

Pronto! Agora o AntConc pode ser mais útil para análise de mídias sociais. Depois disso você pode pular os passos abaixo, mas recomendo ao menos lê-los para entender:

 

2. Configurações Globais (Global Settings) – Token Definition

Nesta seção, vamos explicar as configurações recomendadas. Mas lembre: você não precisa seguir os passos abaixo se você carregou o arquivo de configurações customizadas que mostrei acima.

Primeiro, precisamos configurar as configurações de token. Um token é  um elemento (palavra, caractere, pontuação, símbolo etc) considerado pelo software. Na opção de Token Definition dentro de “Global Settings” você pode definir quais caracteres/símbolos o AntConc vai considerar quando contar e processar seus dados. 

As configurações padrão são as seguintes:

Mas, quando trabalhos como dados de mídia social, há alguns caracteres especiais usados por usuários das plataformas que representam práticas específicas de conversação e afiliação. Dois deles são bem importantes:

O símvolo ‘@’: para usuários do Twitter e outras plataformas, o símbolo é usado para marcar perfis. Então é importante incluir o símbolo ‘@’. Isto vai nos permitir, por exemplo, contar os usuários mais comuns em um corpus ou o contrário: filtrar os usuários para focar nas palavras.

O símbolo ‘#’, por sua vez, é um tipo de marcados de metadados usados na maioria das plataformas para definir hashtags. Você pode adicionar o ‘#’ nas definições de token do AntConc para contar corretamente hashtags.

Recomendado:

Então, nós precismaos ir em Global Settings -> Token Definition, marcar a caixa “Append Following Definition” e incluir os símbolos ‘#’ and ‘@’.

3. Definições de ‘Caractere Coringa’

Um Caractere Coringa (“WildCard”) é um caractere que pode ser substituído por outro caractere, palavra ou símbolo durante uma busca. o AntConc tem vários corignas e podemos ver abaixo as configurações iniciais (Global Settings -> Wildcards).

O problema é que dois destes coringas são atribuídos a símbolos muito importantes nas mídias sociais, ‘@’ e ‘#’, como vimos anteriormente. Isto resulta que o AntConc “ignora” estes dois símbolos nos resultados, pois serão vistos como coringas.

Então recomendamos mudar estes dois coringas para outros símbolos. No exemplo abaixo, mudamos para{ e ‘} .

 

 

Abrindo seu Arquivo ou Corpora

  1. Abrindo seu(s) Arquivo(s)

Para abrir um arquivo ou conjunto de arquivos no AntConc, você só precisa ir em File -> Open File(s)… ou File -> Open Dir.

Através da opção File -> Open File(s) você pode selecionar um ou mais arquivos:

Se você abrir mais de um arquivo, o AntConc vai aplicar suas buscas e análise sem todos ao mesmo tempo:

Isto é muito útil para gerenciar datasets/corpora. Por exemplo: você pode analisar um ano de dados e salvar os textos (comentários, posts, tweets) de cada mês em um arquivo diferente. Ao abrir os 12 de um ano você conseguirá comparar coisas como: contagem de palavras específicas no Concordance Plot ou presença/permanência de clusters/n-grams.

Agora podemos falar sobre contagem de frequência de palavras. Te vejo no próximo post: Lista de Palavras, Frequência de Palavras e Visualização de Arquivos.

Por Humanidades Digitais Negras

As Humanidades Digitais ganharam mais visibilidade nos últimos 20 anos, graças à gradativa expansão do campo em termos de pesquisadores engajados, produção bibliográfica, ferramentas e projetos públicos. Um dos principais destes é a série Debates in the Digital Humanities. O livro, que pode ser lido na versão impressa ou digital interativa, reúne diversas abordagens sobre as humanidades digitais em seções com reflexões sobre sua história e futuros, métodos, práticas, disciplinas e críticas, com um foco bem relevante em text analysis.

O capítulo “Making a Case for the Black Digital Humanities“, Kim Galllon busca apresentar reflexões, casos, referências e possibilidades para uma abordagem das digitais humanidades do ponto de vista do campo chamado por ela de forma resumida de Black Studies (incluindo a linha de Africana/African American studies). Recomendo a leitura do capítulo e da produção de Gallon, que atualmente é Professora de História na Purdue University, mas aqui vou enfatizar alguns pontos do excelente texto.

Para Gallon, “os black studies tem sido entendidos como estudos comparativos das experiências culturais e sociais negras sob sistemas eurocêntricos de poder nos Estados Unidos, na diáspora Africana mais ampla e no continente africano”.

Um dos principais pontos é a percepção de Gallon sobre a pesquisa dos black studies nas humanidades digitais como um tipo de “tecnologia de recuperação(technology of recovery). As “humanidades digitais negras ajudam a desmascarar os sistemas racializados de poder em jogo quando entendemos as humanidades digitais como um campo e utilizamos suas técnicas associadas”. As tecnologias de recuperação são os esforços de grupos minorizados/marginalizados em usar plataformas e ferramentas digitais tanto para resgatar história e literatura não-registrada, apagada, invisibilizada ou intencionalmente destruída quanto para recuperar a humanidade das pessoas negras em um sistema de racialização global.

Gallon cita o papel do Digital Schomburg, um dos primeiros grandes projetos de digitalização de história afro-americana, reunindo informações, literatura e arquivos de fotografias e imagens dos séculos 19 e 20. Abaixo uma das exposições online do centro, com história de nova-iorquinos afro-americanos:

Além do aspecto histórico, Gallon explica como grandes movimentações ativistas online do “Black Twitter” e comunidades negras nas mídias sociais como #SayHerName, #BlackLivesMatter e #ICanBreathe fazem parte de esforço de recuperação também sobre o presente: os ativistas e participantes destes movimentos lembram a si mesmos e o resto da população sobre a disparidade gigantes de indicadores sociais de violência policial, emprego, educação, habitação, saúde e outros.

Em seguida, a autora discorre sobre a saliência de alguns métodos específicos, como a relativa pouca exploração de text analysis sobre literatura negra. Aqui cita o Project on the History of Black Writing, fundado por Maryemma Graham, que realizou eventos e visualizações de análise de literatura assistida por computador.

Seguindo no debate sobre o caráter das humanidades digitais negras, Gallon cita Johanna Drucker e sua defesa de “usar e construir ferramentas e infraestrutura embebidas de teoria humanística de modo que funcionem de modos que reflitam os valores das humanidades”. Isto sigficaria, então, para Gallon, que

As humanidades digitais negras então apresentam o digital como hospedeiro mútuo tanto de racismo quanto de resistência e jogam luz sobre o papel da raça como uma metalinguagem que forma o terreno digital, fomentando estruturas hegemônicas que são tanto novas e antigas e replicam e transcendem as análogas

Essa perspectiva pode gerar questões sobre a relação entre racialização da humanidade e o digital como poder, superando a percepção ainda disseminada da “neutralidade” do digital ou tecnologia, nos levando e entender melhor a condição humana.

Kim Gallon não cita no texto o projeto Black Press Research Collective, fundado pela própria. Recomendo a navegação no site e visualização que inclui registros da imprensa afro-americana do início do século XX, visualizações, mapas e gráficos sobre circulação e localização, além de registro de eventos e trabalhos derivados. Uma das visualizações mais interessantes (o mapa abaixo) é a lista de vendedores do jornal The Chicago Defender, que ajudava negros do Sul com informação sobre como se defender e migrar para sobreviver. Os dados foram retirados de base de dados do FBI, que vigia(va) qualquer iniciativa de auto-defesa dos negros americanos:

Esta resenha foi motivada pelo workshop AfricanaDHi e faz parte da bibliografia do evento.

Text Analysis with AntConc for social media data: Keyword Lists and Keyness

The Keyword List tool measures which words are unusually frequent or infrequent in datasets or corpora compared to a reference/benchmark word list (or files).

This post is part of a series of tutorials about AntConC:

  1. Intro, Opening a File and Settings
  2. Word Lists and File Viewer 
  3. Concordancer and Concordance Plot 
  4. Clusters and N-Grams
  5. Collocations 
  6. Keyword Lists

 

Uploading a Keyword List and analyzing keywords / keyness metric
1. As usual, the first step is to open your files/corpora and produce a word list. For that example, we are going to use the file with 16k tweets containing the term “Brazil’ (download it): .

2. Generate the word list through the Word List tab.

 

3. Basically, the Keyword List tool compares your files/corpora to one or more reference/benchmark files/corpora to highlight which words are more unusually frequent or infrequent. Or, in other words, which words are keywords in file(s)/corpora.

There are three main ways of using the Keyword List tool:

  • Compare your file(s) to a general corpus representing a national language. Here you can use a reference word list produced from texts representing a national language.
  • Comparing your file(s) to past texts or wordlists. This option could be appropriate for social media data, specially to discover new info. For example, you can compare recent texts to past corpora comprising 12-month period.
  • Comparing texts produced by different social media communities or texts reacting to different authors/pages (e.g. Facebook comments in different periods).

4. For the sake of simplicity, we’ll a comparison with the pre-produced corpus called BNC wordlist. To use it, download the wordlist from our wordlist folder (or from the BNC website), click in Use word list(s) and click in Add Files to add the BNC_WRITTEN_wordlist.txt . Click in Load then, Apply.

 

5. Now you can discover which terms/words in your dataset are the most “important” in the sense they are frequent or infrequent in a unusual amount.

Most unusually frequent words (positive Keyness):

 

Unusually infrequent words (negative Keyness). Bear in mind that we’are analyzing Twitter data, so the presence of some terms like however or although could be related to tweet formats and limitations:

 

So, this posts concludes our series on AntConc. To learn more about AntConc, text analysis and corpus linguistics:

Text Analysis with AntConc for social media data: Collocations

Collocations refers to how words occur regularly together in the texts/corpora. Searching for colocates related to a specific term could point to other words and expressions important in the documents.

This post is part of a series of tutorials:

  1. Intro, Opening a File and Settings
  2. Word Lists and File Viewer 
  3. Concordancer and Concordance Plot 
  4. Clusters and N-Grams
  5. Collocations (we are here)
  6. Keyword Lists (soon)

 

Exploring Collocation

1. As usual, open a file or set of files (don’t forget to configure the settings). In this tutorial, we are going to use the file plastic_19k_tweets_june_2018.txt available in our datasets folder.

2. Generate a Word List.

3. Go to the tab Collocates and search for a term like ‘plastic’. The following list ranks the more relevant collocates:

As you can see, most of the collocates are related to “plastic surgery”, not the material plastic.

 

4. A frequent problem is the listing of words which appears only one or few times in the file(s). So you can increase the Minimum Collocate Frequency:

 

5. The words will be searched in a Window Span to count the co-occurrences in the vicinity of the search term. You can increase or decrease the span on the left and on the right of the search term.

 

6. Since Twitter texts are very short, we recommend decrease the span. The results might be more precise, as in the following example:

With these results, you can explore the collocates to try to understand and locate meaningul words related to your keywords of interest.