Análise de Texto com AntConc: introdução, arquivos e configurações

De modo geral, análise de texto computacional é um conjunto de técnicas para análise automatizada de conteúdo. Mesmo sem o uso de estatística complexa ou programação, pesquisadores das ciências sociais e humanidades podem otimizar suas técnicas de exploração de dados com técnicas como contagem de frequência, co-ocorrência e colocações.

AntConc é um dos softwares mais fáceis e úteis para análise textual e linguística de corpus. Foi desenvolvido por Laurence Anthony, Professor na Faculdade de Ciência e Engenharia da Waseda University, Japan. Ele desenvolve e oferece dúzias de ferramentas em seu website, como TagAntFireAnt.

Depois dessa introdução sobre AntConc, vamos cobrir suas principais funcionalidades nos posts a seguir:

  1. Introdução, Abrindo Arquivos e Configurações (estamos aqui)
  2. Lista e Frequência de Palavras
  3. Concordancer e Concordance Plot (em breve)
  4. Clusters e N-Grams (em breve)
  5. Colocações(em breve)

A matriz a seguir foi proposta no artigo Computational text analysis for social science: Model assumptions and complexity e resume as possibilidades entre estatística/computação simples x complexa e entre especialização forte x fraca no domínio. Usar AntConc para analisar dados textuais de mídias sociais engloba tarefas estatísticas simples como contagem de palavras e n-grams, mas pode ser avançada para contagem de termos chave em dicionários criados por especialistas no tema/assunto.

Para entender e comparar abordagens de análise apoiada por computador, análise textual interpretativa apoiada por computador e linguística de corpus, recomendo o artigo Taming textual data: The contribution of corpus linguistics to computer-aided text analysis.

AntConc permite realizar as principais técnicas de linguística de corpus como frequência de palavras (word frequencies), colocações (collocation), concordância (concordance), n-grams e comparação de corpora a qualquer tipo de texto.

Mas vamos começar do início! Baixe a AntConc e leia o texto a seguir, que vai te ensinar o básico sobre as configurações e como abrir um arquivo.

 

Como coletar dados textuais em mídias sociais?

Há dúzias de ferramentas para pesquisa em mídias sociais que permitem extrair ou monitorar dados textuais nas principais plataformas. A maioria delas coleta dados através de keywords/hashtags e/ou de páginas e websites específicos. Geralmente as ferramentas usam codificação UTF-8 para exportar arquivos no formato .csv . Você pode abri-los no Excel ou Libreoffice e copiar-colar os textos para um bloco de notas e salvá-los como um arquivo .txt, um dos formatos preferenciais para o AntConc.

Lista de ferramentas/respositórios:

Se você nunca coletou dados textuais em mídias sociais, recomendo fortemente que comece pela excelente e super fácil de usar Netlytic  e colete alguns tweets ou comentários do YouTube. Mas não se preocupe: vou lhe dar alguns datasets de exemplo nos próximos posts.

 

Formatos de arquivo

AntConc pode ler vários formatos diferentes: .txt, .xml, .html, .ant. O mais simples é o .txt, que você pode criar com um Bloco de Notas.

Formato Descrição
.txt .TXT é o formato mais simples para guardar arquivos. Softwares como Bloco de Notas, Notepad++, TextMate, Word dos editores de texto podem salvar seu arquivo neste formato.
.html .HTML é o padrão para salvar páginas web. Você pode salvar uma pa´gina web e carregá-la direto no AntConc.

AntConc tem algumas configurações que permite ignorar o texto entre os caracteres “<” e “>” usados em arquivos HTML.

.xml .XML: Extensible Markup Language. É similar a um arquivo .HTML, mas usa tags customizadas para definir objetos e dados dentro de cada objeto. Na análise de texto ou linguística de corpus é usada para marcar cada palavra com suas categorias/classes em Etiquetamento de Texto (Part-of-Speech Tagging).
.ant .ANT é um formato específico usado pela AntConc, intercambiável com .txt.

 

  1. Codificação

É recomendável que você salve seus arquivos de texto com a codificação UTF-8. Codificação de caracteres é uma padronização de como o software vai processar caracteres e símbolos. UTF-8 é definido pelo padrão Unicode, que engloba caracteres usados na maioria das línguas e scripts ocidentais. Graças a isto, muitas ferramentas de coleta de dados usam a codificação UTF-8 como padrão. Então lembra de salvar seus arquivos como UTF-8!

 

Configurações óptimas para Textos de Mídia Social

  1. Arquivo pré-configurado

AntConc não foi desenvolvido apenas para dados de mídias sociais mas para todos os tipos de texto, especialmente literatura, linguagem natural e corpora nacionais. Então são necessários alguns ajustes nas configurações.

As especificação serão listadas abaixo, mas ao invés de seguir cada passo, você pode simplesmente importar um Arquivo de Configurações (Settings File) com as opções recomendadas que preparei para você. Baixe o arquivo antconc_settings_for_social_media.ant e, no AntConc, vá em File -> Import Settings from File…, selecione e abra o arquivo:

 

Pronto! Agora o AntConc pode ser mais útil para análise de mídias sociais. Depois disso você pode pular os passos abaixo, mas recomendo ao menos lê-los para entender:

 

2. Configurações Globais (Global Settings) – Token Definition

Nesta seção, vamos explicar as configurações recomendadas. Mas lembre: você não precisa seguir os passos abaixo se você carregou o arquivo de configurações customizadas que mostrei acima.

Primeiro, precisamos configurar as configurações de token. Um token é  um elemento (palavra, caractere, pontuação, símbolo etc) considerado pelo software. Na opção de Token Definition dentro de “Global Settings” você pode definir quais caracteres/símbolos o AntConc vai considerar quando contar e processar seus dados. 

As configurações padrão são as seguintes:

Mas, quando trabalhos como dados de mídia social, há alguns caracteres especiais usados por usuários das plataformas que representam práticas específicas de conversação e afiliação. Dois deles são bem importantes:

O símvolo ‘@’: para usuários do Twitter e outras plataformas, o símbolo é usado para marcar perfis. Então é importante incluir o símbolo ‘@’. Isto vai nos permitir, por exemplo, contar os usuários mais comuns em um corpus ou o contrário: filtrar os usuários para focar nas palavras.

O símbolo ‘#’, por sua vez, é um tipo de marcados de metadados usados na maioria das plataformas para definir hashtags. Você pode adicionar o ‘#’ nas definições de token do AntConc para contar corretamente hashtags.

Recomendado:

Então, nós precismaos ir em Global Settings -> Token Definition, marcar a caixa “Append Following Definition” e incluir os símbolos ‘#’ and ‘@’.

3. Definições de ‘Caractere Coringa’

Um Caractere Coringa (“WildCard”) é um caractere que pode ser substituído por outro caractere, palavra ou símbolo durante uma busca. o AntConc tem vários corignas e podemos ver abaixo as configurações iniciais (Global Settings -> Wildcards).

O problema é que dois destes coringas são atribuídos a símbolos muito importantes nas mídias sociais, ‘@’ e ‘#’, como vimos anteriormente. Isto resulta que o AntConc “ignora” estes dois símbolos nos resultados, pois serão vistos como coringas.

Então recomendamos mudar estes dois coringas para outros símbolos. No exemplo abaixo, mudamos para{ e ‘} .

 

 

Abrindo seu Arquivo ou Corpora

  1. Abrindo seu(s) Arquivo(s)

Para abrir um arquivo ou conjunto de arquivos no AntConc, você só precisa ir em File -> Open File(s)… ou File -> Open Dir.

Através da opção File -> Open File(s) você pode selecionar um ou mais arquivos:

Se você abrir mais de um arquivo, o AntConc vai aplicar suas buscas e análise sem todos ao mesmo tempo:

Isto é muito útil para gerenciar datasets/corpora. Por exemplo: você pode analisar um ano de dados e salvar os textos (comentários, posts, tweets) de cada mês em um arquivo diferente. Ao abrir os 12 de um ano você conseguirá comparar coisas como: contagem de palavras específicas no Concordance Plot ou presença/permanência de clusters/n-grams.

Agora podemos falar sobre contagem de frequência de palavras. Te vejo no próximo post: Lista de Palavras, Frequência de Palavras e Visualização de Arquivos.

Um comentário sobre “Análise de Texto com AntConc: introdução, arquivos e configurações

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *