Text Analysis with AntConc for social media data: Word Lists, Word Frequencies and File View

In the last post, we learn the basics about AntConc. Now we are going to show you how to use AntConc to generate word lists (and frequencies) and the useful File Viewer.

Don’t forget that this post is part of a series of tutorials:

  1. Intro, Opening a File and Settings
  2. Word Lists and File Viewer (we are here)
  3. Concordancer and Concordance Plot
  4. Clusters and N-Grams (soon)
  5. Collocations (soon)

 

AntConc functions are accessed through the seven tabs below:

In that basic tutorial, we are going to follow the steps to produce simple word lists.

Remember to open your file and import the recommended settings for social media research [tutorial].

Generating and navigating in a simple Word List

  1. Open your file(s). In the examples below I’m going to use a dataset with 16k tweets in english containing the word ‘brazil’ (collected through Netlytic). Download the file brazil_tweets_16732tweets_2017_11_30.txt in our folder.

 

2. In the Word List tab, click on Start and wait a few seconds 

3. Now you can explore and navigate the data, scrolling down to find meaningful words, sort by Frequency, Word (alphabetical order) or Word end.

4. You can search for a term on the box at the bottom and click on the button “Search Only”:

 

5. If you click on any word, you’ll be directed to the Concordance tab. You can also read a tutorial on the Concordance tool (soon)

 

6. And if you click in any word on the Concordance tool, you’ll be directed to the File View tool. It functions like a simple text reader, where you can see the full corpora.

 

7. To export the list, just go back to the Word List tab and click on File -> Save Output.

 

8. The output is a .txt file that looks like this:

9. Then you can open or copy-paste the output in a spreadsheet software like Excel or Libreoffice to further analyses.

 

 

Filtering out stopwords

Stopwords are words that you don’t want to count or visualize. Usually, they are the most common words without semantic or topical relevance for your research problem (such as articles, pronouns and some adverbs).

 

  1. First, you need a stopword list! You can produce or edit a list yourself, but let’s start with an example list. You can download it on the lists folder.

 

2. To upload a stopwords lists from a .txt file, go to Tool Preferences -> Word List. There you’ll see the option “Use a stoplist below” in the “Word List Range” section. Click on Open and select your .txt file.

 

If you have done it right, the words will show in the box:

 

Now you just click on “Apply”!

  1. Go back to the Word List tab and click again the button “Start”. Compare the two word lists below. The first one was the original word list and the second one is the list with stopwords filtered out:

 

 

Counting specific words

Other useful Word List option is to count only specific words that you already know or that you just discovered in your corpora/datasets. Follow the steps below:

1. Firstly, you’ll need a word list. In our case, we are going to upload a list of words of brazilian soccer teams like that below:

 

2. Go to Tool Preferences -> Word Lists and open the Words from the file (download it in the lists folder). Click on “Use specific words below” and Apply.

 

3. Go to the Word List tab and click on ‘Start’ to generate the list again. The result will be a list of only the desired words:

 

4. Exporting that list (through File -> Save Output) and you can produce a Treemap like that visualization below with RAW Graphs:

 

 

Counting Lemma Word Forms

This is a optional step, if you want to aggregate the inflected forms of a word. For example, the verb talk may appear as talking, talks, talking and so on. Lemmatization aggregates those inflected forms to talk.

On social media data, this is important to investigate variations of a same root meaning, such as autism, autistic, “autist” related to a search query for vaccines for example.

 

Steps:

  1. In AntConc, the first thing you’ll need is a lemma list. You can download it directly from the AntConc website or in our wordlists folder. The file will look like this:

 

That means you can add or remove lines of lemma correspondences. As you can see above, that list doesn’t include the word autism. We could add the following line:

autism -> autistic, autistically, autist

(even though the word ‘autist’ doesn’t exists, it could be added because it is a common error between portuguese speakers, for example)

 

2. To add a Lemma List you just need go to Tool Preferences -> Word List and click Load on Lemma List options.

 

After you selected your file, AntConc will show you a preview. Click in “OK” and then “Apply”:

 

3. Now you can go back to the Word List tab and generate your list again. As you can see below, now AntConc counts Lemma Types and Lemma Tokens instead of Word Types and Word Tokens:

Lemmatization can greatly improve the preciseness of some claims about your corpora.

We hope Word lists, Word Frequencies, Filtering Stop Words and Lemmatization techniques will help you to explore and analyze your social media datasets.

 

The next AntConc tutorial will focus on Concordancer and Concordance Plot (soon)!

Text Analysis with AntConc for social media data: intro, files and settings

Broadly defined, (computational) text analysis is a set of techniques for automated content analysis. Even without the use of complex statistics or computational analysis, social science researchers can improve their data exploration with techniques involving word counting, co-occurrence and collocations.

AntConc is one of the most easy-to-use and useful tools for text analysis and corpus linguistics. It was developed by Laurence Anthony, Professor in the Faculty of Science and Engineering at Waseda University, Japan. He maintains dozens of tools in his website like TagAnt and FireAnt.

After this intro on AntConc, we are going to see the following posts covering its main functionalities:

  1. Intro, Opening a File and Settings (we are here)
  2. Word Lists and File Viewer
  3. Concordancer and Concordance Plot
  4. Clusters and N-Grams (soon)
  5. Collocations (soon)

 

The following matrix was proposed in the paper Computational text analysis for social science: Model assumptions and complexity and summarizes the possibilities between simple statistics/computation x complex statistics/computation and between weaker and stronger domain assumption. Using Antconc for analyze social media textual data encompasses simple statistics/computation tasks such as word counting and statistics, but can be further applied on dictionary-based word counting by topic experts.

To understand and compare approaches from computer-aided content analysis, computer-aided interpretive textual analysis and corpus linguistics, I recommend the paper Taming textual data: The contribution of corpus linguistics to computer-aided text analysis.

AntConc will allow you to perform the main techniques of corpus linguistics such as Word Frequencies, Collocation, Concordance, N-Grams, Corpora Comparison to any kind of text.

But first things first! Download AntConc and read the following text, which will teach you the basics about the settings and how to open a file.

 

How to collect social media textual data?

There are dozens of social media research tools which allow to extract or monitor textual data on the main platforms. Most of them collect data through keyword/hashtag search and/or from specific pages and websites. The majority of the following tools uses UTF-8 encoding to export files in .csv format. You can open them with Excel or Libreoffice and copy-paste the desired texts to a notepad and save it as a .txt file.

Repositories/curated lists of tools:

If you are entirely new to analyzing social media textual data, I strongly recommend you to try the awesome and user-friendly tool Netlytic and collect some tweets or youtube comments. But don’t worry: I’m going to give you some datasets in the following posts.

 

File Formats

AntConc can read several text formats: .txt, .html, .xml, .ant. The simpler one is the .txt file.

File Format Description
.txt .TXT is the simpler format to store text files. Softwares like Notepad, Notepad++, TextMate, Word and most of the word editing softwares can save your files as .txt.
.html .HTML is the standard format for saving web pages. You can save a webpage and upload it to AntConc.

AntConc has some settings to ignore text between the characters “< and “> used on HTML files.

.xml .XML files: Extensible Markup Language. It is similar to .HTML document, but uses custom tags to define objects and the data within each object. In corpus linguistics/text analysis, it is frequently used to mark each word with word categories in Part-of-Speech Tagging.
.ant .ANT is a file format used by AntConc, interchangeable with txt. It only saves the data on the current screen as an output.

 

  1. Encoding

It is recommended that you save your text files with UTF-8 encoding. A character encoding is a standard on how to process characters and symbols. UTF-8 is defined by the Unicode Standard, which englobes characters used in most Western languages and scripts. Due to that, several data collection tools use UTF-8 encoding as a standard. So, remember to save your files in UTF-8 encoding!

 

Optimal Settings for Social Media Texts

  1. Pre-configured settings

AntConc was not developed just for social media data but, instead, to analyse all sorts of texts, mainly literature, natural language and language corpora. It requires some adjustments on the software settings.

The specifications are listed below, but instead of following each step, you could just import a Settings File with the recommended definitions. Download the file antconc_settings_for_social_media.ant and, on AntConc, go to File -> Import Settings from File…, select and open the file:

 

That’s it! Now AntConc can be more useful for social media analysis. You can skip the following settings description if you have already imported the file.

 

2. Global Settings – Token Definition

In this section, we explain the recommended settings. Remember: you don’t need to follow these steps if you have just uploaded the pre-configured settings file provided above.

Firstly, we configured the token settings. A token is an element (word, character, punctuation, symbol, etc). In the Token Definition Settings, you can define which characters/symbols AntConc will consider when counting and processing your text data.

The default ettings are the following:

Default:

But, when we are working with social media data, there are some special characters used by social media users which represent specific conversation and affiliation practices. Two of them are very important:

The ‘@’ symbol: for Twitter users, the [at] symbol is used to mark user profiles. So, it is important to append the ‘@’ symbol. This will allow us, for example, to count the most mentioned Twitter’s users or the opposite: to filter out the usernames.

The ‘#’ symbol, in its turn, is a type of metadata used on most social media platforms to define hashtags. You need to append ‘#’ in AntConc token definitions to properly count hashtags.

Recommended:

So, we just need to go to Global Settings -> Token Definition, check the box “Append Following Definition” and include the signs ‘#’ and ‘@’.

3. Wildcard definitions

A WildCard is a character that can be substituted by a character, word or symbol during a query. AntConc has seven different wildcards. Below we can see the default settings (Global Settings -> Wildcards).

The problem is that two of these wildcards are attributed to very important signs on social media data: ‘#’ and ‘@’. This result means that AntConc “ignores” these two signs in the results, because they are reserved as wildcards.

So, we recommend to change these two wildcard to other signs. In the example below, we changed them for ‘{ and ‘} .

 

 

Opening your File or Corpora

  1. Opening your File(s)

To open a file or a set of files in AntConc you just need to go to File -> Open File(s)… or File -> Open Dir.

With the option File -> Open File(s) you can select one or more files.

If you open two or more files, AntConc will apply your queries and analyses on all of them at once.

This is very useful for managing datasets/corpora. For example: you could be analysing a year of data and save the texts (comments, posts, tweets) for each month in a different file. Open the 12 files at once allows you to compare things like: countings of specific words in the Concordance Plot; or Range of presence of clusters/n-grams.

 

Now we can talk about counting word frequencies. See you next post: Word Lists, Word Frequencies and File View

Interrogando APIs de Visão Computacional – publicado relatório do #SMARTDataSprint

No final de janeiro aconteceu mais uma edição do SMART Data Sprint, um evento que reúne pesquisadores, programadores e designers para trabalho colaborativo sobre um determinado tema de pesquisa – e bases de dados. Tive a oportunidade de, junto ao Andre Mintz, idealizar o projeto “Interrogating Vision APIs“. Durante quatro dias, Mintz se juntou aos pesquisadores Beatrice Gobbo, Elena Pilipets, Hamdan Azhar, Helen Takamitsu, Janna Joceli Omena e Taís Oliveira para analisar ao mesmo tempo, com métodos digitais, duas perguntas de pesquisa:

a) Quais são as diferenças entre os principais fornecedores de visão computacional?

b) Podemos investigar representações nacionais usando ferramentas de visão computacional?

Para responder estas perguntas, foram processadas mais de 60 mil imagens provenientes de bancos de imagens (Shutterstock, Adobe Stock e Getty Images) para resultados à buscas como “brazilian”, “british”, “indian”, “portuguese” e outros marcadores de nacionalidade em cada um dos recursos de visão computacional citados anteriormente. O time focou em quatro nacionalidades (brasileiros, nigerianos, austríacos e portugueses).

Foram aplicados de modo emergente métodos como text analysis, visualização de redes, descrição densa e cálculos estatísticos para entender as similaridades e diferenças tanto entre os fornecedores de visão computacional quanto entre os diferentes bancos de imagens e nacionalidades representadas.

Como primeiro resultado público do esforço, um extenso relatório que também inclui protocolos de pesquisa (para replicação), detalhes sobre a metodologia, questões de pesquisa, design da pesquisa, descobertas e dicussão foi publicado no site do Inova Media Lab, organizador do evento. Em breve os autores produzirão textos acadêmicos e desdobramentos sobre o estudo, mas gostaria de adiantar – para os lusófonos, um mini-resumo das principais descobertas.

 

Diferenças entre fornecedores de computação visual

As três APIs de computação visual abordadas – desenvolvidas por Google, IBM e Microsoft – apresentam características bem diferentes de etiquetagem que descrevem diferentes ontologias e espaços semânticos. Sobre níveis de detalhes, a API da Google tende a maiores níveis de especificidade; IBM apresenta alguma especificidade mas não tanta quanto a da Google; e a da Microsoft é geralmente muito genérica e possui um escopo limitado de etiquetagem. A imagem abaixo apresenta uma comparação anedótica sobre as abordagens:

 

Redes visuais como ferramentas descritivas úteis à pesquisa social sobre representação

Sites de bancos de imagens representam visualidades com temas recorrentes para os quais as APIs de computação visual são úteis como recursos descritivos, mostrando configurações e padrões emergentes dos temas construídos como típicos para cada grupo – nacionalidade no caso. A visualização abaixo, por exemplo, mostra na rede de labels (etiquetas) como, para cada país, as APIs e a clusterização em rede (no Gephi) permitiu encontrar um padrão recorrente de grupos ligados a: a) natureza; b) comida; e c) pessoas. Para cada país um grande grupo de imagens sobre algum aspecto cultural (ou estereótipo online) esteve também presente: Carnaval para Brasil; Têxtil para Portugal; Cidade e Arquitetura para Áustria; e Dinheiro para Nigéria.

 

Visão computacional e culturas

As APIs de visão computacional apresentaram diferentes níveis de sensibilidade e modos de tratamento de imagens de culturas específicas. Por exemplo, enquanto o Google reconheceu vários itens específicos sobre comida ou instrumentos musicais, a precisão nem sempre foi satisfatória tanto no serviço da Google quanto na dos demais. Em alguns casos, as APIs reproduziram invisibilidades de marcadores culturais de grupos minorizados, possível reforço de relações étnico-raciais hierarquizadas. Na imagem abaixo vemos um dos exemplos nos quais a Google Vision marcou como peruca (“wig”) um cabelo natural:

Há muito mais no relatório que pode ser lido em toda sua extensão em https://smart.inovamedialab.org/smart-2019/project-reports/interrogating-vision-apis/

Debate Público nas Mídias Sociais: uma questão de letramento midiático digital

Por convite da Revista Rumos, publicação da Associação Brasileira de Desenvolvimento, redigi em dezembro pequeno artigo sobre o debate público nas mídias sociais. Está disponível no site da associação e no Issuu (páginas 26 e 27):

8 livros e pesquisadoras sobre tecnologia digital, plataformas, algoritmos e genética

Neste Dia Internacional da Mulher vale notar/celebrar um resultado dos vieses de experiência, expectativas laborais e educação no mundo: as mulheres pesquisadoras estão liderando o debate sobre plataformas e algoritmos digitais e seus impactos na sociedade. Então aproveito a data para celebrar 8 livros publicados nos últimos anos indispensáveis para quem deseja compreender a contemporaneidade:

 

#1 Algorithms of Oppression: How Search Engines Reinforce Racism

Em Algorithms of Oppression: How Search Engines Reinforce Racism (2018), Safiya Noble apresenta pesquisa focada em como plataformas de busca de informação – sobretudo buscadores como Google – reproduzem e reforçam aspectos nocivos da sociedade como o racismo. Através de experimentos, levantamento bibliográfico, histórico e entrevistas, Safiya Noble mostra casos e ações relacionadas à populações minorizadas sobretudo dos EUA, como afro-americanas, latinas, judeus e asiáticos.

Clique na imagem ao lado para ler uma resenha e assista TEDx com Noble em:

 


 

#2 Artificial UnIntelligence: How Computer Misunderstand the World

Em Artificial UnIntelligence: How Computers Misunderstand the World (2018), Meredith Broussard explica os problemas dos sistemas considerados inteligência artificial hoje (como carros autônomos, métricas de plataformas digitais e outros) em três partes: “Como computadores funcionam”, “Quando computadores não funcionam” e “Trabalhando juntos”. Um destaque da publicação é que Broussard apresenta alguns conceitos através de tutoriais no Python acessíveis até para quem nunca escreveu uma linha de código na vida.

Clique na imagem ao lado para ler uma resenha e assista entrevista com Broussard abaixo:


 

#3 The Intersectional Internet: Race, Sex, Class and Culture Online

Intersectional Internet: Race, Sex, Class and Culture Online (2016) é uma coletânea editada por Safiya Noble e Brendesha Tynes. Reúne capítulos de pesquisadoras e pesquisadores estudando questões de raça, gênero e classe na internet tais como: políticas de viralidade e virilidade em masculinidades asiáticas; moderação comercial de conteúdo; análise interseccional de apps de encontros; memes no Instagram e adolescentes negras e outros.

Assista entrevista com Brendesha Tynes abaixo:

Expert Interview with Dr. Brendesha Tynes from The Steve Fund on Vimeo.


 

#4 Twitter and Tear Gas: the power and fragility of networked protest

Zeynep Tufekci é pesquisadora, ativista e jornalista turca. Em Twitter and Tear Gas: the power and fragility of networked protest, Tufekci trouxe em 2017 um outro olhar sobre os ainda festejados protestos impulsionados por plataformas de mídias sociais, como a “Primavera Árabe”. Como a veloz história mostrou, o resultado de movimentos como estes, inclusive no Brasil, foi muito diferente do que os mais empolgados da esquerda previam. Nos últimos 5 anos sobretudo a inocência sobre as mídias sociais ficou de lado em grande medida, mas o livro de Tufekci traz a tecno-sociológico sobre a contemporaneidade que vai além do simplista. O livro está disponível em versão impressa, ebook, audiobook e também um PDF de acesso livre, exigência da autora devido à importância do debate.

Assista palestra da autora em:


#5 Fatal Invention – how science, politics, and big business re-create race in the twenty-first century

Em um mundo supremacista branco, a ciência, política e grandes empresas de tecnologia estão empenhadas em recriar a noção biológica de raça através de sistemas pervasivos de tecnologia como inteligência artificial, reconhecimento de imagens, biometria e testes genéticos. Este é o tema de Fatal Invention – how science, politics, and big business re-create race in the twenty-first century de Dorothy Roberts (2012). O livro revisa conceitos de raça, eugenia, o papel da ciência racial na supremacia branca e trata de manifestações contemporâneas na genética, desenvolvimento de farmacológicos customizados, vigilância genética e outras tecnologias.

Abaixo um vídeo no qual Roberts explica o problema com medicina baseada em “raça”:


#6 The Social Life of DNA: Race, Reparations, and Reconciliation after the Genome

Em The Social Life of DNA: Race, Reparations, and Reconciliation after the Genome (2016),  Alondra Nelson traz um outro olhar ao discutir como a tecnologia de identificação de DNA, sobretudo levantamento de genealogia e origens geográficas da diáspora africana possuem impactos relevantes. Uma vez que os milhões de africanos sequestrados entre os séculos XVI e XIX foram torturados, desumanizados e impedidos de desenvolver sua educação, história e memória, Alondra Nelson mostra como das já numerosas iniciativas de afro-diaspóricos de se reconectar com a África emergem potencial e os benefícios dessa tendência.

Alondra Nelson também é autora de outros livros como Body and Soul: The Black Panther Party and the Fight Against Medical Discrimination (2011), Technicolor: Race, Technology, and Everyday Life (2001) e editora de um número especial de revista Social Text que discutiu afrofuturismo em 2002. Veja entrevista com a autora sobre o tema:

 


#7 A Networked Self and Human Augmentics, Artificial Intelligence, Sentience

Zizi Papacharissi pesquisa comunicação digital há décadas e é responsável por algumas coletâneas mais influentes no campo, como o excelente A Networked Self: Identity, Community, and Culture on Social Network Sites. Em 2018 Papacharissi lançou nada menos que três coletâneas a partir da ideia de networked self: um com recorte sobre nascimento, vida, morte e família; outro sobre plataformas, estórias e conexões; e, por fim, o que destaco sobre inteligência artificial, senciência e augmentics: A Networked Self and Human Augmentics, Artificial Intelligence, Sentience (2018). O livro reúne 14 capítulos sobre aspectos tecnológicos e éticos como direitos de agentes artificiais e impactos da IA no self.

Palestra recente da Papacharissi:

 


#8 Digital Sociologies

Organizado por Jessie Daniels, Karen Gregory e Tressie Mcmillan Cottom, Digital Sociologies (2016) é fruto de conferência sobre as sociologias digitais plurais. Na primeira parte, em 7 capítulos, trata da sociologia digital na vida cotidiana, falando de temas como estudos de comunidades online, análise de discurso digital em pequenos espaços ou gerenciamento de impressões digitais na “economia do compartilhamento. A segunda parte foca em instituições e traz 11 capítulos em torno de desigualdade e instituições, papel dos algoritmos em decisões educacionais, raça e racismo na educação e convergência de audiências online em torno de produtos culturais. A terceira parte traz mais 10 capítulos e é repleta de estudos de caso sobre corpos e corporeidade nas interseções com raça, gênero, classe e sexualidades em ambientes como Twitter, websites, apps de quantified self e tecnologias vestíveis.

Assista palestra de Tressie McMillan Cottom:

 

Quer acompanhar em tempo real o que algumas destas pesquisadoras estão produzindo? Siga lista curada no Twitter!