Text Analysis with AntConc for social media data: intro, files and settings

Publicado em 23/04/2019 por Tarcízio Silva

Broadly defined, (computational) text analysis is a set of techniques for automated content analysis. Even without the use of complex statistics or computational analysis, social science researchers can improve their data exploration with techniques involving word counting, co-occurrence and collocations.

AntConc is one of the most easy-to-use and useful tools for text analysis and corpus linguistics. It was developed by Laurence Anthony, Professor in the Faculty of Science and Engineering at Waseda University, Japan. He maintains dozens of tools in his website like TagAnt and FireAnt.

After this intro on AntConc, we are going to see the following posts covering its main functionalities:

Intro, Opening a File and Settings (we are here)
Word Lists and File Viewer
Concordancer and Concordance Plot
Clusters and N-Grams (soon)
Collocations (soon)

The following matrix was proposed in the paper Computational text analysis for social science: Model assumptions and complexity and summarizes the possibilities between simple statistics/computation x complex statistics/computation and between weaker and stronger domain assumption. Using Antconc for analyze social media textual data encompasses simple statistics/computation tasks such as word counting and statistics, but can be further applied on dictionary-based word counting by topic experts.

To understand and compare approaches from computer-aided content analysis, computer-aided interpretive textual analysis and corpus linguistics, I recommend the paper Taming textual data: The contribution of corpus linguistics to computer-aided text analysis.

AntConc will allow you to perform the main techniques of corpus linguistics such as Word Frequencies, Collocation, Concordance, N-Grams, Corpora Comparison to any kind of text.

But first things first! Download AntConc and read the following text, which will teach you the basics about the settings and how to open a file.

How to collect social media textual data?

There are dozens of social media research tools which allow to extract or monitor textual data on the main platforms. Most of them collect data through keyword/hashtag search and/or from specific pages and websites. The majority of the following tools uses UTF-8 encoding to export files in .csv format. You can open them with Excel or Libreoffice and copy-paste the desired texts to a notepad and save it as a .txt file.

Repositories/curated lists of tools:

If you are entirely new to analyzing social media textual data, I strongly recommend you to try the awesome and user-friendly tool Netlytic and collect some tweets or youtube comments. But don’t worry: I’m going to give you some datasets in the following posts.

File Formats

AntConc can read several text formats: .txt, .html, .xml, .ant. The simpler one is the .txt file.

File Format	Description
.txt	.TXT is the simpler format to store text files. Softwares like Notepad, Notepad++, TextMate, Word and most of the word editing softwares can save your files as .txt.
.html	.HTML is the standard format for saving web pages. You can save a webpage and upload it to AntConc. AntConc has some settings to ignore text between the characters “<” and “>” used on HTML files.
.xml	.XML files: Extensible Markup Language. It is similar to .HTML document, but uses custom tags to define objects and the data within each object. In corpus linguistics/text analysis, it is frequently used to mark each word with word categories in Part-of-Speech Tagging.
.ant	.ANT is a file format used by AntConc, interchangeable with txt. It only saves the data on the current screen as an output.

Encoding

It is recommended that you save your text files with UTF-8 encoding. A character encoding is a standard on how to process characters and symbols. UTF-8 is defined by the Unicode Standard, which englobes characters used in most Western languages and scripts. Due to that, several data collection tools use UTF-8 encoding as a standard. So, remember to save your files in UTF-8 encoding!

Optimal Settings for Social Media Texts

Pre-configured settings

AntConc was not developed just for social media data but, instead, to analyse all sorts of texts, mainly literature, natural language and language corpora. It requires some adjustments on the software settings.

The specifications are listed below, but instead of following each step, you could just import a Settings File with the recommended definitions. Download the file antconc_settings_for_social_media.ant and, on AntConc, go to File -> Import Settings from File…, select and open the file:

That’s it! Now AntConc can be more useful for social media analysis. You can skip the following settings description if you have already imported the file.

2. Global Settings – Token Definition

In this section, we explain the recommended settings. Remember: you don’t need to follow these steps if you have just uploaded the pre-configured settings file provided above.

Firstly, we configured the token settings. A token is an element (word, character, punctuation, symbol, etc). In the Token Definition Settings, you can define which characters/symbols AntConc will consider when counting and processing your text data.

The default ettings are the following:

Default:

But, when we are working with social media data, there are some special characters used by social media users which represent specific conversation and affiliation practices. Two of them are very important:

The ‘@’ symbol: for Twitter users, the [at] symbol is used to mark user profiles. So, it is important to append the ‘@’ symbol. This will allow us, for example, to count the most mentioned Twitter’s users or the opposite: to filter out the usernames.

The ‘#’ symbol, in its turn, is a type of metadata used on most social media platforms to define hashtags. You need to append ‘#’ in AntConc token definitions to properly count hashtags.

Recommended:

So, we just need to go to Global Settings -> Token Definition, check the box “Append Following Definition” and include the signs ‘#’ and ‘@’.

3. Wildcard definitions

A WildCard is a character that can be substituted by a character, word or symbol during a query. AntConc has seven different wildcards. Below we can see the default settings (Global Settings -> Wildcards).

The problem is that two of these wildcards are attributed to very important signs on social media data: ‘#’ and ‘@’. This result means that AntConc “ignores” these two signs in the results, because they are reserved as wildcards.

So, we recommend to change these two wildcard to other signs. In the example below, we changed them for ‘{‘ and ‘}’ .

Opening your File or Corpora

Opening your File(s)

To open a file or a set of files in AntConc you just need to go to File -> Open File(s)… or File -> Open Dir.

With the option File -> Open File(s) you can select one or more files.

If you open two or more files, AntConc will apply your queries and analyses on all of them at once.

This is very useful for managing datasets/corpora. For example: you could be analysing a year of data and save the texts (comments, posts, tweets) for each month in a different file. Open the 12 files at once allows you to compare things like: countings of specific words in the Concordance Plot; or Range of presence of clusters/n-grams.

Now we can talk about counting word frequencies. See you next post: Word Lists, Word Frequencies and File View

138 especialistas negras para reportagens e consultas

Publicado em 07/11/2018 por Tarcízio Silva

A jornalista Cecilia Oliveira publicou no excelente Intercept uma lista de 138 profissionais e pesquisadoras negros, para ajudar outros jornalistas a encontrar fontes em áreas diversas. Meu nome consta entre intelectuais como Natália Neris, Bianca Santana, Juarez Xavier, Gabriela Moura, Ale Santos, Wilson Gomes e outros. Veja abaixo:

Formas Contemporâneas de Racismo e Intolerância nas Redes Sociais

Publicado em 26/07/2018 por Tarcízio Silva

O documento Formas Contemporâneas de Racismo e Intolerância nas Redes Sociais foi publicado pelo Dr. Luiz Valério P. Trindade, como um dos resultados de seu doutorado na University of Southampton (Reino Unido). O documento traz informações sobre o racismo nas mídias sociais e recomendações de políticas públicas direcionadas a juventude, autoridades governamentais, legisladores e as próprias empresas de mídias sociais.

Pensando Raça a partir da Teoria da Informação: a diferença que faz diferença

Publicado em 01/07/2018 por Tarcízio Silva

Praticamente qualquer aluno meu já me viu citar a frase “informação é a diferença que faz diferença”. Atribuída ao matemático Gregory Bateson, é um ótimo modo de debater a distinção entre dados e informação antes de chegar aos conceitos da pirâmide DIKW (Data, Information, Knowledge e Wisdom). O que Bateson quis dizer é que informação é uma observação que faz diferença para algum “objetivo” ou em termos de “efeitos” possíveis. Em sala de aula, uso o exemplo das cores das camisas e número de notebooks. As cores das roupas dos alunos podem compor uma “diferença” observável. Posso contar a distribuição das cores. O mesmo acontece com o número de notebooks. Mas, enquanto professor, somente esta segunda diferença “faz diferença” para meus objetivos: a partir do número de notebooks em sala posso planejar melhor as atividades práticas. As cores das roupas não são informação relevante pra mim. Por outro lado, podem se tornar informação em algum exemplo sobre análise cultural e moda (ex: anti-esquerdismo diminuiu o uso de vermelho? cariocas usam mais cores que paulistas?).

É a partir desta famosa frase do Gregory Bateson que o pesquisador Syed Mustafa Ali (Open University) inicia o artigo Race: The Difference that Makes a Difference publicado na tripleC em 2012. O autor busca entender as interseções das disciplinas da Teoria Racial Crítica e da Teoria Crítica da Informação e como elas tem abordado a questão.

Quanto às múltiplas áreas da Teoria da Informação, o autor resgata diferentes abordagens, sobretudo as colaborações do filósofo Luciano Floridi em torno da filosofia da informação, que se debruça sobre tópicos, métodos e teorias do campo para estudar suas definições e colaborações. Mais recentemente, a perspectiva das ciências sociais como o trabalho de Scott Lash e Christian Fuchs (autor também de Social Media: A Critical Introduction) trazem panoramas críticos de classe, gênero e raça mas, segundo Ali, priorizando a primeira a partir de frameworks neo-Marxistas.

A colaboração da Teoria Racial Crítica, então, é essencial para a questão de pesquisa proposta. Depois de citar a crescente re-leitura informada por discurso crítico sobre raça de filósofos pós-Iluminismo a partir do trabalho de Emmanuel Chukwudi Eze nos últimos 20 anos, Ali chega à conclusão de que a perspectiva informacional não tem sido realizada. Quando é realizada, tende a ser de um olhar mais sociológico do que filosófico, em itens como: a) exclusão digital; b) representação e relações de poder em ambientes online; c) o uso de tecnologias digitais para agendas de supremacistas brancos; e d) contribuições africanas e afro-americanas à teoria dos sistemas e cibernética.

Mas qual a colaboração que Teoria dos Sistemas e Teoria da Informação podem trazer ao entendimento sobre raça, racismo e processos de racialização?

A proposta que se aproxima do que o Mustafa Ali procura seria, para o autor, a formulação de racismo oferecida por Fuller Jr.:

“Um sistema de pensamento, discurso e ação operado por pessoas que se classificam como “brancas” e que usam engano, violência e/ou ameaça de violência para subjugar, usar e/ou abusar de pessoas classificadas como “não-brancas” sob condições que promovam a falsidade, injustiça e incorrigibilidade em uma ou mais áreas de atividade, para o fim último de manter, expandir e/ou refinar a prática da supremacia branca (racismo)” (1984, 301)

Na visão de Fuller Jr. racismo equivale a supremacia branca e é um sistema global composto de 9 áreas principais de atividades ou sub-sistemas: economia, educação, entretenimento, trabalho, lei, política, religião, sexo e guerra. Para Ali, a colaboração de Fuller Jr. é uma formulação que é orientada para raça de forma radicalmente alternativa a outros pensadores críticos como Giddens, Bourdieu e Habermas.

Em seguida, as definições de Teoria Racial Crítica e Teoria Crítica da Informação são vinculadas para propor uma abordagem hermenêutica reflexiva sobre raça e informação. Quanto ao termo informação, polissêmico, Ali referencia von Bayer para explicar que informação pode ser vista de forma dual tanto como inform-ação quanto in-formação. No primeiro sentido, se refere à transmissão de significados e no segundo se refere à transmissão de forma, que pode ser configuração, ordem, organização, padrão, estrutura ou relacionamento. Neste sentido, a circulação de alguns padrões de pensamento no mundo pode ser vista como informação, tal como a ideia de hierarquia racial, discriminação e dominação associadas à diferença racial.

Assim, é possível ver raça como sistema e como processo. Como sistema, Ali cita Charles Mills para afirmar que racismo pode e de fato existe em potência puramente estrutural, isto é, em termos de relações de poder incorporadas diferencialmente que não são sempre explicitamente intenacionais então não são dependentes de consciência para a continuidade de sua existência. Assim, a ideia de “contrato racial” proposta por Mills pode ser vista como:

that set of formal or in-formal agreements or meta-agreements (higher-level contracts about contracts, which set the limits of the contract’s validity) between the members of one subset of humans, henceforth designated by (shifting) “racial” (phenotypical/genealogical/cultural) criteria C1, C2, C3… as “white”, and coexten-sive (making due allowance for gender differentiation) with the class of full persons, to categorise the remaining subset of humans as “nonwhite” and of a different and inferior moral status

Barnor Hesse é a referência citada a seguir para falar de raça como processo. Para Ali, mais do que estar correlacionado com a presença (ou ausência) de marcadores materiais no corpo,

“racialization [is] embodied in a series of onto-colonial taxonomies of land, climate, history, bodies, customs, language, all of which became sedimented metonymically, metaphorically, and normatively, as the assembled attributions of race”

Deste modo, a perspectiva consegue dar conta dos processos pelos quais racialização acontece nas interseções com contextos e projetos político-econômicos de poder em cada período, como o acirramento do ódio contra islâmicos nos EUA nos últimos 30 anos. Por fim, o artigo enfatiza a importância dessa aproximação entre as áreas da ciência da informação e da teoria racial crítica para abordar os processos de resgate de argumentos e ideais biológicos do conceito de raça graças a biometria, barateamento de testes genéticos e afins.

Para saber mais sobre o trabalho do Syed Musfata Ali, acompanhe suas páginas na Open University, ResearchGate ou confira a palestra abaixo:

“Georges Perec e o Monitoramento de Mídias Sociais: algumas aproximações e possibilidades” – slideshow

Publicado em 10/09/2017 por Tarcízio Silva

Slideshow apresentado no Congresso da Intercom em setembro de 2017. Acesse o artigo completo em “Georges Perec e o Monitoramento de Mídias Sociais: algumas aproximações e possibilidades”:

Georges Perec e o Monitoramento de Midias sociais from Tarcízio Silva

Tarcízio Silva

Pesquisa, ciência, tecnologia e sociedade, racismo algorítmico

Arquivo da categoria: Pesquisa

138 especialistas negras para reportagens e consultas

Formas Contemporâneas de Racismo e Intolerância nas Redes Sociais

Pensando Raça a partir da Teoria da Informação: a diferença que faz diferença

“Georges Perec e o Monitoramento de Mídias Sociais: algumas aproximações e possibilidades” – slideshow