Por Humanidades Digitais Negras

As Humanidades Digitais ganharam mais visibilidade nos últimos 20 anos, graças à gradativa expansão do campo em termos de pesquisadores engajados, produção bibliográfica, ferramentas e projetos públicos. Um dos principais destes é a série Debates in the Digital Humanities. O livro, que pode ser lido na versão impressa ou digital interativa, reúne diversas abordagens sobre as humanidades digitais em seções com reflexões sobre sua história e futuros, métodos, práticas, disciplinas e críticas, com um foco bem relevante em text analysis.

O capítulo “Making a Case for the Black Digital Humanities“, Kim Galllon busca apresentar reflexões, casos, referências e possibilidades para uma abordagem das digitais humanidades do ponto de vista do campo chamado por ela de forma resumida de Black Studies (incluindo a linha de Africana/African American studies). Recomendo a leitura do capítulo e da produção de Gallon, que atualmente é Professora de História na Purdue University, mas aqui vou enfatizar alguns pontos do excelente texto.

Para Gallon, “os black studies tem sido entendidos como estudos comparativos das experiências culturais e sociais negras sob sistemas eurocêntricos de poder nos Estados Unidos, na diáspora Africana mais ampla e no continente africano”.

Um dos principais pontos é a percepção de Gallon sobre a pesquisa dos black studies nas humanidades digitais como um tipo de “tecnologia de recuperação(technology of recovery). As “humanidades digitais negras ajudam a desmascarar os sistemas racializados de poder em jogo quando entendemos as humanidades digitais como um campo e utilizamos suas técnicas associadas”. As tecnologias de recuperação são os esforços de grupos minorizados/marginalizados em usar plataformas e ferramentas digitais tanto para resgatar história e literatura não-registrada, apagada, invisibilizada ou intencionalmente destruída quanto para recuperar a humanidade das pessoas negras em um sistema de racialização global.

Gallon cita o papel do Digital Schomburg, um dos primeiros grandes projetos de digitalização de história afro-americana, reunindo informações, literatura e arquivos de fotografias e imagens dos séculos 19 e 20. Abaixo uma das exposições online do centro, com história de nova-iorquinos afro-americanos:

Além do aspecto histórico, Gallon explica como grandes movimentações ativistas online do “Black Twitter” e comunidades negras nas mídias sociais como #SayHerName, #BlackLivesMatter e #ICanBreathe fazem parte de esforço de recuperação também sobre o presente: os ativistas e participantes destes movimentos lembram a si mesmos e o resto da população sobre a disparidade gigantes de indicadores sociais de violência policial, emprego, educação, habitação, saúde e outros.

Em seguida, a autora discorre sobre a saliência de alguns métodos específicos, como a relativa pouca exploração de text analysis sobre literatura negra. Aqui cita o Project on the History of Black Writing, fundado por Maryemma Graham, que realizou eventos e visualizações de análise de literatura assistida por computador.

Seguindo no debate sobre o caráter das humanidades digitais negras, Gallon cita Johanna Drucker e sua defesa de “usar e construir ferramentas e infraestrutura embebidas de teoria humanística de modo que funcionem de modos que reflitam os valores das humanidades”. Isto sigficaria, então, para Gallon, que

As humanidades digitais negras então apresentam o digital como hospedeiro mútuo tanto de racismo quanto de resistência e jogam luz sobre o papel da raça como uma metalinguagem que forma o terreno digital, fomentando estruturas hegemônicas que são tanto novas e antigas e replicam e transcendem as análogas

Essa perspectiva pode gerar questões sobre a relação entre racialização da humanidade e o digital como poder, superando a percepção ainda disseminada da “neutralidade” do digital ou tecnologia, nos levando e entender melhor a condição humana.

Kim Gallon não cita no texto o projeto Black Press Research Collective, fundado pela própria. Recomendo a navegação no site e visualização que inclui registros da imprensa afro-americana do início do século XX, visualizações, mapas e gráficos sobre circulação e localização, além de registro de eventos e trabalhos derivados. Uma das visualizações mais interessantes (o mapa abaixo) é a lista de vendedores do jornal The Chicago Defender, que ajudava negros do Sul com informação sobre como se defender e migrar para sobreviver. Os dados foram retirados de base de dados do FBI, que vigia(va) qualquer iniciativa de auto-defesa dos negros americanos:

Esta resenha foi motivada pelo workshop AfricanaDHi e faz parte da bibliografia do evento.

Crises com Bancos de Imagens: autenticidade e visibilidade no conteúdo em mídias sociais

Neste maio (2019), aconteceu o XIII Congresso da Abrapcorp, em São Paulo. Daniele Rodrigues e eu apresentamos trabalho inédito com o título “Bancos de imagens em conteúdo nas mídias sociais: entre (in)visibilidade e autenticidade“. O artigo teve dois objetivos. Em primeiro lugar, enfatizar a relevância dos bancos de imagens na cadeia produtiva da comunicação, uma vez que os bancos de imagens foram objeto relativamente negligenciado nos estudos científicos em língua portuguesa. Internacionalmente, passaram a ser foco de estudo recentemente do ponto de vista de representatividade, como o trabalho Interrogating Vision APIs. Em segundo lugar, o trabalho se dedicou a discutir conceitos como visibilidade, invisibilidade e autenticidade nos bancos de imagens através de uma coleção de anti-cases.

O resumo oficial do trabalho: “O presente artigo busca informações e reflexões sobre um ponto específico da cadeia de produção de conteúdo para mídias sociais: o uso de bancos de imagens na comunicação de marcas. Criados no início no século XX, os bancos de imagens influenciaram os campos da produção editorial, publicitária e midiática como um todo. Nos últimos anos, graças ao modelo de microstock e à disseminação das mídias sociais, os sites de venda ou aluguel de imagens ganham espaço e relevância nas culturas visuais corporativas. O texto apresenta, por meio de levantamento de trabalhos e casos relacionados a bancos de imagens, reflexões sobre aspectos produtivos do uso desses acervos no cotidiano de profissionais e sua relação com o conceito de autenticidade.

Veja apresentação em slideshow sobre o artigo e leia completo no ResearchGate:

Text Analysis with AntConc for social media data: Keyword Lists and Keyness

The Keyword List tool measures which words are unusually frequent or infrequent in datasets or corpora compared to a reference/benchmark word list (or files).

This post is part of a series of tutorials about AntConC:

  1. Intro, Opening a File and Settings
  2. Word Lists and File Viewer 
  3. Concordancer and Concordance Plot 
  4. Clusters and N-Grams
  5. Collocations 
  6. Keyword Lists

 

Uploading a Keyword List and analyzing keywords / keyness metric
1. As usual, the first step is to open your files/corpora and produce a word list. For that example, we are going to use the file with 16k tweets containing the term “Brazil’ (download it): .

2. Generate the word list through the Word List tab.

 

3. Basically, the Keyword List tool compares your files/corpora to one or more reference/benchmark files/corpora to highlight which words are more unusually frequent or infrequent. Or, in other words, which words are keywords in file(s)/corpora.

There are three main ways of using the Keyword List tool:

  • Compare your file(s) to a general corpus representing a national language. Here you can use a reference word list produced from texts representing a national language.
  • Comparing your file(s) to past texts or wordlists. This option could be appropriate for social media data, specially to discover new info. For example, you can compare recent texts to past corpora comprising 12-month period.
  • Comparing texts produced by different social media communities or texts reacting to different authors/pages (e.g. Facebook comments in different periods).

4. For the sake of simplicity, we’ll a comparison with the pre-produced corpus called BNC wordlist. To use it, download the wordlist from our wordlist folder (or from the BNC website), click in Use word list(s) and click in Add Files to add the BNC_WRITTEN_wordlist.txt . Click in Load then, Apply.

 

5. Now you can discover which terms/words in your dataset are the most “important” in the sense they are frequent or infrequent in a unusual amount.

Most unusually frequent words (positive Keyness):

 

Unusually infrequent words (negative Keyness). Bear in mind that we’are analyzing Twitter data, so the presence of some terms like however or although could be related to tweet formats and limitations:

 

So, this posts concludes our series on AntConc. To learn more about AntConc, text analysis and corpus linguistics:

Text Analysis with AntConc for social media data: Collocations

Collocations refers to how words occur regularly together in the texts/corpora. Searching for colocates related to a specific term could point to other words and expressions important in the documents.

This post is part of a series of tutorials:

  1. Intro, Opening a File and Settings
  2. Word Lists and File Viewer 
  3. Concordancer and Concordance Plot 
  4. Clusters and N-Grams
  5. Collocations (we are here)
  6. Keyword Lists (soon)

 

Exploring Collocation

1. As usual, open a file or set of files (don’t forget to configure the settings). In this tutorial, we are going to use the file plastic_19k_tweets_june_2018.txt available in our datasets folder.

2. Generate a Word List.

3. Go to the tab Collocates and search for a term like ‘plastic’. The following list ranks the more relevant collocates:

As you can see, most of the collocates are related to “plastic surgery”, not the material plastic.

 

4. A frequent problem is the listing of words which appears only one or few times in the file(s). So you can increase the Minimum Collocate Frequency:

 

5. The words will be searched in a Window Span to count the co-occurrences in the vicinity of the search term. You can increase or decrease the span on the left and on the right of the search term.

 

6. Since Twitter texts are very short, we recommend decrease the span. The results might be more precise, as in the following example:

With these results, you can explore the collocates to try to understand and locate meaningul words related to your keywords of interest.

Text Analysis with AntConc for social media data: Clusters and N-Grams

In the last post, we learn how to explore and analyze concordances in the software AntConc. Now we are going to show you how to use AntConc to study clusters, n-grams and also how to count hashtags frequency and locate them.

This post is part of a series of tutorials:

  1. Intro, Opening a File and Settings
  2. Word Lists and File Viewer 
  3. Concordancer and Concordance Plot 
  4. Clusters and N-Grams (we are here)
  5. Collocations (soon)
  6. Keyword Lists (soon)

 

Extracting N-Grams from the corpora

N-Grams are a contiguous sequence of items from a text(s). They can be used as a way to analyze phonemes, letters, syllables or words, for example. To our goals, we are going to see the required steps to generate n-grams of words in a given text.

1. Firstly, as usual, you need to open a file and generate a Word List. This time, we are going to use a corpus of  thousand tweets containing the term ‘plastic’. Download a corpus file with 19k tweets.

2. It’s important that you don’t forget to open the customized settings, because we’ll work with #hashtags and @usernames.

3. To use N-Grams, you need to go to the tab Clusters/N-Grams and check the option highlighted on the image:

 

4. Click and Start and here it is the result

 

5. You can change the minimum and maximum values of the N-Gram Size. For example, if you change them to 1 and 3, the result changes and now you can see 1-gram and 3-gram sequences of words:

 

6. To analyze specific clusters of words, you can search for them using the Search Term box.

 

7. Mind the options like Search Term Position. You can search for words before or after your terms. Searching for clusters with size 2 with the term plastic On Right, we get the following result.

 

8. Important: the column Range counts the number of Corpus Files that word or term is present. This number is specially interesting when you are comparing corpora.

 

Counting Hashtags

You can use the Clusters/N-Grams tab to count terms that have some structure, character or word in common. For example: #hashtags and @usernames in some social media platforms.

1. Open your file(s). Don’t forget to configure the settings as explained in the tutorial on files and settings.

2. Generate a Word List.

3. To generate a list of hashtags, for example, you should go in Clusters/N-Grams tab and use the Search Term   ‘ #* ‘ , using 1-1 values in the Cluster Size options.

 

Troubleshooting: counting hashtags didn’t worked? Probably, AntConc is configured with the default settings, where the ‘#’ symbol is a wildcard. Check!