Você sabe o que são data brokers? Quem te classifica e define seus escores de crédito?

Você sabe o que é um data broker? É basicamente uma empresa que coleta, armazena, processa, “enriquece” (com mais variáveis e classificações) dados e os vende para diversos fins. No campo financeiro há empresas como Serasa, Experian e afins que desenvolvem produtos para apoiar empresas de marketing e do mercado financeiro. Um deles é o Serasa Score, que define oportunidades de vida para a população brasileira, com impactos mais intensos em populações já vulnerabilizadas.

Curiosamente, o tema é pouco discutido na literatura acadêmica, inclusive a brasileira. Pensando nisto, a pesquisadora Laudelina L. Pereira desenvolveu trabalho sobre o tema em sua especialização (que pude orientar) e segue expandindo o estudo sobre tecnologias similares. Um dos resultados decorrentes desta primeira fase do estudo foi o nosso artigo Classificação Geodemográfica e a Assimetria na Dataficação de Crédito.  Resumo:

O mercado de compra e venda de dados pessoais tem papel de destaque na economia informacional. Diante do alto volume de informações pessoais, ferramentas de segmentação despertam cada vez mais interesse das organizações, já que por meio de tecnologias de big data, constroem perfis apurados da população. Para compreender as características deste tipo de classificação, analisamos a ferramenta de classificação geodemográfica Mosaic em contraposição a uma de suas aplicações na ponta do consumidor: o Score Serasa. O Mosaic classifica a população brasileira com base no seu poder de consumo em 11 categorias e 40 segmentos. Este método de categorização considera aspectos financeiros, geográficos, demográficos, de consumo, comportamento e estilo de vida. Por sua vez, o Serasa Score é ferramenta compulsória para algumas classes de cidadãos, que precisam entrar no jogo da otimização contínua de seus índices. O estudo analisa a opacidade dos sistemas e assimetrias da classificação geodemográfica.

O artigo foi publicado em dossiê sobre sociologia digital da revista Inter-Legere, da UFRN. Acesse em:

 

Teoria Racial Crítica e Comunicação Digital?

Prof. Derrick Bell

A Teoria Racial Crítica é um framework teórico-metodológico proposto inicialmente por pesquisadores do Direito para combater a aplicação racista da legislação. A Teoria Racial Crítica (TRC) transpôs as fronteiras do Direito e tem sido aplicada em diversos países afrodiaspóricos à Educação, Sociologia e outras áreas como a Comunicação, mas ainda tangencial nesta última. Entretanto, há uma geração de pesquisadores que tem provado que a perspectiva da Teoria Racial Crítica fornece lentes apropriadas para superar o que eu chamo de dupla opacidade – “o modo pelo qual os discursos hegemônicos invisibilizam tanto os aspectos sociais da tecnologia quanto os debates sobre a primazia de questões raciais nas diversas esferas da sociedade – incluindo a tecnologia, recursivamente“.

Com o objetivo de colaborar para as conexões deste framework teórico, publiquei no Intercom 2019 o artigo “Teoria Racial Crítica e Comunicação Digital: conexões contra a a dupla opacidade“. O trabalho apresenta a Teoria Racial Crítica e discute do ponto de vista da comunicação digital e de casos de racismo algorítmico seis pilares definidores da TRC:

a) a ordinariedade do racismo;

b) construção social da raça;

c) interseccionalidade e anti-essencialismo;

d) reconhecimento do conhecimento experiencial;

e) agência no combate efetivo da opressão racial;

f) e a interdisciplinaridade

 

Você pode ler o artigo completo já no ResearchGate e em breve será publicada uma versão expandida como capítulo no livro “Fluxos em redes sociais sociotécnicas: das micro-narrativas ao big data

O racismo por trás dos filtros do FaceApp e de outras tecnologias

Na última semana tive o prazer de conversar com a jornalista Beatriz Sans, do R7, sobre o caso recente da controvérsia em torno do FaceApp. A jornalista escreveu matéria muito interessante sobre o aplicativo e citou outros casos que tenho mapeados na Timeline. Você pode clicar abaixo para ver a reportagem e colo, em seguida, a íntegra das minhas respostas:

Por que o FaceApp pode ser considerado racista?

Em 2017 o FaceApp viralizou pela primeira vez e jornalistas e ativistas ingleses identificaram como o aplicativo tinha um filtro chamado “Hot”, que deixaria as selfies mais atraentes, que embranqueceu rostos de todos usuários, inclusive de usuários negros e indianos de forma aberrante.

Na pesquisa desenvolvo o conceito de “racismo algorítmico” para tratar de como sistemas e práticas racistas se manifestam em aplicativos e agentes artificiais. Em minha tese mapeio dezenas de casos explícitos como o do FaceApp, mas mais do que apontar um aplicativo ou outro, é importante entender como a desigualdade resultante de séculos de exploração, ainda vigentes, se desdobra também em tecnologias do cotidiano.

 

Quais são as preocupações que o usuário precisa ter ao usar esses aplicativos? De que forma essas imagens podem ser utilizadas no futuro? Quais são os principais problemas com o reconhecimento facial?

Eu defendo que as pessoas sejam cautelosas com procedimentos e aplicativos de processamento automático de conteúdo e inteligência artificial. Individualmente podem ter impactos negativos pontuais: no caso do FaceApp, insultos à estética e beleza não-europeia, por exemplo. Mas de modo mais amplo alguns destes aplicativos somam informações para o treinamento de sistemas de aprendizado de máquina que, posteriormente, podem ter desdobramentos nocivos.

O mais recorrente deles é o uso desses dados coletivos para sistemas de reconhecimento facial que ajudem projetos opressivos em países autoritários ou em declínio democrático. Por exemplo, nos EUA funcionários da Amazon estão protestando e tentando impedir que a empresa trabalhe para órgãos como o ICE que documenta e persegue imigrantes no país.

Outro uso em crescimento é a construção dos chamados deep fakes, que são simulações de fotografias e vídeos de pessoas que não existem ou de pessoas reais, mas em situações falsas. Podem e são usados para projetos de desinformação que se multiplicam em torno do mundo em controvérsias políticas.

Mesmo o reconhecimento facial para fins de identificação cotidiana em contextos democráticos e justos é criticado em torno do mundo. Muitos juristas e ativistas defendem que o uso de reconhecimento facial como tecnologia biométrica não deveria ser disseminado. Mas, ao contrário, já está sendo usado por polícias de todo o mundo – e de forma desastrosa.

Em estudo recente, se descobriu que 81% dos casos de reconhecimento de suspeitos na região de Londres foram errados. No Brasil algumas cidades estão usando o recurso e já há casos de erros documentados no Rio de Janeiro. Estas tecnologias não deveriam ser implementadas sem amplo debate com a sociedade e organizações de direitos civis.

 

Como o racismo algorítmico impacta em outras áreas da tecnologia?

Há casos documentados não só na comunicação e em plataformas de mídias sociais, mas em diversas áreas. Diversos sistemas de inteligência artificial para recrutamento já foram analisados como falhos neste sentido e um dos casos recentes mais chocantes foi da inovação na indústria automotiva.  Pesquisadores da George Institute of Technology mostraram que alguns sistemas de visão computacional usados em carros autônomos em desenvolvimento identificariam pedestres negros com menos precisão. Ou seja, literalmente teriam mais chance de ser atropelados se estes carros já estivessem circulando.

 

Como as empresas de tecnologia colaboram para a continuação do racismo?

Há três modos principais que são parte causa e parte consequência. O mais simples é no próprio viés de contratação de desenvolvedores, engenheiros e gerentes de produto em empresas de tecnologia de mídias sociais e/ou inteligência artificial. Dados do relatório EEO-1 Comissão Governamental de Igualdade no Emprego dos EUA mostram que os profissionais do Vale do Silício não representam a multiplicidade da população americana. Isto tem impactos nas plataformas e dispositivos pois, em consequência, abarcarão menos a diversidade de usos e usuários.

O segundo é a questão da omissão, em parte, resultante do primeiro motivo. Boa parte das manifestações de racismo algorítmico documentadas nos últimos anos se tratou de sistemas que intensificam procedimentos racistas por terem sido treinados com bases de dados criadas por sistemas enviesados, com pouca representatividade racial e cultural. Mas a omissão também é um problema relevante, uma vez que nem sequer foram testados corretamente antes de ir ao ar alguns sistemas problemáticos.

Por fim, um grande desafio é que o próprio modelo de negócio dessas empresas promove a ideia de que “tecnologias são neutras” quando não o são. Nos EUA há trabalhos fantásticos de auditoria e análise dessas plataformas por pesquisadoras de universidade de ponta, como Joy Buolamwini, Safiya Noble e Ruha Benjamim. Entretanto, criar sistemas efetivamente justos gera mais custos – então as plataformas defendem que são “apenas tecnologia” e não sistemas de mídia, com responsabilidade constitucional como tais.

 

Quais medidas podem ser tomadas para que as minorias não sofram com o racismo algorítmico?

A primeira medida, e mais importante, é compreender que a concentração midiática em poucas plataformas, sobretudo de empresas de tecnologia advindas dos países de sempre, não é positiva. Uma internet plural e diversa em tecnologias, sites e ambientes remedia os potenciais nocivos dessa concentração atual.

Além disso, tecnologias e ambientes digitais do tipo devem ser regulados pela sociedade, através de representantes em instituições civis, casas legislativas e órgãos governamentais. Sociedades saudáveis e democráticas olham para a inovação e tecnologia de forma responsável, buscando o bem comum.

Por fim, a ideia de “literacia midiática e algorítmica” busca promover o conhecimento sobre como mídias e tecnologias são consumidas e produzidas. Idealmente toda a sociedade deveria entender e poder analisar as tecnologias de uma forma crítica, não apenas pesquisadores acadêmicos e jornalistas especializados. Para democracias saudáveis no futuro, é indispensável que este tipo de reflexão esteja inclusa também no ensino básico.

 

Você pode citar outros exemplos de racismo algorítmico?

Gostaria de destacar dois deles. Em 2016, grupos americanos descobriram que o Facebook possui uma opção que permite excluir afro-americanos e asiático-americanos de anúncios em sua plataforma, inclusive pra categorias como habitação. Ao mesmo tempo, não permitia excluir caucasianos. O mais grave é que infringia claramente o chamado Fair Housing Act, criado nos anos 1960 para evitar discriminação racial na compra, aluguel e venda de imóveis nos EUA. O recurso ilegal ficou anos no ar, prejudicando a equidade no mercado imobiliário.

Talvez o caso mais famoso e grave, da área da justiça, foi o do COMPAS. O sistema tem um recurso de análise de probabilidade de reincidência que dá um escore de possibilidade preditiva de ex-infratores cometerem novos delitos. Foi descoberto que as recomendações eram enviesadas negativamente contra negros e suavizavam contra brancos. Ou seja, o COMPAS destruiu famílias ao encarcerar por mais tempo injustamente pessoas que cometeram pequenos delitos (como furto) simplesmente por serem negras.

 

Há alguma forma segura para pessoas negras e outras minorias que desejam participar das redes sociais e outros apps sem que sua privacidade seja violada?

No atual ecossistema midiático extremamente concentrado a resposta pode ser um simples “não”. Ou ao menos não com nomes, imagens e identidades reais. Mas ainda mais importante do que preservar a privacidade nestes ambientes, precisamos incentivar o uso múltiplo da internet. Websites pessoais, blogs, fóruns alternativos, wikis e sites de redes sociais locais e segmentados podem ajudar a reduzir a dependência das mesmas velhas mídias sociais.

Revistas acadêmicas africanas: onde encontrar?

Quantas revistas acadêmicas editadas em países africanos você já leu? O African Journals Online é uma iniciativa não-governamental criada em 1998 na África do Sul com o objetivo de otimizar a circulação da produção africana em vários campos e disciplinas.

Nas palavras dos editores do projeto, “Do mesmo modo que recursos acadêmicos online do Norte Global estão disponíveis para a África, há a necessidade de disponibilizar informação da África. Importantes áreas de pesquisa na África não são cobertas de forma adequada pelo restante do mundo. Países africanos precisam coletivamente exercer um papel no ambiente global de publicação acadêmica. Pesquisadores africanos também precisam acessar as publicações acadêmicas de seu próprio continente.”

African Journals Online

Atualmente indexa revistas de 32 países, com destaque para os que possuem inglês ou francês como línguas oficiais. Lideram em número Nigeria (222 publicações), África do Sul (96), Etiópia (30), Quênia (29) e Gana (27).  Somam mais de 500 revistas, sendo quase metade de acesso aberto. Lembre que o horror colonial fez com que a maioria desses países tenham línguas oficiais advindas de países europeus, então se você lê em inglês, francês ou português poderá se conectar a bibliografia africana com quase tanta facilidade com o que faz com materiais dos EUA ou Reino Unido. Paradoxalmente, o inglês pode ser uma ferramenta decolonial para que nos conectemos a pesquisadores de parte dos países da África.

Alguns exemplos de artigos relevantes para o público desse blog: Participation in online activation (#) campaigns: A look at the drivers in an African setting – publicado no Legon Journal of Humanities (Gana); Collaborative Networks as a Mechanism for Strengthening Competitiveness, publicado no Journal of Language, Technology & Entrepreneurship in Africa (Quênia); Protest movements and social media: Morocco’s February 20 movement, publicado no Africa Development (Senegal); Social Media: An Emerging Conundrum?, publicado no AFRREV IJAH: An International Journal of Arts and Humanities (Etiópia).

Conheça o site em www.ajol.info

Análise de Texto com AntConc: Frequência e Lista de Palavras

No últim opost, aprendemos o básico sobre AntConc. Agora vamos te mostrar como usar AntConc para gerar listas e frequência de palavras, além do útil File Viewer (Visualizador de Arquivos).

Não esqueça que

  1. Introdução e Configurações
  2. Lista, Frequência de Palavras e Visualizador (estamos aqui)
  3. Concordancer e Plotagem de ConcordÇancia  (em breve)
  4. Clusters e N-Grams (em breve)
  5. Colocações (em breve)

 

As funções do AntConc são acessadas através das sete abas abaixo:

Neste tutoria, vamos seguir os passos para produzir listas de palavras.

Lembre de abrir seu arquivo e importar as configurações recomendadas para pesquisa em mídia social [tutorial].

Gerando e navegando em uma Lista de Palavras

  1. Abra seu arquivo. Nos exemplos abaixo vou usar um dataset com 16 mil tweets em inglês contendo a palavra “brazil” (coletados através do Netlytic). Baixe o arquivo brazil_tweets_16732tweets_2017_11_30.txt em nossa pasta.

 

2. Na aba Word List,clique em Start e eespere alguns segundos:

3. Agora você pode explorar e navegar nos seus dados, descendo a barra de rolagem para encontrar palavras relevantes, organizar por Frequência (Frequency), Palavras (ordem alfabética) ou final da palavra (Word end).

4. Você pode buscar um termo específico na caixa de “Search Term” e clicar na busca “Search Only”:

 

5. Se você clicar em qualquer palavra, será direcionado para a aba Concordance. Em breve você poderá ler um tutorial aqui sobre a ferramenta.

 

6. Se clicar em qualquer palavra na ferramente de Concordance, será direcionado para a File View, onde poderá visualizar o termo/palavra. Funciona como um leitor simples de texto, onde você poderá ver o corpus/corpora completo.

 

7. Para exportar a lista, basta ir na aba Word List e clicar em File -> Save Output.

 

8. O resultado é um arquivo .txt similar a este:

9. Você pode abrir ou copiar-colar o resultado em um software de planilhas como Excel ou LibreOffice para outras análises:

 

 

Filtrando stopwords

Stopwords são palavras que você não quer contar ou visualizar. Geralmente, são as palavras mais comuns sem relevância semântica ou tópica para o seu problema de pesquisa (como artigos, pronomes e alguns advérbios).

 

  1. Primeiro, você vai precisar de uma lista pronta de stopwords. Você pode produzir ou editar uma lista você mesmo, mas vamos começar com um exemplo simples. Você pode baixar uma lista de stopwords em inglês na nossa pasta de listas:

 

2. Para carregar uma lista de stopwords a partir de um arquivo .txt vá em Tool Preferences -> Word List. Lá você verá a opção“Use a stoplist below” na seção “Word List Range”. Clique em Open e selecione seu arquivo .txt :

 

Se você fez corretamente, as palavras aparecerão na caixa:

 

Agora é só clicar em “Apply”!

  1. Volte para a aba Word List e clique no botão “Start”. Compare as duas listas abaixo. A primeira foi a lista original e a segunda é a lista com as stopwords filtradas:

 

 

Contando palavras específicas

Outra opção muito útil da Word List é contar apenas palavras específicas que você já conhecia ou descobriu como relevantes nos seus datasets/corpora. Siga os passos abaixo:

1. Primeiro, você precisa de uma lista de palavras. No nosso caso, vamos subir uma lista de palavras sobre times brasileiros. Baixe ela na pasta de listas.

 

2. Vá em Tool Preferences -> Word Lists e clique em “Add Words From File” para carregar o arquivo. Clique em “Use specific words below” e Apply:

 

3. Agora vá na aba Word List e clique ‘Start’ para gerar a lista novamente. O resultado vai ser uma lista apenas da palavras desejadas:

 

4. Exportar uma lista destas (através de File -> Save Output) permite que você use a contagem em outras ferramentas como a RAW Graphs para gerar visualizações como um Treemap:

 

É isto por agora! Espero que as funcionalidades acima te ajudem a explorar seus dados textuais extraídos de mídias sociais. O próximo tutorial vai focar no Concordancer e Concordance Plot (em breve)!