Sistemas de inteligência artificial são totalmente dependentes dos conjuntos de dados (datasets) usados para treiná-los. Escolhas ruins de datasets para aprendizado de máquina (machine learning) são responsáveis por resultados ruins e perigosos nas áreas mais variadas: mecanismos de buscas, reconhecimento de imagens, vigilância preditiva entre outros. Entretanto, há milhares de pesquisadoras em todo o mundo enfrentando este problema.
No artigo em produção Datasheets for Datasets, as pesquisadoras Timnit Gebru, Jamie Morgenstern, Briana Vecchione, Jennifer Wortman Vaughan, Hanna Wallach, Hal Daumé III e Kate Crawford propõe uma “ficha de dados” para documentação de datasets, com questões relevantes a serem documentadas em áreas como: motivos e objetivos para criação; composição; coleta de dados; pre-processamento; distribuição; manutenção; e considerações legais e éticas.
Três outras áreas são evocadas para mostrar a importância e a factibilidade de criar padrões e regulações em novas tecnologias: indústria automotiva; testes clínicos em medicina; e dispositivos elétricos e eletrônicos. Quanto à indústria automotiva, por exemplo, as autoras apresentam histórico sobre regulações como freios, resistência de para-brisas e cintos de segurança, que foram implementados muitas décadas depois da popularização dos automóveis. Vieses e discriminações na construção destas tecnologias foram inúmeros. Apenas em 2011 os EUA obrigaram fabricantes a usar também manequins femininos em testes de acidentes. Na área da saúde, oito de dez medicamentos recolhidos entre 1997 e 2001 tiveram efeitos adversos mais intensos para mulheres. Nas opressões interseccionais, o histórico de práticas racistas na saúde é amplamente conhecido, como na própria invenção da ginecologia.
Além do debate sobre aspectos específicos e barreiras para a adoção das fichas de dados nas práticas de aprendizado de máquina, a publicação também inclui dois exemplos-protótipos de uso da datasheet proposta. Confira a seguir na arXiv: