Blocos de conteúdo principal
Curso: Introdução à análise de dados on-line na pesquisa em Comunicação | ABERTO | | USP Extensão
-
Boas-vindas a você que começa o curso Introdução à Análise de Dados On-Line na Pesquisa em Comunicação. A preocupação central é formar pessoas com interesse em realizar pesquisas na internet.
Há duas formas de oferta. Em turmas de indivíduos matriculados e outra livre, autoinstrucional. Apenas a primeira oferecerá a certificação. A metodologia do curso, baseada na aprendizagem social, enfatiza a interação ativa com o ambiente e com as demais pessoas, de modo a fortalecer o desenvolvimento de uma atitude investigativa.
O curso possui sete módulos, cada um com duas atividades, além de um trabalho conclusivo. Os dois primeiros módulos oferecem um enquadramento geral da discussão. Os quatro módulos seguintes possuem atividades que se voltam aos interesses de cada um. O último módulo discute a questão da ética na pesquisa com dados digitais.
A proposta geral é que você realize reflexões e práticas que o capacitem a entender o papel dos dados digitais numa investigação.
Bons estudos.
Informado por pressupostos da pedagogia social, como a centralidade nos processos educativos do aprender a ser, o curso tem o objetivo de introduzir quem participa em discussões e práticas que envolvem o uso de dados on-line na pesquisa social, particularmente no campo da comunicação. No vídeo acima, é feita uma breve exposição sobre o conteúdo e o desenvolvimento dos trabalhos para a realização do curso. Você pode ver a página com Perguntas Frequentes [FAQ], o Código de Conduta, ter acesso ao PDF com a íntegra do curso e consultar todas as Referências do curso.
-
Módulo 3
Fluxo de trabalho: coleta de dados
-
Objetivos de aprendizagem:
- Conhecer etapas comuns do trabalho com dados em pesquisas sociais
- Reconhecer estratégias para a coleta de dados on-line
- Refletir sobre preocupações relacionadas à coleta de dados
- Aplicar o conhecimento na coleta de algum conjunto de dados (dataset)
-
Trabalho com dados digitais
Ciclo de trabalho com dados
O diagrama com um fluxo, na forma de ciclo, de trabalho com dados em pesquisas científicas é uma exposição sintética e geral de um procedimento que pode diferir. Alguém pode, por exemplo, ter acesso a uma base de dados coletada por outrem e a partir dela gerar uma indagação que demande análises; ou perceber, após ter feito a primeira coleta e análise de dados, que precisará coletar outros. Há casos em que as coletas e análises sugerem a necessidade de mudança no problema de investigação. Nada impede, ainda, que alguém colete dados com fins basicamente exploratórios, como insumo à reflexão e construção de questões de pesquisa posteriormente.
Por outro lado, a figura indica uma cronologia com etapas que se sucedem – com o potencial iterativo mencionado – e na qual, ao fim, o resultado regressa ao ponto de partida. Em outras palavras, as questões de conhecimento que deram início e conduziram o trabalho serão idealmente esclarecidas, em maior ou menor medida, pelo que apurou.
Neste módulo vamos conhecer estratégias para coleta e tratamento dos dados e, no seguinte, algumas possibilidades analíticas.
-
Coleta de dados e amostragem
Os dados coletados terão íntima relação com a amostra (ou conjunto de amostras) escolhida para a pesquisa. A amostra é unidade básica da investigação empírica, composta por grupos, de pessoas ou de outro tipo (como sites ou documentos), a partir dos quais serão obtidas as informações/dados de uma pesquisa.
Uma questão crítica sobre as amostras, apontada por vários autores, diz respeito à representatividade amostral, ou seja, a capacidade dos dados capturarem adequadamente o fenômeno que buscam representar, gerando resultados extrapoláveis para a população em geral. Esse ponto é particularmente complexo quando os dados são obtidos pela internet. Um dos principais desafios, nesses casos, é saber se determinada amostra da web representa um país ou um tipo específico de conteúdo.
A construção de amostras (na forma de corpura) pelo agrupamento de conteúdo sobre algum tópico, principalmente via hashtags, se tornou uma estratégia comum no estudo da mídia social, assim como abordagens envolvendo a seleção de conteúdos de atores vistos como relevantes para o problema da pesquisa nesses espaços.
Os dados decorrem da amostra e ambas as dimensões estão ligadas às questões de pesquisa, fundamentalmente, além de aspectos éticos e práticos do desenvolvimento da investigação. A reflexão prévia sobre isso, portanto, se impõe.
Sobre a pesquisa on-line de maneira geral, é interessante notar que, no contexto anglo-saxão, a utilização de amostras de pessoas que recebem pequenos pagamentos, a partir do recrutamento em plataformas digitais como a Amazon Mechanical Turk, tem sido comum. Inicialmente essa prática foi vista por alguns como renovadora da pesquisa quantitativa. No entanto, são apontados problemas nessa opção, relacionados à validade dos resultados e à questão ética de produzir conhecimento com base em uma força de trabalho mal remunerada.
-
Os estudantes devemVer
Descreva em uma postagem, a ser inserida no Mural, um esboço de plano de coleta de dados, informando o objetivo dessa proposta. (Note que a atividade seguinte também será feita neste Mural.)
-
Estratégias para a coleta de dados na internet
Basicamente há duas formas principais de coletar dados na internet: a comunicação direta com as APIs de sites ou plataformas e a técnica de raspagem de dados (scraping), com características, vantagens e limitações específicas, como notam van der Vlist e Helmond (2023), veja a seguir.
Coleta via APIs- Usa pontos de acesso a bancos de dados (“back-end”).
- Os dados ficam ocultos no servidor de um site (ou seja, não são visíveis no navegador da web).
- Os resultados geralmente estão na forma de dados estruturados.
- Usa páginas da web e sites renderizados (“front-end”).
- Os dados são visíveis em seu navegador.
- Páginas e sites diferentes podem ter estruturas e formatos diversos.
- Os resultados geralmente estão na forma de dados semiestruturados.
Aponta-se, por vezes, o uso de serviços de empresas que coletam dados, como um terceiro modo, mas essas empresas utilizam, de fato, alguns dos procedimentos mencionados.
A utilização da Interface de Programação de Aplicações (Application Program Interface ou API) para coletar dados digitais favorece a obtenção de dados. A API é uma ferramenta de software que permite a interação entre alguém, a partir de algum aplicativo de coleta, e os dados de determinado site ou plataforma, de maneira gratuita ou sob certas condições ou taxas. A partir de APIs podem ser obtidos dados em grande quantidade, bem estruturados e sem que, em tese, existam questões éticas. Isso ocorre, pois a extração é regulamentada pelas próprias plataformas e os dados são compartilhados sem violação a direitos autorais.
Já o método de raspagem está ligado à extração de dados de páginas e sites a partir do código-fonte deles, num processo automatizado, no qual o aplicativo que faz a coleta é configurado para capturar determinados conteúdos marcados por certa codificação.
A raspagem de dados tem analogia com a ideia da cópia e colagem de conteúdos da web e, do mesmo modo que esse método, possui caráter mais controverso, tendo em vista que a cópia pode estar em desacordo com os termos de serviço de determinado espaço digital ou ferir a privacidade de quem produziu algo que está sendo copiado. Nesse sentido, é importante refletir criticamente a respeito do caráter ético do projeto em determinado contexto para decidir sobre quando e como usar a estratégia de raspagem de dados e outros procedimentos metodológicos.
-
Reflexão sobre a coleta
Numa perspectiva mais geral, vários aspectos merecem ser pensados, previamente à coleta e trabalho com dados digitais. Em primeiro lugar, o papel desses dados na elucidação das questões de pesquisa. Mas há também questões práticas: os aplicativos on-line podem ter problemas, a instalação de softwares pode falhar e as APIs das plataformas podem mudar, geralmente se tornando mais restritas, e isso é bastante frustrante para quem faz pesquisa.
A prudência recomenda, assim, que o planejamento da investigação leve em conta eventualidades: se alguma forma gratuita ou pouco onerosa de coleta de dados se tornar inviável, seria possível fazer de outra forma? O quanto isso afetará o cronograma do trabalho? Possuo ou tenho tempo suficiente para aprender o conhecimento técnico requerido para utilizar determinada estratégia de coleta de dados? Questões desse tipo devem ser levadas em consideração.
Já durante o processo de coleta de dados digitais, van Es et al. (2017) sistematizam vários pontos a serem pensados, conforme se segue.
- Quais considerações éticas foram levadas em conta ao coletar os dados da pesquisa?
- Que tipo de dados está sendo usado?
- Como os dados foram coletados? Quais ferramentas ou softwares foram usados, ou quem forneceu os dados?
- Quais critérios foram usados para selecionar o conjunto de dados? Quem está incluído ou excluído do conjunto de dados?
- Quais são as limitações desses métodos de coleta de dados? Qual é o grau de confiabilidade do método de coleta utilizado?
- Quais metadados o conjunto de dados contém (por exemplo, local, hora, data de um tweet)?
- Ao combinar conjuntos de dados, quais vieses podem resultar dos diferentes contextos de origem dos dados?
Questões a serem consideradas ao se coletar dados para pesquisa
No tópico seguinte serão expostos procedimentos, ferramentas e exemplos relacionados à coleta de dados, conforme a categorização mostrada abaixo. Em cada grupo, são descritas características básicas de aplicativos. É possível notar que a ordem de exposição vai de estratégias mais simples às que demandam mais trabalho.
- Não envolve, a rigor, programas, porém o uso de softwares para o manejo de dados em tabelas, como o Google Planilhas, é geralmente recomendável.
Mozilla Firefox (navegador multiplataforma)- Download.
- Permite copiar páginas web (ou partes delas) em formato de imagem ou PDF.
HTTrack Website Copier (programa open source, para Windows e Linux)- Download.
- Copia as páginas de algum website para um computador.
- Manual.
- Tutorial em vídeo (em inglês).
A1 Website Download (programa proprietário para Windows e Mac)- Download.
- Possui versão paga e gratuita. Os primeiros 30 dias de uso, após a instalação, permitem utilizar todas as funcionalidades do programa. Depois disso, caso ele não seja comprado, os recursos diminuem.
- Faz o mesmo que o programa anterior (cópia de páginas), mas é mais rápido, o que pode ser útil para sites complexos, com muitas imagens e páginas secundárias.
- Tutorial em vídeo (em inglês)
Conifer (serviço on-line)- Permite criar contas onde serão estocados os sites que forem copiados pelo aplicativo.
- Os dados podem ser baixados e o arquivo de cada pessoa é de 5 GB.
- Tutorial em vídeo (em inglês).
WayBack Machine (serviço on-line)- Permite verificar o conteúdo e aparência anterior de páginas web, conforme elas tenham sido copiadas pelo Internet Archive. O que for localizado pode ser copiado ou baixado e arquivado pelos métodos anteriores.
Apify (site de serviço)- Aplicativo pago, mas que permite coletas de dados gratuitas, até determinados montantes.
- Exige a criação de conta e possui uma interface intuitiva.
- Extrai dados, que podem ser exportados em diferentes formatos, principalmente, de redes sociais.
- Tutoriais em vídeo (em inglês).
PhantomBuster (site de serviço)- Mesmas características do anterior.
- Tutoriais em vídeo (em inglês).
Instant Data Scraper (plugin para o navegador Chrome)- Download.
- Extrai dados de páginas da web e os exporta como arquivos Excel ou CSV.
- Utiliza uma IA para buscar os possíveis conteúdos relevantes, que quem utiliza o plugin poderá selecionar.
- A interface é intuitiva e fácil de usar, porém, os recursos são limitados.
- Tutorial em vídeo (em inglês).
Data Miner (plugin para o navegador Chrome)- Download.
- Além de baixar o plugin, é necessário criar uma conta no aplicativo.
- Permitir fazer a raspagem de dados, a partir de “receitas” preexistentes ou criadas por quem usa.
- Os dados capturados podem ser exportados em diferentes formatos tabulares.
- O serviço possui versão paga, que torna mais fácil o trabalho, porém, estudando os procedimentos para criar as receitas, é possível extrair muitos tipos de dados da web com a versão gratuita.
- Tutoriais em vídeo (em inglês).
Screaming Frog SEO (programa multiplataforma)- Download.
- Aplicativo com versão gratuita e paga. A primeira com limitações.
- Embora voltado principalmente a profissionais da comunicação digital, ao fazer a recuperação automática de dados na web, em particular as ligações entre páginas (links), pode ser útil a pesquisas acadêmicas.
- Os dados obtidos são exportados em diferentes formatos de tabela.
- A própria empresa disponibiliza guias de uso.
- Tutoriais em vídeo (em inglês).
Media Cloud (plataforma)- A plataforma Media Cloud é um projeto open source que permite que se recuperem notícias sobre determinado assunto, exportando os dados em diferentes formatos.
- É necessário criar uma conta no site, cujo uso é relativamente simples.
Facepager (aplicativo multiplataforma)- Download.
- Aplicativo para a recuperação automatizada de dados de plataformas, como Facebook e YouTube, desenvolvido por Jakob Jünger e Till Keyling (2019).
- Possui um conjunto de pré-configurações (presets) que facilita fazer a solicitação para a coleta de dados.
- Os desenvolvedores criaram um site bastante explicativo sobre o programa.
- Tutoriais em vídeo (em inglês).
YouTube Data Tools (aplicativo on-line multiplataforma)- Desenvolvido por Bernhard Rieder (2015), no âmbito da Digital Methods Initiative, o aplicativo compreende um conjunto de seis ferramentas on-line para extrair dados de vídeos, canais, redes de canais e comentários em vídeos do YouTube.
- A interface é simples e intuitiva.
- Tutoriais em vídeo (em inglês).
4CAT (aplicativo open source multiplataforma)- Download.
- Programa que coleta dados de várias plataformas de mídia digital (Facebook, TikTok, X/Twitter, Telegram, entre outras), por vezes, em combinação com o plugin do navegador Firefox Zeeschuimer.
- A instalação envolve a criação de um Docker e configurações especiais no computador, já que o programa é executado remotamente. É recomendável que as pessoas interessadas leiam com atenção o tutorial e vejam o vídeo sobre como instalar o 4CAT.
- Há um paper (Peeters & Hagen, 2020) que descreve o desenvolvimento do software.
- No site do projeto, vários tutoriais explicam como fazer coletas e outras questões.
- Tutoriais em vídeo (em inglês).
Ao baixar algum programa, leia atentamente as instruções e verifique se seu computador possui os requisitos necessários. Não instale nenhum programa sem ter testado outro recém-inserido, pois se ocorrer algum erro, não saberá qual o causou. Caso note problema no computador, desinstale o aplicativo. -
Coleta de dados on-line: possibilidades, ferramentas e exemplos
-
Os estudantes devemVer
Apos ter coletado os dados, comente, em outra postagem no Mural, os resultados, observando se o plano inicial foi mantido ou não, se houve dificuldades e como foram superadas etc.
-
REAs de aprofundamento
-