Curso: Introdução à análise de dados on-line na pesquisa em Comunicação | ABERTO | | USP Extensão


  • Boas-vindas a você que começa o curso Introdução à Análise de Dados On-Line na Pesquisa em Comunicação. A preocupação central é formar pessoas com interesse em realizar pesquisas na internet.

    Há duas formas de oferta. Em turmas de indivíduos matriculados e outra livre, autoinstrucional. Apenas a primeira oferecerá a certificação. A metodologia do curso, baseada na aprendizagem social, enfatiza a interação ativa com o ambiente e com as demais pessoas, de modo a fortalecer o desenvolvimento de uma atitude investigativa.

    O curso possui sete módulos, cada um com duas atividades, além de um trabalho conclusivo. Os dois primeiros módulos oferecem um enquadramento geral da discussão. Os quatro módulos seguintes possuem atividades que se voltam aos interesses de cada um. O último módulo discute a questão da ética na pesquisa com dados digitais.

    A proposta geral é que você realize reflexões e práticas que o capacitem a entender o papel dos dados digitais numa investigação.

    Bons estudos.


    Informado por pressupostos da pedagogia social, como a centralidade nos processos educativos do aprender a ser, o curso tem o objetivo de introduzir quem participa em discussões e práticas que envolvem o uso de dados on-line na pesquisa social, particularmente no campo da comunicação. No vídeo acima, é feita uma breve exposição sobre o conteúdo e o desenvolvimento dos trabalhos para a realização do curso. Você pode ver a página com Perguntas Frequentes [FAQ], o Código de Conduta, ter acesso ao PDF com a íntegra do curso e consultar todas as Referências do curso.

  • 1 2 3 4 5 6 7
  • Módulo 3

    Fluxo de trabalho: coleta de dados

    • Trabalho com dados digitais


      A imagem apresenta um ciclo de trabalho com dados, que é exposto no texto do tópico.

      Ciclo de trabalho com dados


      O diagrama com um fluxo, na forma de ciclo, de trabalho com dados em pesquisas científicas é uma exposição sintética e geral de um procedimento que pode diferir. Alguém pode, por exemplo, ter acesso a uma base de dados coletada por outrem e a partir dela gerar uma indagação que demande análises; ou perceber, após ter feito a primeira coleta e análise de dados, que precisará coletar outros. Há casos em que as coletas e análises sugerem a necessidade de mudança no problema de investigação. Nada impede, ainda, que alguém colete dados com fins basicamente exploratórios, como insumo à reflexão e construção de questões de pesquisa posteriormente. 

      Por outro lado, a figura indica uma cronologia com etapas que se sucedem – com o potencial iterativo mencionado – e na qual, ao fim, o resultado regressa ao ponto de partida. Em outras palavras, as questões de conhecimento que deram início e conduziram o trabalho serão idealmente esclarecidas, em maior ou menor medida, pelo que apurou.

      Neste módulo vamos conhecer estratégias para coleta e tratamento dos dados e, no seguinte, algumas possibilidades analíticas.

    • Coleta de dados e amostragem


      Ilustração do mecanismo chamado Turco, um suposto autômato que jogava xadrez.

      Os dados coletados terão íntima relação com a amostra (ou conjunto de amostras) escolhida para a pesquisa. A amostra é unidade básica da investigação empírica, composta por grupos, de pessoas ou de outro tipo (como sites ou documentos), a partir dos quais serão obtidas as informações/dados de uma pesquisa.

      Uma questão crítica sobre as amostras, apontada por vários autores, diz respeito à representatividade amostral, ou seja, a capacidade dos dados capturarem adequadamente o fenômeno que buscam representar, gerando resultados extrapoláveis para a população em geral. Esse ponto é particularmente complexo quando os dados são obtidos pela internet. Um dos principais desafios, nesses casos, é saber se determinada amostra da web representa um país ou um tipo específico de conteúdo.

      A construção de amostras (na forma de corpura) pelo agrupamento de conteúdo sobre algum tópico, principalmente via hashtags, se tornou uma estratégia comum no estudo da mídia social, assim como abordagens envolvendo a seleção de conteúdos de atores vistos como relevantes para o problema da pesquisa nesses espaços.

      Os dados decorrem da amostra e ambas as dimensões estão ligadas às questões de pesquisa, fundamentalmente, além de aspectos éticos e práticos do desenvolvimento da investigação. A reflexão prévia sobre isso, portanto, se impõe.

      Sobre a pesquisa on-line de maneira geral, é interessante notar que, no contexto anglo-saxão, a utilização de amostras de pessoas que recebem pequenos pagamentos, a partir do recrutamento em plataformas digitais como a Amazon Mechanical Turk, tem sido comum. Inicialmente essa prática foi vista por alguns como renovadora da pesquisa quantitativa. No entanto, são apontados problemas nessa opção, relacionados à validade dos resultados e à questão ética de produzir conhecimento com base em uma força de trabalho mal remunerada.

    • Descreva em uma postagem, a ser inserida no Mural, um esboço de plano de coleta de dados, informando o objetivo dessa proposta. (Note que a atividade seguinte também será feita neste Mural.)

    • Estratégias para a coleta de dados na internet


      Ícone com o texto "Collect & Capture".

      Basicamente há duas formas principais de coletar dados na internet: a comunicação direta com as APIs de sites ou plataformas e a técnica de raspagem de dados (scraping), com características, vantagens e limitações específicas, como notam van der Vlist e Helmond (2023), veja a seguir.

      Aponta-se, por vezes, o uso de serviços de empresas que coletam dados, como um terceiro modo, mas essas empresas utilizam, de fato, alguns dos procedimentos mencionados.

      A utilização da Interface de Programação de Aplicações (Application Program Interface ou API) para coletar dados digitais favorece a obtenção de dados. A API é uma ferramenta de software que permite a interação entre alguém, a partir de algum aplicativo de coleta, e os dados de determinado site ou plataforma, de maneira gratuita ou sob certas condições ou taxas. A partir de APIs podem ser obtidos dados em grande quantidade, bem estruturados e sem que, em tese, existam questões éticas. Isso ocorre, pois a extração é regulamentada pelas próprias plataformas e os dados são compartilhados sem violação a direitos autorais.

      Já o método de raspagem está ligado à extração de dados de páginas e sites a partir do código-fonte deles, num processo automatizado, no qual o aplicativo que faz a coleta é configurado para capturar determinados conteúdos marcados por certa codificação.

      A raspagem de dados tem analogia com a ideia da cópia e colagem de conteúdos da web e, do mesmo modo que esse método, possui caráter mais controverso, tendo em vista que a cópia pode estar em desacordo com os termos de serviço de determinado espaço digital ou ferir a privacidade de quem produziu algo que está sendo copiado. Nesse sentido, é importante refletir criticamente a respeito do caráter ético do projeto em determinado contexto para decidir sobre quando e como usar a estratégia de raspagem de dados e outros procedimentos metodológicos.

    • Reflexão sobre a coleta


      Cartaz com três mãos segurando celulares e com os dizeres 'Descolonizando os dados estruturados da internet'.

      Numa perspectiva mais geral, vários aspectos merecem ser pensados, previamente à coleta e trabalho com dados digitais. Em primeiro lugar, o papel desses dados na elucidação das questões de pesquisa. Mas há também questões práticas: os aplicativos on-line podem ter problemas, a instalação de softwares pode falhar e as APIs das plataformas podem mudar, geralmente se tornando mais restritas, e isso é bastante frustrante para quem faz pesquisa.

      A prudência recomenda, assim, que o planejamento da investigação leve em conta eventualidades: se alguma forma gratuita ou pouco onerosa de coleta de dados se tornar inviável, seria possível fazer de outra forma? O quanto isso afetará o cronograma do trabalho? Possuo ou tenho tempo suficiente para aprender o conhecimento técnico requerido para utilizar determinada estratégia de coleta de dados? Questões desse tipo devem ser levadas em consideração.

      Já durante o processo de coleta de dados digitais, van Es et al. (2017) sistematizam vários pontos a serem pensados, conforme se segue.

        Questões a serem consideradas ao se coletar dados para pesquisa
        • Quais considerações éticas foram levadas em conta ao coletar os dados da pesquisa?
        • Que tipo de dados está sendo usado?
        • Como os dados foram coletados? Quais ferramentas ou softwares foram usados, ou quem forneceu os dados?
        • Quais critérios foram usados para selecionar o conjunto de dados? Quem está incluído ou excluído do conjunto de dados?
        • Quais são as limitações desses métodos de coleta de dados? Qual é o grau de confiabilidade do método de coleta utilizado?
        • Quais metadados o conjunto de dados contém (por exemplo, local, hora, data de um tweet)?
        • Ao combinar conjuntos de dados, quais vieses podem resultar dos diferentes contextos de origem dos dados?

      No tópico seguinte serão expostos procedimentos, ferramentas e exemplos relacionados à coleta de dados, conforme a categorização mostrada abaixo. Em cada grupo, são descritas características básicas de aplicativos. É possível notar que a ordem de exposição vai de estratégias mais simples às que demandam mais trabalho.


      Ícone para chamar a atenção para texto.


      Ao baixar algum programa, leia atentamente as instruções e verifique se seu computador possui os requisitos necessários. Não instale nenhum programa sem ter testado outro recém-inserido, pois se ocorrer algum erro, não saberá qual o causou. Caso note problema no computador, desinstale o aplicativo.

    • Coleta de dados on-line: possibilidades, ferramentas e exemplos


    • Apos ter coletado os dados, comente, em outra postagem no Mural, os resultados, observando se o plano inicial foi mantido ou não, se houve dificuldades e como foram superadas etc.

    • REAs de aprofundamento