Seção: M2 | Dados digitais | Introdução à análise de dados on-line na pesquisa em Comunicação | ABERTO | | USP Extensão


  • Boas-vindas a você que começa o curso Introdução à Análise de Dados On-Line na Pesquisa em Comunicação. A preocupação central é formar pessoas com interesse em realizar pesquisas na internet.

    Há duas formas de oferta. Em turmas de indivíduos matriculados e outra livre, autoinstrucional. Apenas a primeira oferecerá a certificação. A metodologia do curso, baseada na aprendizagem social, enfatiza a interação ativa com o ambiente e com as demais pessoas, de modo a fortalecer o desenvolvimento de uma atitude investigativa.

    O curso possui sete módulos, cada um com duas atividades, além de um trabalho conclusivo. Os dois primeiros módulos oferecem um enquadramento geral da discussão. Os quatro módulos seguintes possuem atividades que se voltam aos interesses de cada um. O último módulo discute a questão da ética na pesquisa com dados digitais.

    A proposta geral é que você realize reflexões e práticas que o capacitem a entender o papel dos dados digitais numa investigação.

    Bons estudos.


    Informado por pressupostos da pedagogia social, como a centralidade nos processos educativos do aprender a ser, o curso tem o objetivo de introduzir quem participa em discussões e práticas que envolvem o uso de dados on-line na pesquisa social, particularmente no campo da comunicação. No vídeo acima, é feita uma breve exposição sobre o conteúdo e o desenvolvimento dos trabalhos para a realização do curso. Você pode ver a página com Perguntas Frequentes [FAQ], o Código de Conduta, ter acesso ao PDF com a íntegra do curso e consultar todas as Referências do curso.

  • 1 2 3 4 5 6 7
  • Módulo 2

    Dados digitais

    • A centralidade dos dados na sociedade


      Placa de vidro em que está escrito: Data is collected on everything we do. Do you know how yours is being used?

      Outra noção gestada a partir do reconhecimento da importância de tecnologias digitais nas últimas décadas foi a de sociedade conduzida e orientada por dados (data-driven society). Ela penetrou na consciência popular primeiro a partir do discurso jornalístico e de gestores, administradores e políticos, sendo usada muitas vezes com um pendor tecnicista e otimismo ingênuo.

      Alguns autores procuram dar contorno reflexivo a essa noção, destacando dimensões como a quebra de privacidade, vigilância e controle associadas a ela ou mesmo a ameaça à democracia pela ação das plataformas digitais. Outros, sugerem conceitos diferentes, como dataficação da vida, datacracia ou colonialismo de dados. Em todas essas noções, cuja discussão escapa ao escopo do curso, há destaque ao papel dos dados na conformação do mundo contemporâneo. 

      Mas o que são dados? Como explica um especialista no tema:

      “Etimologicamente, a palavra dados (data) é derivada do latim dare, que significa ‘dar’. Nesse sentido, os dados são elementos brutos que podem ser abstraídos de (dados por) fenômenos – medidos e registrados de várias maneiras. Entretanto, no uso geral, os dados se referem aos elementos que são capturados, extraídos por meio de observações, cálculos, experimentos e gerenciamento de registros”.

      A citação expressa um sentido geral para o termo. Outra definição, a partir de uma perspectiva crítica sobre o modo como eles se transformaram num dos pilares do sistema capitalista atual, é a de dados como fluxos de informações que transitam da vida humana para as infraestruturas de coleta e processamento. Assim, abstraem a vida, convertendo-a em informações que podem ser armazenadas e processadas por computadores.

      O adjetivo digital não é utilizado, mas a discussão está relacionada sobretudo a esse tipo de dado: logs de acesso a espaços na internet e informações sobre o tempo de visualização de páginas, interações com pessoas e conteúdos de redes sociais (curtidas, compartilhamentos, comentários etc.), informações sobre o uso de produtos que possuem recursos de IoT (internet das coisas), localizações de GPS, entre outros.

      Esses dados e sua agregação em escalas até então inimagináveis (big data) foram impulsionados por interesses do mundo das finanças, dos negócios e do marketing, mas logo atraíram a atenção dos cientistas sociais, em particular aqueles ligados às abordagens quantitativas e que já usavam computadores. A feitura de análises comportamentais a partir de dados e metadados de indivíduos sem que, em tese, ocorressem vieses de observação representava, para alguns, a principal inovação da pesquisa on-line e seu método por excelência.

    • Rastros, traços e pegadas digitais


      Charge com pessoa chegando em um posto de fronteira e o funcionário informa saber várias informações da pessoa, pela mídia digital.

      Vários termos são usados para destacar a singularidade dos dados das pessoas que utilizam a internet, como rastrostraços ou pegadas digitais. Eles representam marcas de atividades que elas realizam e que poderão ser submetidas a análises com diferentes objetivos. Algumas avaliações sobre o papel e as possibilidades desses dados nas ciências sociais são entusiásticas:

      “Graças à rastreabilidade digital, os pesquisadores não precisam mais escolher entre precisão e alcance em suas observações: agora é possível seguir uma multiplicidade de interações e, simultaneamente, distinguir a contribuição específica que cada uma delas tem para a construção de fenômenos sociais. Concebidas em uma era de escassez, as ciências sociais entram em uma época de abundância.”

      Porém, há alertas sobre o risco de que a pesquisa social seja soterrada pela avalanche de dados desse tipo. Além disso, as pessoas que conduzem investigações científicas não têm muitas vezes controle sobre eles, nem exato conhecimento das categorias a partir das quais são produzidos ou entendimento sobre o nível de generalização que eles possibilitam. Há ainda o risco de que a prevalência do chamado positivismo digital, alicerçado nas ciências da computação, colonize as ciências sociais e humanas, em detrimento de abordagens interpretativas e críticas.

      Os computadores e a internet promoveram novas práticas de investigação social, bem como revitalizaram estratégias tradicionais. Ao facilitarem a coleta e tratamento de dados complexos deram novo vigor, por exemplo, à Análise de Redes Sociais (ARS) e à produção de visualizações para identificar padrões ou configurações relevantes.

      Isso ocorreu e continua a ocorrer a partir de propostas, críticas e debates sobre a validade desses procedimentos, bem como pela adaptação de métodos e o uso de certos dados habituais à investigação social. Entretanto, em paralelo, se desenvolvem também perspectivas e dados nativamente digitais, ampliando o leque de possibilidades para a pesquisa que se dirige aos fenômenos on-line.

    • Dados nativamente digitais e dados digitalizados


      Tweet de Donald Trump, criticando pessoas "sem talento ou sucesso" que criticam outras.

      Os dados nativamente digitais estão associados à perspectiva restrita sobre métodos digitais, sendo geralmente derivados do uso das mídias digitais, por exemplo, metadados de usuários, visualizações de vídeos do YouTube, números de “curtidas” numa postagem do Facebook ou de seguidores de um perfil do Instagram.

      Nem todo dado que podemos obter pela internet é nativamente digital, pois há inúmeras informações que foram inseridas na rede por questões de acessibilidade, mas que podem também estar e ter sido geradas em outros locais, como estatísticas, documentos e atas de governos, empresas e organizações, livros e decisões judiciais. Esses seriam, portanto, dados digitalizados.

      Observa-se ainda a existência de um terceiro tipo de dado na internet: aquele que consiste em um objeto digital que passa a ser arquivado e isso tem efeito em sua natureza, como o arquivo de tweets de Trump. Isso pode ocorrer também com páginas da internet, metadados de usuários e outros materiais que sejam arquivados.


      Como conclusão parcial, é interessante notar a possibilidade de atualizar o dito do poeta Stéphane Mallarmé (1842-1898) que, a seu tempo, afirmava que tudo existiria no mundo para chegar a um livro. Atualmente, tudo existe para terminar na internet.

    • Taxonomia de dados


      Blocos de madeira com letras formando a palavra "Data" em cima de uma livro.

      Além da distinção entre digitais e digitalizados, os dados podem ser categorizados de outras maneiras. Uma diferenciação comum entre eles comum é quanto aos qualitativos, relacionados a textos (escritos, mas também imagéticos ou audiovisuais, por isso alguns os caracterizam como não numéricos), e os quantitativos, associados a números. Ambos os tipos podem ser utilizados em uma investigação e estão ligados aos formatos dos dados, como: texto simples, numérico, percentual, valor monetário, data/horário e hiperlink.

      Há outros modos de categorizar os dados, como uma maneira para entendê-los melhor. Kitchin (2024), além de distingui-los também entre quali e quantitativos, no que seria a forma dos dados, elabora as seguintes categorias:


      • Estruturados: organizados, armazenados e exportados em um modelo de dados específico, como números/texto em tabelas ou bancos de dados com formato consistente (por exemplo, nome, data de nascimento, endereço, gênero etc.).
      • Semiestruturados: pouco estruturados, sem um modelo ou esquema de dados predefinido. Apesar da estrutura irregular, seus campos são parcialmente consistentes. Um exemplo disso, são páginas da web com XML (Extensible Markup Language), que codifica os documentos.
      • Não estruturados: nenhum modelo ou estrutura comum é identificável. Cada elemento pode ter uma estrutura ou um formato próprio. São dados, geralmente, de natureza qualitativa, como o de um conjunto de postagens do Facebook.
      • Capturados: diretamente por meio de alguma forma de medição, como observação, pesquisas, experimentos de laboratório e de campo, manutenção de registros, câmeras, scanners e sensores.
      • Excedentes: gerados por um dispositivo ou sistema, como um subproduto de sua função principal. A nota eletrônica para processar pagamentos também pode servir para controles de estoque ou medida de desempenho de quem faz determinadas vendas, por exemplo.
      • Transientes: nunca examinados ou processados e simplesmente descartados, por serem muito volumosos, não estruturados, caros para processar e armazenar ou, ainda, por faltarem técnicas para extrair valor deles, sendo de pouca utilidade estratégica ou tática.
      • Derivados: produzidos por meio de processamento ou análise adicional de dados capturados.
      • Primários: gerados pelo indivíduo que faz uma pesquisa, a partir dos instrumentos usados e dentro de um projeto de pesquisa próprio.
      • Secundários: gerados por outra pessoa e disponibilizados para reutilização e análise para outros indivíduos.
      • Terciários: uma forma de dados derivados, como contagens, categorias e resultados estatísticos. São geralmente divulgados por órgãos estatísticos, para garantir a confidencialidade com relação a quem os dados se referem.
      • Indexicais: permitem a identificação e a vinculação (por exemplo, nomes, endereços de IP, números de passaporte e de cartão de crédito, números de série do fabricante).
      • Atributivos: representam aspectos de um fenômeno, mas não são indexicais. A impressão digital é indexical, mas as informações dos atributos de idade, sexo, altura, peso, tipo sanguíneo, não o são.
      • Metadados: dados sobre dados, como nomes e descrições de campos específicos em uma planilha. Podem se referir ao conteúdo dos dados ou a todo o conjunto de dados.

      Uma diferenciação menos intuitiva é entre dados criados e dados existentes. No primeiro caso, os dados são produzidos a partir de uma intervenção explícita de quem realiza a pesquisa no objeto de estudo. Esse dado é característico da pesquisa experimental, na qual alguma ação deliberada busca provocar uma mudança que será investigada. Nas ciências sociais e da comunicação, essa forma de pesquisa é menos comum e com mais tradição no contexto estadunidense. A ação deliberada pode ser de vários tipos: pedir para que o grupo em estudo leia, veja ou faça algo, por vezes, comparando o efeito disso num grupo não submetido à intervenção.

      Por sua vez, os dados existentes (termo um tanto ambíguo) estão associados a todos os outros tipos de dados que a pessoa que realiza uma investigação elabora utilizando as técnicas da pesquisa social, como a observação, as entrevistas e os questionários. Na verdade, se o termo dado não fosse consagrado pelo uso, seria melhor substituí-lo por outros, como apreendido ou capturado.

    • Dados proprietários e dados abertos


      Adesivos no qual está escrito "Open Data".

      Os dados variam também quanto ao nível de acesso e finalidade. Alguns são totalmente públicos e podem ser utilizados livremente, inclusive em pesquisas científicas. Num polo oposto, há dados privados e restritos a ambientes internos, como intranets, e não disponíveis para uso externo. Há, é claro, dimensões intermediárias entre esses dois tipos.

      Uma vez que há custos envolvidos na produção e disponibilização de dados, bem como por seu valor na produção de conhecimento sobre o mundo, o acesso a eles tem sido frequentemente restrito. Isso é feito, por exemplo, limitando o acesso a pessoas que pagam ou recebam alguma aprovação ou limitando a forma como os dados podem ser usados. Nessa perspectiva, os termos de serviço das plataformas digitais são geralmente restritivos, tratando os dados como ativos da empresa, o que gera dificuldades para quem investiga esses espaços.

      Por outro lado, as possibilidades de democratização do conhecimento pela internet favoreceram as iniciativas de dados abertos (open data), ou seja, os esforços voltados à divulgação e compartilhamento de conteúdo de maneira ampla, sem restrições de uso. A ideia está alinhada com movimentos como o do software open source, da publicação científica e da ciência abertas, preconizando aumento da transparência e controle social sobre a informação. 

      A expressão dados digitais abertos é redundante, pois os defensores dos open data geralmente colocam a disponibilização deles na internet como uma de suas características. Fala-se também em Linked Open Data (LOD), termo que recebe diferentes traduções (dados abertos interligados/conectados/vinculados), cujo significado remete tanto a certas práticas para publicar e conectar dados estruturados na web quanto aos conjuntos de dados desse tipo, como os da The Linked Open Data Cloud

      Há também várias fontes de dados que, embora não sejam estritamente abertos, podem, muitas vezes, ser utilizados como dados secundários de alguma investigação. O InternetLab, por exemplo, elaborou Um guia da dieta de mídia digital brasileira com vários levantamentos desse tipo. O anuário Mídia Dados, do Grupo de Mídia, é uma publicação que, embora voltada a profissionais, pode ser útil para a pesquisa científica. Outra fonte relevante de dados para a pesquisa da comunicação são os acervos digitais de periódicos ou de coleções. Por vezes, o acesso é condicionado à assinatura da publicação.

    • Vencimento: quinta-feira, 30 jan. 2025, 17:26

      Navegue em uma ou mais das bases de dados abertos brasileiras indicadas. Você já usou, para pesquisas ou outras finalidades, alguma delas? Conhece outras? Faça uma postagem no fórum sobre essas questões e leia as postagens de participantes do curso e comente.

    • Crítica dos dados




      “Embora nem todas as formas de conhecimento estejam firmemente enraizadas em dados – por exemplo, conjecturas, opiniões e crenças –, os dados são claramente um material de base fundamental para a forma como entendemos o mundo.” (Kitchin, 2014, p. 12)

      Como a citação destaca, os dados possuem um papel relevante na vida social. No entanto, a naturalização e o uso mal-intencionado ou ingênuo deles são frequentes. As polêmicas sobre os tratamentos durante a epidemia de Covid-19 foram estimuladas por dados, interpretações e por pesquisas sem rigor científico. Os políticos muitas vezes publicam postagens comemorativas em redes sociais quando atingem determinado número de seguidores, com o desejo de se autocongratular por popularidade expressiva. Mas quantos desses são robôs ou foram “comprados”?

      Os dados podem ser controversos e estão relacionados à fonte que os produziu: um mapa-múndi feito na Argentina provavelmente chamará as ilhas que o país disputa com o Reino Unido de “Malvinas”, enquanto o nome “Ilhas Falkland” aparecerá em outros (na dúvida, o Google Maps, usa ambos). O modo como as coisas do mundo são nomeadas e descritas podem variar, conforme os valores de quem produz a informação.

      O que importa destacar, assim, é que a produção e o uso de dados deve ser feito, na pesquisa científica, de maneira questionadora e crítica. O próprio jornalismo de qualidade procura agir desse modo ao fazer, por exemplo, distinções sobre métricas de redes sociais.

      Uma cientista de dados, ao abordar alguns aspectos que introduzem imperfeições e vieses em dados, oferece uma perspectiva básica para a crítica a eles. Conforme nota a autora:

      A partir dos estudos, espera-se que seu conhecimento sobre os dados e sua relevância na investigação científica tenha aumentado. A atividade que encerra o módulo propõe, para consolidar aprendizados, uma revisão do que foi visto até aqui, com a preocupação, também, de apresentar o uso de dados em pesquisas de comunicação.

    • Faça o exercício para consolidar o que foi aprendido.
    • REAs de aprofundamento