Seção: M6 | Visualização de dados | Introdução à análise de dados on-line na pesquisa em Comunicação | ABERTO | | USP Extensão


  • Boas-vindas a você que começa o curso Introdução à Análise de Dados On-Line na Pesquisa em Comunicação. A preocupação central é formar pessoas com interesse em realizar pesquisas na internet.

    Há duas formas de oferta. Em turmas de indivíduos matriculados e outra livre, autoinstrucional. Apenas a primeira oferecerá a certificação. A metodologia do curso, baseada na aprendizagem social, enfatiza a interação ativa com o ambiente e com as demais pessoas, de modo a fortalecer o desenvolvimento de uma atitude investigativa.

    O curso possui sete módulos, cada um com duas atividades, além de um trabalho conclusivo. Os dois primeiros módulos oferecem um enquadramento geral da discussão. Os quatro módulos seguintes possuem atividades que se voltam aos interesses de cada um. O último módulo discute a questão da ética na pesquisa com dados digitais.

    A proposta geral é que você realize reflexões e práticas que o capacitem a entender o papel dos dados digitais numa investigação.

    Bons estudos.


    Informado por pressupostos da pedagogia social, como a centralidade nos processos educativos do aprender a ser, o curso tem o objetivo de introduzir quem participa em discussões e práticas que envolvem o uso de dados on-line na pesquisa social, particularmente no campo da comunicação. No vídeo acima, é feita uma breve exposição sobre o conteúdo e o desenvolvimento dos trabalhos para a realização do curso. Você pode ver a página com Perguntas Frequentes [FAQ], o Código de Conduta, ter acesso ao PDF com a íntegra do curso e consultar todas as Referências do curso.

  • 1 2 3 4 5 6 7
  • Módulo 6

    Visualização de dados

    • Visualização de dados


      Imagem de diferentes tipos de gráficos.

      Como notam vários trabalhos, a visualização de dados na pesquisa pode ser entendida sob dupla perspectiva: método de investigação e meio para comunicar resultados no âmbito acadêmico e para o público em geral.

      A produção de visualizações e as análises podem, por vezes, como observado, estar bastante ligadas. Isso ocorre principalmente em análises exploratórias dos dados. Há a ressalva, porém, sobre a necessidade do cuidado para que a organização visual dos dados não induza, de maneira equivocada, a análise. Em outras circunstâncias, pode haver uma dissociação entre a produção de visualizações, a partir de análises. 

      Mas o que é exatamente uma visualização de dados? Este vídeo explica didaticamente o assunto.

      As visualizações e os dados que as informam tendem a ser percebidos como objetivos. Isso ocorre porque os números, historicamente, são vistos como confiáveis. Eles sugerem universalidade, neutralidade e ligação com a ciência. Além disso, as convenções consolidadas ao longo do tempo sobre as visualizações colaboram para que sejam vistas como neutras, meras janelas para os dados. No entanto, essa é uma concepção ingênua, uma vez que as visualizações, assim como os dados, são produzidas a partir de escolhas, decisões sobre o que mostrar e priorizar. Os mesmos dados, sob diferentes perspectivas, podem conduzir a diferentes propostas visuais e mensagens.

      O número de possibilidades de produção de visualizações é significativo, mas não ilimitado. A conhecida norma APA descreve, entre os elementos que compõem o trabalho científico escrito, além do texto, as tabelas e figuras. As primeiras possuem um componente visual e podem ser elaboradas de diversas formas, mas com aparência relativamente semelhante. No caso das figuras, entretanto, há mais  diferenciação, e o termo engloba, para esta norma, os gráficos, diagramas, fotografias, desenhos e qualquer outra forma de representação ou ilustração não textual. 

    • Intenções de uso e tipos de gráficos


      Imagem de diferentes tipos de gráficos.

      De maneira geral, os gráficos e diagramas, a partir de agora referidos pelo primeiro termo, são a forma de visualização mais usual. O conhecimento sobre essas visualizações está relacionado à possibilidade de produzir materiais mais adequados do ponto de vista da comunicação científica. Quanto maior a compreensão das possibilidades, dos pontos fortes e limitações de cada possível forma, maior será a chance de boas escolhas.

      Em relação à experiência que a visualização proporcionará, um especialista no tema, comenta que há três intenções principais:

      • Explicativa: com a peça procurando fornecer um retrato visual dos dados, destacando os principais significados que se busca transmitir.
      • Exploratória: nesse caso, as pessoas que veem o material são mais livres, o que é favorecido por produções digitais, interativas e participativas que permitem a manipulação dos dados. 
      • Expositiva: simples exibição visual de dados, cuja interpretação dependerá fundamentalmente de quem vê. Assim, é mais adequada em trabalhos voltados a públicos com conhecimento do assunto que podem fazer sua própria sua própria interpretação, por vezes apoiada em explicações fornecidas em outro lugar, como um texto ou uma apresentação.

      Geralmente, em artigos científicos e outras formas de comunicação internas ao ambiente acadêmico, o uso de visualizações possui objetivos explicativos. 

      Para aprofundar o entendimento sobre como os gráficos podem ter esse teor, vamos examinar características de categorias, grupos ou famílias dessas visualizações. Como existem muitos tipos de gráficos, as categorizações, a partir das características comunicativas deles, são úteis. Kirk (2019) fez a proposta, sumarizada a seguir, de descrever os gráficos em cinco grupos.



      Historiograma   Gráfico de radar

      Gráficos deste grupo servem para comparar categorias e distribuições de valores quantitativos.

      Alguns gráficos da família:


      No próximo tópico, serão mostradas recomendações para produzir gráficos com qualidade, com tutoriais que exemplificam o uso dos programas mencionados.

    • Produção e leitura de visualizações


      Ilustração com visualizações de blocos de dados 3D.

      As decisões de design afetam a eficácia das visualizações de dados. Sosulski (2019) procura, recorrendo a diferentes especialistas, sugerir padrões essenciais de design aplicáveis às visualizações, de maneira geral. O conhecimento desses dez padrões, colabora na produção de gráficos de mais qualidade.

      Parede de imagens do TikTok

      A legibilidade de um gráfico está diretamente ligada à resolução e ao formato do arquivo. Para impressões de qualidade em papel, o ideal é 300 pontos por polegada (dpi), e para web de 150. Acima está uma caixa de opção de programa de edição, mostrando onde alterar esse parâmetro.

      Formatos de arquivo usuais para o primeiro meio são TIFF, EPS e PSD. Já para o segundo, JPG, PNG e GIF. O formato SVG possui vários diferenciais interessantes, principalmente o fato de ser escalável, o que o torna um arquivo de trabalho bastante útil. As imagens dos gráticos podem ser retrabalhadas, com alterações de cores em vários programas on-line como Photopea e Boxy SVG.

      Gráficos de rosca, colorido e em escala de cinza.

      Cores devem ser usadas apenas quando corresponderem a diferenças nos dados. Por vezes, podem ser utilizadas quando se quer destacar somente um aspecto do gráfico, como uma barra ou linha específica. No exemplo acima, de um gráfico de rosca com dados de seguidores no Instagram de dez influenciadores brasileiros, a cor assinala os jogadores de futebol. Porém, é importante garantir contrastes de cor que facilitem a visualização também em escala de cinza. Esse aspecto é prejudicado, no caso, e o destaque desejado é perdido. O valor simbólico e cultural das cores é outro aspecto que merece reflexão.

      Geralmente quando inseridos em textos acadêmicos, os gráficos possuem numeração sequencial e títulos descritivos. No entanto, a forma exata depende do padrão utilizado por alguma publicação ou da norma que deve ser utilizada. Veja como se estruturam gráficos nas normas ABNT e APA. Nesse aspecto, é importante garantir a uniformidade formal, ao longo de um trabalho.

      Gráfico mapa de árvore com dados de influenciadores digitais brasileiros.

      Aspectos como o esquema de cores, o tamanho, a família tipográfica e a direção do texto afetam a capacidade de leitura de um gráfico. Textos na horizontal são mais fáceis de ler. O uso excessivo de fontes em itálico e negrito também deve ser evitado, por razões de legibilidade. Todos os elementos textuais do gráfico (rótulos de eixo, escalas, rótulos de dados etc.) devem ser legíveis. No exemplo acima, em gráfico de árvore a partir dos mesmos dados sobre influenciadores locais, há dificuldade de leitura nos nomes de influenciadores que não são jogadores de futebol, devido a um problema de contraste.

      Gráfico com dados de eleição na Venezuela.

      O livro influente de Edward Tufte The Visual Display of Quantitative Information (2007/1983) introduziu noções, como a de integridade gráfica e fator de mentira (lie factor), relevantes para a discussão sobre como a apresentação visual pode induzir interpretações enganosas dos dados. A forma principal de manipulação, intencional ou não, é quando a codificação visual distorce o tamanho da correspondência entre os valores. Esse é o caso, bastante evidente, do gráfico acima, discutido numa postagem sobre o tema.

      A representação seletiva de dados ou períodos de tempo relacionados a eles, o uso de eixos não rotulados ou enganosos, a apresentação de gráficos 3D que confundem proporções são alguns outros pontos que prejudicam a integridade visual dos dados.

      A escolha de um modelo inadequado de gráfico pode também prejudicar a interpretação dos dados. Os dois gráficos mostrados no item 5 possuem problema. Examine o dataset e reveja-os. Qual o problema? Veja se acertou.

      O site VisLies apresenta galerias anuais com visualizações que induzem a erros de interpretação.

      Dois gráficos de linha, o primeiro com excessos gráficos que dificultam a visualização.

      Os dois gráficos de linha acima mostram os mesmos dados referentes a matérias que mencionam Marielle Franco publicadas no jornal Folha de S.Paulo. O da esquerdo dificulta a leitura dos dados, pelo excesso de grafismos.  Elementos gráficos meramente decorativos, redundantes ou desnecessários nas visualizações desviam o foco da exibição dos dados. Desse modo, prejudicam a eficácia dos gráficos em análises de dados.

      Vale a pena ver as transformações, em termos de eliminação de excessos visuais, em gráficos de barra, de pizza, tabelas, e mapas, produzidos pela empresa Darkhorse Analytics.

      Gráfico de linha com matérias com o termo "Marielle".

      A noção de densidade de dados remete à quantidade de elementos (linhas, pontos, tipos etc.) inseridos no gráfico. Deve-se buscar uma relação adequada entre o que se mostra e a capacidade de identificar o que é relevante.

      No gráfico acima, elaborado a partir das notícias com o termo “Marielle” publicadas em veículos on-line locais, há uma excessiva densidade. Isso torna inviável perceber os aspectos importantes que o gráfico poderia comunicar, por exemplo, qual veículo publicou mais. Resolver esse problema, em cada situação, poderá envolver a retirada de elementos redundantes (como no exemplo anterior), o aumento do tamanho do gráfico ou escolha de outro tipo de visualização. Para gráficos de linha, uma possibilidade é o uso dos gráficos de Pequenos Múltiplos (Small Multiples), modelo proposto por Tufte. Em relação ao exemplo, fica claro que os veículos UOL e O Globo publicaram mais matérias sobre o tema.

      Gráfico com likes e comentários em vídeos sobre Marielle.

      Este padrão está relacionado à qualidade e ao nível de granuralidade (detalhamento) dos dados.  O primeiro aspecto se associa, além dos aspectos discutidos no Módulo anterior, a questões como: grau de confiabilidade da fonte dos dados, possuir descrições sobre a metodologia para a obtenção dos dados, suas variáveis e dimensões, bem como informar a data em que foram coletados. O nível de granuralidade depende do objetivo da visualização.

      No entanto, note que o gráfico acima, elaborado a partir da contagem das interações (likes e comentários) de vídeos do YouTube que mencionam Marielle Franco possui menor granularidade do que essa visualização, que separa essas variáveis pelas categorias de vídeos, adicionando informação. Além disso, nesse modelo de gráfico dinâmico para web (conforme o mouse passa pela barra, são mostradas informações numéricas) é possível inserir link para os próprios dados com os quais foi produzido o gráfico.


      A leitura de gráficos é uma habilidade associada à capacidade de produzi-los. A análise crítica preocupada com o modo como eles aparecem, em trabalhos acadêmicos e em geral, pode ajudar. É, inclusive, uma possível forma de inspiração para ajudar alguém a elaborar visualizações mais interessantes. A respeito da produção e leitura de gráficos, o projeto Seeing Data, que reúne várias pessoas que desenvolvem pesquisas na área de visualização de dados, possui um material de qualidade para estudar o assunto. Um dos conteúdos, adaptados aqui, sugere que se enfatize a leitura de cinco aspectos de qualquer gráfico.

      Concluindo esse tópico, você poderá ver, a seguir, pequenos tutoriais em vídeo que exemplificam a construção de gráficos com os programas e serviços mencionados.


      Parede de imagens do TikTok
      4CAT - Mural de imagens do TikTok

      Com um dos processadores analíticos do aplicativo foi feita a contagem de hashtags e produzido um mural de imagens das postagens.

      Veja o tutorial

      RAWGraphs - Gráficos de rosca, pizza e dendrograma

      Os dois primeiros usaram os dados de influenciadores brasileiros e o dendrograma foi construído a partir dos links dos sites das entidades científicas da comunicação. 

      Veja os tutoriais: gráfico de rosca, gráfico mapa de árvore e dendrograma

      Dendrograma com links de sites de associações científicas.

      Gráfico de barras.
      Tableau - Gráficos de barra, linha e área

      O primeiro tutorial utiliza os dados do TSE de gastos e recursos de candidatos; o segundo, os das matérias de um jornal com o termo “Marielle”. Já o terceiro, o número de publicações de vídeos em um canal do YouTube.

      Veja os tutoriais dos gráficos: barra, linha e área

      Flourish - Gráficos de pequenos múltiplos (linha) e de barra dinâmico

      O primeiro gráfico utiliza dados de notícias sobre Marielle Franco em veículos on-line e o outro, explorando as possibilidades interativas dos gráficos digitais, explora novamente os dados do TSE sobre gastos e recursos de candidatos.

      Veja os tutoriais dos gráficos: pequenos múltiplos e dinâmico de barra
      Gráfico de pequenos múltiplos de linha.

      Gráfico de barras múltiplas.
      Datawrapper - Gráficos de barras horizontais agrupadas e dinâmico

      O primeiro destes gráficos de barras permite comparar, entre um conjunto de revistas, o número de textos publicados de autoria com vínculo institucional no Brasil ou exterior, enquanto o segundo apresenta uma comparação entre interações de pessoas que viram vídeos sobre Marielle no YouTube e a categoria do conteúdo postado.

      Veja os tutoriais de gráficos de barras: horizontais agrupadas e dinâmico




    • Aberto: domingo, 24 nov. 2024, 00:00
      Vencimento: quarta-feira, 31 dez. 2025, 00:00

      A partir dos dados coletados por você, com base no que viu neste módulo, produza algum tipo de visualização e a insira em um documento de texto. Faça um texto descritivo, abaixo da visualização, em que aponte aspectos importantes relacionados aos dados que  a visualização ajuda a perceber. Suba essa atividade para o ambiente.

    • Faça os exercícios propostos para consolidar aprendizados sobre o assunto estudado.