Blocos de conteúdo principal
Seção: M5 | Análise e visualização de dados | Introdução à análise de dados on-line na pesquisa em Comunicação | ABERTO | | USP Extensão
-
Boas-vindas a você que começa o curso Introdução à Análise de Dados On-Line na Pesquisa em Comunicação. A preocupação central é formar pessoas com interesse em realizar pesquisas na internet.
Há duas formas de oferta. Em turmas de indivíduos matriculados e outra livre, autoinstrucional. Apenas a primeira oferecerá a certificação. A metodologia do curso, baseada na aprendizagem social, enfatiza a interação ativa com o ambiente e com as demais pessoas, de modo a fortalecer o desenvolvimento de uma atitude investigativa.
O curso possui sete módulos, cada um com duas atividades, além de um trabalho conclusivo. Os dois primeiros módulos oferecem um enquadramento geral da discussão. Os quatro módulos seguintes possuem atividades que se voltam aos interesses de cada um. O último módulo discute a questão da ética na pesquisa com dados digitais.
A proposta geral é que você realize reflexões e práticas que o capacitem a entender o papel dos dados digitais numa investigação.
Bons estudos.
Informado por pressupostos da pedagogia social, como a centralidade nos processos educativos do aprender a ser, o curso tem o objetivo de introduzir quem participa em discussões e práticas que envolvem o uso de dados on-line na pesquisa social, particularmente no campo da comunicação. No vídeo acima, é feita uma breve exposição sobre o conteúdo e o desenvolvimento dos trabalhos para a realização do curso. Você pode ver a página com Perguntas Frequentes [FAQ], o Código de Conduta, ter acesso ao PDF com a íntegra do curso e consultar todas as Referências do curso.
-
Módulo 5
Análise de dados
-
Objetivos de aprendizagem:
- Entender a relação entre a análise e a visualização de dados na pesquisa
- Conhecer estratégias analíticas para o trabalho com dados digitais
- Examinar ferramentas para favorecer a realização de análises
- Aplicar o conhecimento na elaboração de análise que utilize os recursos estudados
- Entender a relação entre a análise e a visualização de dados na pesquisa
-
Análises de dados
O adágio “os dados não falam por si” tem como corolário a centralidade da análise de dados nas investigações. Entre os objetivos dessa etapa, conforme diferentes estudos, estão: descrever e hierarquizar os dados, destacando características relevantes, de modo a revelar padrões e, ao mesmo tempo, evidenciar relações entre as várias dimensões deles. Isso ocorre, internamente a um conjunto de dados e entre diferentes datasets e observações de uma investigação. Num nível mais geral, as análises buscam obter elementos para elucidar questões de pesquisa.
Convém esclarecer que as análises e a feitura de visualizações de dados são etapas complementares, de maneira geral, e se reforçam mutuamente. Há casos, mais raros, em que os dados derivam de alguma visualização, como no caso das estimativas de pessoas em multidões, feitas a partir da contagem de imagens de drones. No entanto, é mais comum que se realizem análises e que se busque, por meio das visualizações, tornar o significado do que se apurou mais compreensível.
As possibilidades analíticas são bastante variadas e os critérios de escolha estão ligados às opções paradigmáticas e teóricas de quem pesquisa, bem como aos problemas de investigação enfrentados. Uma categorização comum é entre as abordagens analíticas voltadas a dados quantitativos (estatística inferencial ou descritiva) e qualitativos (análises de conteúdo e discurso).
Ao longo deste módulo, abordaremos, de maneira introdutória, as ferramentas analíticas mostradas a seguir. Por meio delas, será possível apresentar possibilidades de análises relacionadas a dados quantitativos e produção de visualizações (4CAT, Tableau e serviços web), dados textuais, tratados quantitativamente (4CAT, AntConc e Voyant Tools) e Análise de Redes (Flourish, VOSviewer e Gephi).
No Módulo seguinte, que discute especificamente as visualizações, algumas dessas ferramentas serão retomadas.
- O aplicativo on-line, cujas características para a coleta de dados de plataformas digitais foram vistas, possui os chamados “processadores” analíticos.
- Eles permitem obter dados organizados sob diferentes parâmetros, de maneira simples, como mostra esse vídeo.
- Software e plataforma proprietários para a feitura de análises visuais de dados.
- A relativa facilidade de uso é um dos pontos fortes desse programa.
- Possui diferentes versões: comercial, de teste, para uso de estudantes e educadores, on-line e desktop. Aqui, vamos explorar o gratuito Tableau Public, que requer apenas registro na plataforma e pode ser usado on-line.
- A empresa oferece bons materiais de treinamento, com vídeos e manual digital.
- Há uma comunidade interessada de pessoas que compartilham produções na plataforma da empresa, bem como explicações e tutoriais no YouTube e outros locais da internet.
- Veja essa breve descrição sobre uso do programa.
RAWGraphs- Aplicativo on-line open source, que permite a criação de diferentes tipos de gráficos.
- Possui interface simples e tutoriais explicativos sobre a criação dos gráficos, veja esse exemplo.
- Requer a criação de conta e possui plano pago e gratuito.
- Tem como diferencial a possibilidade de criar visualizações dinâmicas para a web.
- Permite a criação de gráficos de rede.
- O uso é relativamente intuitivo, porém é mais complexo do que o anterior.
- Outro serviço para a criar gráficos na web, com serviço por assinatura e uso gratuito.
- O grau de dificuldade e de recursos fica entre os dois serviços já mostrados.
Voyant Tools- Aplicativo on-line gratuito com várias ferramentas de análise de dados textuais, capaz de fornecer o índice de legibilidade, as palavras usadas com frequência (e nuvem de palavras), frases-chave, entre outras informações.
- Fácil de usar, com interface amigável.
- Tutorial em português.
- Como é um serviço on-line, se os dados são sensíveis e exigem confidencialidade, não é uma boa opção.
- Software gratuito multiplataforma criado pelo linguista Laurence Anthony, com ferramentas para a análise textual.
- Possui manual e vídeos explicativos feitos pelo autor. Na internet há também materiais de ensino do programa em português (como esse manual ou as úteis postagens de Tarcízio Silva). No entanto, é preciso ter atenção sobre o relacionamento entre a versão do programa usada e o material de estudo obtido.
VOSviewerGephi
- Programa multiplataforma especializado na produção de redes bibliográficas.
- Manual em português.
- Programa open source multiplataforma e gratuito para a produção de redes.
- O uso é relativamente simples e o site do software possui muitos tutoriais, introdutórios ou mais aprofundados, como esse, assim como as pessoas que o utilizam e produzem explicações, em vários espaços, como o YouTube.
Introdução à Análise de Dados On-Line na Pesquisa em Comunicação
Tutorial: análise de dados com 4CAT
Tutorial produzido pelos criadores do 4CAT sobre análise utilizando o aplicativo.
Introdução à Análise de Dados On-Line na Pesquisa em Comunicação
Tutorial: interface e uso do Tableau Public
Tutorial descrevendo a interface e o uso do programa Tableau Public.
Introdução à Análise de Dados On-Line na Pesquisa em Comunicação
Tutorial: criação de gráfico no RAWGraphs
Um dos tutoriais para a criação de um dos tipos de gráfico do serviço on-line.
Introdução à Análise de Dados On-Line na Pesquisa em Comunicação
Tutorial: uso do programa AntConc
Tutorias em vídeo do autor do programa AntConc, explicando como usar as funcionalidades do software.
Introdução à Análise de Dados On-Line na Pesquisa em Comunicação
Tutorial: uso do programa Gephi
Tutorial no formato Gephi Quick Start produzido pelo Gephi Consortium
-
Análise estatística descritiva
A análise descritiva é o tipo mais simples de análise de dados estatísticos. Basicamente, resume as características principais de um conjunto de dados em um formato compreensível, apresentando e organizando os valores, muitas vezes focando em uma única variável. É utilizada para comparar e entender os dados, discernindo padrões e tendências subjacentes a eles. Nessa abordagem, são utilizados cálculos como os da média, da média aparada, da mediana, da moda, de percentuais e de frequências, entre outros. Veja a seguir algumas definições de medidas.
A média (também chamada de média aritmética) é o resultado da soma de todos os números do conjunto de dados dividida pelo número de valores do conjunto.Similar à média, mas eliminando os valores extremos (menores e maiores). Um exemplo de possível uso seria para compreender o padrão de publicações dos participantes de um grupo de WhatsApp, no qual quem modera publica muito, eventualmente distorcendo o resultado. As publicações dessa pessoa poderiam ser eliminadas, com o uso dessa medida.É o valor do meio quando o conjunto de dados está ordenado do menor para o maior. Se o número total do conjunto é ímpar, é o do meio; se for par, é a média dos dois valores centrais. Usada também para dados com outliers (valores que fogem do padrão) ou distribuições assimétricas.Número ou categoria que aparece mais vezes em um conjunto de dados.Diferença entre o maior e o menor valor do conjunto de dados.O desvio-padrão é uma medida que indica a dispersão dos valores em relação à média. A variância é o desvio-padrão ao quadrado. Desvios-padrão altos indicam maior variabilidade, enquanto valores mais baixos refletem dados mais homogêneos.A relevância e o sentido das métricas utilizadas precisam ser esclarecidas, antes que sejam expostas correlações e conclusões a respeito dos dados estatísticos. Por exemplo, indicadores comuns de dados de redes sociais, como “compartilhamentos”, “curtidas”, “seguidores” e “retuítes”, são frequentemente utilizados em análises, mesmo que o real significado por trás dessas interações não seja óbvio. É simples identificar quais usuários receberam mais retuítes, mas o motivo por trás dessas ações é incerto – para compreender isso, são necessárias abordagens qualitativas distintas. As interações padronizadas das redes sociais nem sempre são equivalentes ou comparáveis. Em resumo, como notam van Es et al. (2017, p. 177), “nem todas as ʽcurtidasʼ são iguais”.
Dados estatísticos geralmente são organizados em tabelas e apresentados em diferentes visualizações, como será mostrado.
-
Análise textual
Todos os tipos de texto contêm informações que podem ser tratadas como uma forma de dado em pesquisas, observa um autor, que também destaca que isso significa transformá-los em dados mais estruturados, sintéticos e quantitativos. Desse modo, os textos podem ser utilizados em abordagens tradicionais de análise de dados. Geralmente, sobretudo na pesquisa quantitativa, isso envolve a extração de características de um texto, depois tabuladas e contadas. Veja um exemplo.
As ciências sociais possuem uma longa tradição de análise de textos para obter informações, a partir da codificação humana, em categorias elaboradas no processo de pesquisa. Porém, como argumentam certos pesquisadores, os textos eram, geralmente, usados com parcimônia devido à dificuldade de trabalhar com eles em larga escala. Isso muda a partir do advento e disseminação da internet, das ferramentas de análise computacionais e com os desenvolvimentos metodológicos associados. Nesse contexto, há diversidade de perspectivas e possibilidades analíticas no trabalho com o texto como dado. Ao mesmo tempo, a grande variedade entre os tipos de texto inviabiliza uma abordagem metodológica única, pois
"o conteúdo que gostaríamos de extrair de um texto se estivermos interessados em conhecer seu tópico é qualitativamente diferente do conteúdo que extrairíamos se estivéssemos interessados em conhecer seu sentimento. Identificar a ideologia de um texto é bem diferente de identificar seu autor (uma tarefa do campo da estilometria). Os tipos de quantidades que os cientistas sociais esperam extrair dos textos são diversos e estão em constante crescimento" (Grimmer et al., 2022, p. 65).Embora não exista restrição quanto aos tipos de textos que possam ser analisados como dados, bem como quanto às formas de coleta, alguns autores argumentam que um ponto forte da abordagem é sua associação com meios de obtenção de dados em larga escala e de maneira não reativa, como nas produções (postagens, comentários etc.) que as pessoas publicam na internet. Isso seria um aspecto que poderia contornar vieses de observação.
Introdução à Análise de Dados On-Line na Pesquisa em Comunicação
Transformação de textos em dados quantitativos
Exemplo de estratégia geral de conversão de dados textuais em quantitativos para análises. Adaptado de Benoit (2020).
-
Linguística de Corpus e suas técnicas
Dentre as abordagens de estudo do texto como dado, a linguística de corpus (LC) tem ganhado atenção, além de sua área disciplinar de origem, a Linguística. A LC se desenvolveu, desde a década de 1960, a partir da linguística computacional, adquirindo contornos mais específicos nas décadas seguintes. Embora seu estatuto, enquanto metodologia ou teoria de estudo, seja debatido até hoje, em seu campo de origem, suas técnicas de pesquisa foram adotadas por várias áreas e disciplinas das ciências sociais interessadas em reconhecer padrões de uso de palavras, para inferir o significado dos dados linguísticos.
Para alguns, as limitações da análise automatizada fazem com suas técnicas sejam válidas, principalmente, em análises exploratórias que levem à geração de hipóteses e indagações a serem exploradas por outros métodos de análise textual. Nesses casos, como mostram metanálises, a LC é usada como complemento de análises em pesquisas que utilizam métodos mistos. Assim, ela pode estar conjugada a análises de discurso, conteúdo e outras estratégias.
A seguir, são expostas características de algumas técnicas usuais da LC, utilizando exemplos de uma análise no programa AntConc, tendo como corpus os comentários do vídeo com maior número de visualizações no canal do Instituto Marielle Franco. Esses comentários foram codificados em termos de exposição de sentimentos negativos, positivos e neutros/ambíguos em relação à Marielle e ao vídeo.
No AntConc, é possível fazer o processamento analítico de diferentes corpura textuais ao mesmo tempo. Assim, os arquivos com comentários positivos, negativos e neutros foram, como mostra o resultado da imagem, verificados em termos da frequência e dispersão de palavras. Essas medidas fornecem informações básicas sobre a importância de palavras em textos. No caso, a análise se concentra nas três palavras com mais ocorrências no todo, mostrando como aparecem em cada um dos corpura.
Os dados das medidas de frequência de palavras indicam ocorrências absolutas e relativas, sendo a última mais adequada para comparações. Uma noção importante é a de token, que significa cada conjunto contíguo de caracteres. Vale notar que é possível fazer com que o programa não recupere palavras comuns, mas sem significado analítico (“e”, “a”, “o”, “para” etc.). Além disso, pode ser necessário acrescentar tokens no programa para que sejam contados certos caracteres que tenham valor para uma pesquisa, mas que por padrão são ignorados (consulte o Manual do AntConc sobre isso), o que ocorre com os sinais gráficos de hashtag e arroba.
A dispersão de palavras descreve a distribuição de algum termo no texto ou documento. Como os três corpura foram compostos por comentários do YouTube, com ordem textual em uma temporalidade do período mais recente (2024) ao início dos comentários (2022), é possível inferir que a preocupação com “justiça” esteve mais presente nos comentários positivos, no início e desde a metade do tempo até o período mais recente das publicações. A imagem do Plot favorece a percepção disso.
A investigação de palavra-chave em contexto ou KWIC (Key Word in Context), conforme o acrônimo em inglês, examina os padrões de coocorrência de palavras adjacentes ou próximas, sendo frequentemente usada em análises exploratórias para entender quais tipos de palavras se agrupam nas proximidades de certo termo. A palavra-chave no centro de um quadro contextual é conhecida como palavra-nó (Hit, no termo do AntConc, como mostra a imagem acima) e as adjacentes ajudam a compreender o sentido mais exato de uso dela.
O KWIC é o formato mais comum de apresentação de concordâncias, termo relacionado à apresentação sistemática de todas as ocorrências de uma palavra ou expressão específica (a palavra-chave) em seu contexto textual imediato. A análise de concordância permite identificar as colocações (palavras que frequentemente ocorrem juntas) e os contextos específicos de uso dos termos. As colocações mais frequentes de um termo podem ser vistas na aba Collocate do programa.
Os padrões de colocação entre palavras contíguas, cujo número é chamado n-grama, são úteis para perceber grupos de palavras semanticamente importantes. Tais padrões podem ser localizados sem a especificação de alguma palavra-chave, como no caso do exemplo da imagem, em uma exploração puramente indutiva. O número de palavras contíguas a serem recuperadas é uma escolha de quem faz a pesquisa.
A identificação de palavras-chave também examina um tipo de colocação ou coocorrência entre corpura. O objetivo é localizar, a partir da comparação, palavras que aparecem no corpus analisado (“Target Corpus” ) em taxas muito maiores ou menores do que seria esperado, a partir dessa comparação comum corpus de referência (“Reference Corpus”).
Quando determinada palavra ocorre em um documento com frequência significativamente maior ou menor do que a esperada com base nas frequências observadas desse tipo de palavra em um ou mais documentos diferentes, isso tem valor analítico. É importante que o corpus de referência, usualmente pelo menos cinco vezes maior que o outro, tenha justificativa lógica. Por exemplo, no caso mostrado na imagem, o corpus em análise, consistindo dos comentários negativos ao vídeo sobre Marielle, foi comparado com uma coleção muito maior de comentários em outros vídeos envolvendo a ex-vereadora.
As nuvens de palavras são, provavelmente, o formato de visualização mais diretamente associado aos trabalhos que usam textos como dados. Entretanto, como discute Laurence Anthony (2018), criador do software AntConc, muitas outras visualizações, como os gráficos de barra, linha, mapas de calor, são também utilizadas, nos estudos da LC, para dar expressão visual às análises de aspectos já discutidos. Isso é natural, devido ao teor quantitativo da abordagem.
Como nota o autor, cada um dos métodos de visualização têm pontos fortes e fracos, por isso é importante entendê-los antes de escolher uma visualização apropriada para a análise. Há discussões sobre esse aspecto e trabalhos que fazem uso mais sofisticado de visualizações para comunicar dados textuais. Veja um exemplo.
O AntConc gera nuvens de palavras e plots. O #Lancsbox, um programa similar, é um pouco melhor nesse aspecto, já que possui um módulo dedicado a visualizações, no qual foram produzidas as figuras que ilustram a discussão.
Finalizando esse tópico, você poderá ver os tutoriais com um panorama do AntConc e sobre como produzir uma nuvem de palavras, além de ver outras informações com o aplicativo on-line Voyant Tools.
AntConc - Panorama geral
O tutorial apresenta um breve panorama do programa voltado à Linguística de Corpus, mostrando como importar dados e realizar algumas análise nele.
Veja o tutorial
Voyant Tools - nuvem de palavras e outros recursos
O aplicativo on-line tem uso intuitivo e permite elaborar nuvens de palavras, escolhendo o nível de detalhamento, bem como outras informações sobre textos.
Introdução à Análise de Dados On-Line na Pesquisa em Comunicação
Tutorial: panorama do programa AntConc
Tutorial que mostra a interface e características do software AntConc.
Introdução à Análise de Dados On-Line na Pesquisa em Comunicação
Tutorial: nuvem de palavras com o aplicativo Voyant
Criação de nuvem de palavras e outras características do aplicativo Voyant.
-
Análise de redes sociais
A Análise de Redes Sociais (ARS), de acordo um pesquisador reconhecido no campo, é
“um conjunto de conceitos, medidas e técnicas de análise relacional. Trata-se de uma abordagem especificamente concebida para apreender as características mais importantes das estruturas sociais ... pode ser usada para explorar as relações sociais em si e também as estruturas culturais de normas e ideias que ajudam a organizar essas relações”.Afirma-se que a ARS não é, precisamente, uma abordagem teórica, mas sim uma orientação teórica geral (paradigma) que enfatiza os relacionamentos entre atores, cujos métodos têm sido utilizados no desenvolvimento de teorias sociais específicas. Por vezes, ela dialoga com teorias sociais, com as quais compartilha algumas afinidades, apesar de diferenças, como a Teoria Ator-Rede.A abordagem possui uma longa história nas ciências sociais, que remonta aos primórdios de disciplinas como a sociologia e a antropologia. Na área da comunicação, nas últimas décadas, houve forte crescimento de seu uso, principalmente nos estudos da mídia social e comunidades on-line.
Já nas primeiras décadas do século XX, a sociologia alemã, com autores como Simmel (1858-1918), destacava que a sociedade era constituída por meio das interações entre indivíduos. Essa ideia é formalizada, em décadas posteriores, principalmente na psicologia social. Jacob Moreno (1889-1974), por exemplo, criou os chamados sociogramas, como uma forma de representar visualmente as redes sociais com padrões de pontos e linhas. A abordagem desenvolvida, com influência da teoria do grafo, é chamada de sociometria, e passa a ser utilizada em estudos de “dinâmicas de grupo” e de comunidades maiores.
De modo simultâneo, nos Estado Unidos, métodos formais, principalmente os das teorias de conjuntos algébricos, foram utilizados no desenvolvimento de um paradigma para a ARS. Houve, assim, certa complementaridade entre as perspectivas: enquanto a teoria do grafo utilizada nos estudos sociométricos se concentrava nas interações entre indivíduos, a teoria dos conjuntos destacava as posições, funções e papéis ocupados por eles na estrutura social revelada.
Como apontam algumas autoras, várias razões tornam a ARS atraente no estudo da mídia digital: as redes sociais na internet possuem grande número de pessoas que interagem entre si, a abordagem favorece a compreensão sobre esse objeto ao destacar a estrutura de relacionamentos; além disso, a abordagem é produtiva, devido a seu foco ser em como os recursos fluem em uma rede. O último ponto pode ser relevante, por exemplo, para examinar a disseminação de certo conteúdo.
As mesmas autoras notam que, metodologicamente, a delimitação do escopo do estudo é geralmente se baseia em uma abordagem nominalista. Desse modo, a natureza da pergunta de pesquisa indica quem será incluído na rede. Uma estratégia bastante utilizada é o agrupamento por hashtag. Embora válida, essa estratégia requer precauções, já que, entre outros pontos, uma discussão similar pode envolver o uso de várias hashtags.
Introdução à Análise de Dados On-Line na Pesquisa em Comunicação
Sociograma de relacionamento de Moreno
Reproduzido de What is Social Network Analysis?.
-
Conceitos básicos sobre os grafos
A ideia de entender uma estrutura social como uma rede está no centro da ARS, por isso, a importância de técnicas que transformem dados, digitais ou não, em visualizações de rede (grafos). A seguir, serão apresentados alguns conceitos básicos sobre os grafos e como se pode construir uma visualização de rede com diferentes programas.
Gráficos de rede ou grafos dão forma visual a estruturas de relacionamento, mais ou menos explícitas, entre atores, representados nos chamados nós ou vértices. A ligação ou conexão entre os nós, que podem ser pessoas ou entidades como países, empresas, produtos e citações (dimensão comum em análises bibliométricas), é chamada de aresta. O direcionamento da relação é indicado por setas e nesse caso o grafo é chamado de direcionado.
O grafo acima representa a primeira parte do famoso poema “Quadrilha”, de Carlos Drummond de Andrade. A aresta representa a relação de “amor” e não possui, em nenhum caso, reciprocidade. Caso houvesse, haveria duas arestas ou uma aresta com duas setas. Ao lado do grafo, há a representação da rede de relacionamento no formato de matriz e num padrão lido pelo programa Gephi.
Os nós e arestas podem ter algum peso, que expresse alguma medida e seja representado de modo numérico ou visual. Veja esse exemplo.
Os grafos podem ser organizados a partir de estruturas egocêntricas ou sem essa característica, nos gráficos inteiros. No primeiro caso, o grafo é organizado a partir de um nó central, o “ego”, e os seus contatos imediatos são chamados de “alters”.
É mais comum que as redes sejam elaboradas com um único tipo de ator como nó. No entanto, nas redes de dois modos ou redes bipartidas, chamadas também por vezes de redes de afiliação, as ligações ocorrem entre dois conjuntos distintos de entidades. Um exemplo é uma rede em que um conjunto seja de pessoas e o outro de séries de televisão preferidas por elas. Embora a ideia possa ser interessante, para determinado estudo, observa-se que os conceitos analíticos da ARS são voltados a redes de um único modo.
A centralidade do grau mede o número de conexões de um nó, somando as arestas conectadas a ele. Em gráficos direcionados, há um grau de entrada (in-degree) que corresponde às arestas que chegam ao vértice, e um grau de saída (out-degree), a partir do número de arestas que partem dele. A medida geral do grau de centralidade é a soma das anteriores.
O grafo acima mostra os graus de entrada e de saída, isto é, o quanto os artigos publicados pelas revistas mostradas receberam ou fizeram citações a trabalhos de outros periódicos do conjunto. Por isso, a partir de configurações no software que gerou a visualização, as revistas com maior grau ocupam posição mais central e possuem nós maiores.
A centralidade de grau pode se associar, dependendo do tipo de relação mapeada, a aspectos como relevância, influência ou popularidade do ator representado em um nó.
Além desse tipo de centralidade (grau), há também as seguintes medidas:
- Centralidade de intermediação: verifica os nós que atuam como “pontes” na rede. O valor é dado pela contagem do número de vezes que determinado nó percorre o trajeto mais curto até os outros. Nós com alta centralidade de intermediação controlam fluxos de informação e recursos. Em redes de transporte, as estações centrais têm maior escore nesse quesito.
- Centralidade de proximidade: mede a proximidade de um nó em relação a todos os outros. Um nó com alta centralidade de proximidade tem acesso rápido aos demais nós, sendo capaz de se comunicar diretamente ou por poucos intermediários com o resto da rede. Alto escore nessa métrica se associa a nós com relevância, por exemplo, para a propagação de mensagens.
- Centralidade de autovetor: identifica as conexões diretas de um nó associadas à centralidade de seus vizinhos. Nós com alta centralidade de autovetor podem ser vistos como poderosos ou com prestígio, pois, ainda que não estejam conectados a muitos nós, suas conexões ocorrem com vértices importantes da rede. O algoritmo do buscador Google utiliza uma variante dessa medida.
Para entender melhor a centralidade de intermediação, veja esse grafo.
Programas como o Gephi realizam o cálculo de diferentes tipos de centralidade que poderão estar associadas à visualização.
O coeficiente de clusterização é a métrica da tendência dos nós de uma rede formarem clusters ou grupos. Está associada à modularidade de uma rede, ou seja, à propensão de determinados nós estabelecerem conexões com outros, formando grupos.
No grafo acima, com os mesmos dados de revistas, mas com design mais elaborado (sem números de grau e com arestas curvas), a cor dos nós e arestas (roxo, laranja e verde) está relacionada aos clusters formados a partir das conexões entre nós.
Os grafos podem ser desenhados de modo manual, em programas de desenho. No entanto, tem se tornado frequente o uso de aplicativos que produzem visualizações elaboradas, seguindo métricas como as vistas aqui. Geralmente essas ferramentas possuem os chamados algoritmos de distribuição que irão, a partir de suas características específicas, distribuir nós e arestas para produzir uma visualização. Há, entretanto, margem para personalizações, durante o uso do programa.
Como escolher uma distribuição/visualização? Em primeiro lugar, é essencial que a representação dos dados seja legível, além disso, a topologia do grafo deve destacar os aspectos para os quais se pretende apontar. Como se pode ver, acima, os mesmos dados serviram para elaborar grafos bastante diferentes, a partir dos algoritmos, indicados abaixo das imagens. Desse modo, conhecer as características dos algoritmos é importante, consultando materiais sobre o assunto, como esse.
Como bem observa Recuero (2017): “A visualização é uma forma de mostrar aquilo que as métricas calculam, e não uma justificativa per se. Ela deve ser, portanto, visualmente informativa daquilo que as métricas demonstram. Por conta disso, é sempre importante descrever quais métricas e algoritmos foram utilizados para a visualização” (p. 62).
Para concluir o estudo sobre a análise de redes, você pode ver os tutoriais, exemplificando o uso de programas na produção de grafos.
VOSviewer - Grafo bibliográfico
Exemplo de como produzir um grafo com palavras-chave de trabalhos acadêmicos sobre Marielle Franco, coletados do Scopus (veja esse tutorial sobre como fazer isso). Em programas que editam arquivos SVGs, como o on-line Boxy, é possível apagar o logotipo do VOSviewer. Entretanto, é válido informar o uso dele, em textos que utilizam grafos feitos com ele.
Veja o tutorial
Flourish - Grafo egocêntrico
É possível construir gráficos neste programa, como mostra o exemplo, a partir de verbetes da Wikipédia relacionados a Marielle Franco.
Gephi - Grafos de relacionamento entre perfis do Instagram e entre citações de revistas
O primeiro tutorial utiliza os dados de perfis seguidos por organizações feministas brasileiras e o segundo, os dados de revistas científicas.
Em relação à primeira visualização, vale a pena notar o uso de filtros no Gephi, de modo a diminuir o número de rótulos de nós mostrados, bem como a aplicação da cor aos clusters do grafo.
Veja os tutoriais dos grafos: perfis, revistas
Você aprendeu muito sobre análises de dados, mas terá uma visão mais sólida sobre o tema, para efetuar seus próprios trabalhos, à medida em que ler criticamente estudos que utilizam metodologias como as expostas. Nesse sentido, sugere-se o exame dos seguintes artigos, cada um utilizando uma das estratégias de análise destacadas:- “#PraCimaDeles: O Humor na Construção da Identidade Política de Guilherme Boulos”, de Richard Romancini, Viviane Barbosa Marques e Fernanda Castilho Santana – Palabra Clave, 27(4), e2749, 2024. Utiliza análises descritivas de dados do Instagram.
- “Ni Una Menos: A Luta pelos Direitos das Mulheres na Argentina e Suas Representações no Facebook”, de Rodrigo Esteves de Lima-Lopes e Maristella Gabardo – Revista Brasileira de Linguística Aplicada, 19(4), 801-824, 2019. Aplica a Linguística de Corpus, no trabalho metodológico.
- “A Endogamia da Comunicação: Redes de Colaboração na CSAI”, de Marco T. Bastos, Gabriela Zago e Raquel Recuero – Revista Famecos, 23(2), ID21459, 2016. Faz uso da ARS.
Uma observação final importante é que as metodologias ou técnicas descritas podem ser conjugadas entre si e a outras, como exemplifica a discussão de Recuero (2018) sobre a combinação de ARS e análise de conteúdo.
Introdução à Análise de Dados On-Line na Pesquisa em Comunicação
Grafo do comércio internacional dos países do G-20
O grafo exemplifica a ideia do peso para nós e aresta, explicando que: “As arestas direcionadas (links) entre quaisquer dois nós (países) são dadas pelo valor total do comércio entre esses países. A espessura das arestas e o tamanho de suas setas indicam as magnitudes dos fluxos comerciais em ambas as direções. Os tamanhos dos nós são definidos de acordo com o logaritmo do PIB de um país. É possível ver claramente como os nós Europa, China e Estados Unidos formam um grande triângulo global de comércio e como outros países se conectam a ele”. Reproduzido de Netconomics: Novel Forecasting Techniques from the Combination of Big Data, Network Science and Economics.
Introdução à Análise de Dados On-Line na Pesquisa em Comunicação
Tipos de grafos com estrutura egocentrada
A complexidade dos grafos egocentrados pode variar, conforme mostram os exemplos.
Introdução à Análise de Dados On-Line na Pesquisa em Comunicação
Exemplo de centralidade de intermediação
A tonalidade (do vermelho=0 ao azul=máx.) indica a centralidade de intermediação de cada nó. Grafo de Claudio Rocchini, CC BY 2.5.
Introdução à Análise de Dados On-Line na Pesquisa em Comunicação
Exemplo de rede de dois modos
Rede elaborado a partir de dados de preferências de pessoas por séries de TV.
Introdução à Análise de Dados On-Line na Pesquisa em Comunicação
Tutorial: VOSviewer - Grafo bibliográfico
Tutorial mostrando a elaboração de um grafo, a partir de dados coletados na base Scopus.
Introdução à Análise de Dados On-Line na Pesquisa em Comunicação
Tutorial: Flourish - Grafo egocêntrico
O tutorial mostra como produzir um grafo utilizando o aplicativo Flourish, a partir de ligações entre verbetes da Wikipédia.
Introdução à Análise de Dados On-Line na Pesquisa em Comunicação
Tutorial: Gephi - Grafo de relacionamento entre perfis do Instagram
Tutorial mostrando a elaboração de um grafo a partir de dados de relacionamento entre perfis de rede social.
Introdução à Análise de Dados On-Line na Pesquisa em Comunicação
Tutorial: Gephi - Grafo de citações entre revistas
Tutorial com passo a passo para criar grafo com dados de citações entre revistas.
Introdução à Análise de Dados On-Line na Pesquisa em Comunicação
Coleta de dados bibliográficos da base Scopus
Tutorial que explica como coletar dados bibliográficos da base Scopus a partir de busca.
-
Aberto: domingo, 24 nov. 2024, 00:00Vencimento: quarta-feira, 31 dez. 2025, 00:00
Realize uma breve análise de dados coletados por você durante o curso, a partir do que estudou, optando por algum tipo de estratégia relacionada a texto ou à ARS e explorando alguns dos programas mostrados. Faça isso em um arquivo de texto que seja inserido no ambiente.
-
Faça o exercício, no qual você deve arrastar três pontos fortes de cada uma das abordagens analíticas estudadas para os campos corretos.
-
REAs de aprofundamento
-