Curso: Introdução à análise de dados on-line

Curso: Introdução à análise de dados on-line | USP Extensão

Boas-vindas a você que começa o curso Introdução à Análise de Dados On-Line. A preocupação central é formar pessoas que tenham interesse em realizar investigações na internet.

Há duas formas de oferta: em turmas de indivíduos matriculados, e a forma autoinstrucional, livre. Apenas a primeira oferecerá certificação.

A metodologia do curso, baseada na aprendizagem social, enfatiza a interação com o ambiente e com as demais pessoas, de modo a fortalecer o desenvolvimento de uma mentalidade investigativa.

O curso possui seis módulos, cada um com duas atividades. Os dois primeiros módulos oferecem um enquadramento geral da discussão. Os três módulos seguintes têm atividades que se dirigirão aos interesses específicos das pessoas. Por fim, o último módulo abordará a questão da ética na pesquisa com dados on-line.

A proposta geral é que você realize reflexões e práticas que o ajudem a se tornar um pesquisador ou pesquisadora consciente do uso de dados digitais numa investigação.

Bons estudos.

Informado por pressupostos da pedagogia social, como a centralidade nos processos educativos do aprender a ser, o curso tem o objetivo de introduzir quem participa em discussões e práticas que envolvem o uso de dados on-line na pesquisa social, particularmente no campo da comunicação. No vídeo acima, é feita uma breve exposição sobre o conteúdo e o desenvolvimento dos trabalhos para a realização do curso. Você pode ver a página com Perguntas Frequentes [FAQ], o Código de Conduta, ter acesso ao PDF com a íntegra do curso e consultar todas as Referências do curso.

Apresentação de cursistas e avisos Fórum

M1 | Pesquisa e métodos digitais
Módulo 1

Pesquisa e métodos digitais
- Objetivos de aprendizagem:
  
  Entender a relevância da internet na pesquisa social
  
  Familiarizar-se com as discussões sobre a pesquisa na internet e os métodos digitais
  
  Verificar o uso de métodos digitais em pesquisas científicas
- A pesquisa na sociedade em rede
  
  Os computadores e a internet na pesquisa já não são novidades. Iniciantes no mundo acadêmico mal podem imaginar a época em que teses eram redigidas em máquinas de escrever ou quando, em um mundo sem bases de dados digitais conectadas, ferramentas de busca de literatura científica e livrarias on-line, as revisões de literatura podiam exigir meses de trabalho. Houve um tempo em que as submissões de artigos a revistas e congressos eram feitas pelo correio e foi um avanço quando, em vez de textos impressos, eram enviados disquetes. Dispositivo que muitos, hoje, nunca viram.
  
  As mudanças no modo de vida das sociedades, decorrentes da rápida inserção de tecnologias digitais, desde meados da década de 1990, ocorrem não somente no campo da investigação científica, mas em todas as dimensões. Daí, a criação de termos para nomear o atual momento histórico caracterizado pela emergência de uma sociedade global interconectada por redes de informação, como o de sociedade em rede.
  
  Entretanto, como as ciências sociais sempre tiveram como objeto a realidade de seu tempo, sendo admitido que seu surgimento decorre das transformações da primeira revolução industrial, elas são, ao mesmo tempo, afetadas pelas transformações, internamente em seu modo de trabalho, e convocadas para compreender as mudanças na sociedade.
  
  É provável que você que está iniciando esse curso já tenha ou esteja desenvolvendo alguma pergunta de pesquisa que possa estar relacionada ao universo da internet. Como pretende realizar a pesquisa, que dados utilizará?
  
  Embora você já tenha falado sobre suas expectativas no Fórum inicial, responda à enquete a seguir, na qual poderá ver o conjunto de respostas da turma.
- A mídia digital como objeto de pesquisa
  
  No contexto social mencionado, há o debate sobre a emergência da ciência social digitalizada ou da sociologia digital. A discussão ocorre em várias disciplinas, com propostas de especialidades voltadas ao digital (e.g., “história digital”) ou para a organização do modo de produção de conhecimento de maneira mais geral. Isso poderia ocorrer, por exemplo, por meio da pesquisa em campos interdisciplinares, como o das “humanidades digitais”.
  
  Outros autores defendem o estudo do papel da mídia digital na sociedade como um tópico relevante de pesquisa, mas não como nova disciplina ou campo inter, multi ou transdisciplinar. O problema apontado é a hiperfragmentação do mundo acadêmico em subcampos e subdisciplinas cada vez mais especializados, promovendo uma diversidade sem unidade.
  
  Seja como for, a pesquisa social já tem contribuído para aumentar a compreensão e desmistificar as práticas digitais. Desse modo, assim como a novidade da internet se esvaiu, também o folclore, por vezes divertido, sobre ela foi superado por conhecimentos mais rigorosos. Um exemplo é o da preocupação sobre a suposta ampla falsificação de identidades que a rede fomentaria, com animais se passando por pessoas.
  
  O contínuo imbricamento entre o mundo virtual e o off-line reforçou a importância social da internet, que é cada vez mais utilizada pelas pessoas. Desse modo, é possível indagar:
  
  “Existe uma distinção útil entre a vida social on-line e os mundos sociais da ‘vida real’? Cada vez mais, a resposta parece ser não. As duas se mesclaram em um mundo: o mundo da vida real, como as pessoas o vivem. É um mundo que inclui o uso da tecnologia para se comunicar, debater, socializar, expressar e compreender”.
  
  Embora essa convergência seja discutível, ela constitui, por si só, um tema de pesquisa em relação a diferentes situações e objetos de investigação. Em sentido mais geral, as questões de conhecimento que envolvem a internet foram amplamente expandidas. A discussão sobre os dados on-line ou dados digitais e o uso deles associados aos métodos digitais decorre desse cenário.
  
  Introdução à Análise de Dados On-Line
  
  Internet e identidades
  
  O meme acima é um dos que foi inspirado pelo cartum, hoje clássico, de Peter Steiner, publicado em 1993, quando a questão das identidades on-line era um tema de questionamento.
- Pesquisa on-line e métodos digitais/virtuais
  
  O termo pesquisa on-line (online research) é corrente na literatura de língua inglesa e seu uso está relacionado ao uso da internet em investigações. Isso começou a ocorrer desde que a web se tornou pública, sendo comum, nos debates da época, a distinção entre a pesquisa que examina a internet e a que utiliza a pesquisa on-line. A ideia de métodos on-line ou digitais se aplica à última noção, ainda que tais métodos sejam naturalmente mais utilizados quando os fenômenos em estudo estão associados à rede.
  
  Apesar de não existir consenso a respeito do que são métodos digitais (digital methods), é possível delinear dois entendimentos principais: um geral ou amplo e outro específico, mais restrito. No primeiro caso, o termo indica o
  
  “uso de tecnologias on-line e digitais para coletar e analisar dados de pesquisa ... [envolvendo] não apenas a pesquisa que explora fenômenos on-line, mas também com interesse mais amplo na utilização de métodos digitais para abordar todos os aspectos da vida social contemporânea”.
  
  Nessa perspectiva, o “digital” na expressão é utilizado como um termo genérico para descrever métodos de pesquisa que empregam aplicativos e procedimentos computacionais. É comum, a partir desse entendimento, que se discuta a transposição de métodos tradicionais das ciências sociais para o digital, entre outros, os levantamentos (surveys), entrevistas e grupos focais, etnografias e experimentos.
  
  Por vezes, para diferenciar essa abordagem daquela que veremos a seguir, fala-se em métodos virtuais com respeito a esse entendimento ampliado sobre métodos digitais.
- Métodos digitais em sentido estrito
  
  O entendimento restrito sobre métodos digitais é baseado nas propostas de Richard Rogers (2013), que delimita o domínio deles às pesquisas que utilizam, primariamente, dados da própria internet, procurando refletir sobre eles e “seguir o método do meio”.
  
  Isso significa levar em consideração as especificidades da mídia digital investigada: estudar a sociedade a partir da investigação de um dispositivo, aplicativo ou plataforma digital implica, também, estudar essas instâncias. Em síntese, essa abordagem metodológica emprega ferramentas e objetos digitais para investigar os traços da vida social que emergem das interações on-line.
  
  A adesão aos postulados teóricos de cada proposta, bem como os problemas e questões de pesquisa ao qual alguém irá se dirigir são os fatores que geralmente presidem a escolha ou ênfase em determinada concepção.
  
  De fato, os entendimentos expostos sobre os métodos digitais não são incompatíveis. Uma pessoa com uma concepção mais ampla sobre o tema pode julgar relevante entender como os dados de mídia digital que utiliza podem ser afetados por processos técnicos. Em contrapartida, outra que estude uma plataforma a partir de dados internos a ela poderá optar por complementar seu estudo com entrevistas on-line.
  
  A divisão dual da pesquisa com métodos digitais é, em certa medida, uma estratégia de exposição didática, porém, é possível perceber e refletir sobre como investigações envolvendo a internet podem aderir mais a uma ou outra abordagem. A atividade a seguir, de encerramento do Módulo, propõe que você faça isso.
  
  Antes disso, veja, no próximo tópico, a linha do tempo sobre o desenvolvimento de tecnologias, os impactos sociais da internet e a pesquisa on-line.
- Internet, pesquisa e sociedade
- Atividade 2 - Métodos digitais H5P
  
  Receber uma nota
- REAs de aprofundamento
M2 | Dados digitais
Módulo 2

Dados digitais
- Objetivos de aprendizagem:
  
  Compreender o papel dos dados digitais na sociedade atual
  
  Conhecer a noção de “dados” nas ciências sociais
  
  Reconhecer o uso de dados on-line em pesquisas
  
  Refletir sobre a importância da crítica dos dados na pesquisa
- A centralidade dos dados na sociedade
  
  Outra noção gestada a partir do reconhecimento da importância de tecnologias digitais nas últimas décadas foi a de sociedade conduzida e orientada por dados (data-driven society). Ela penetrou na consciência popular primeiro a partir do discurso jornalístico e de gestores, administradores e políticos, sendo usada muitas vezes com um pendor tecnicista e otimismo ingênuo.
  
  Alguns autores procuram dar contorno reflexivo a essa noção, destacando dimensões como a quebra de privacidade, vigilância e controle associadas a ela ou mesmo a ameaça à democracia pela ação das plataformas digitais. Outros, sugerem conceitos diferentes, como datacracia ou colonialismo de dados. Em todas essas noções, cuja discussão escapa ao escopo do curso, há destaque ao papel dos dados na conformação do mundo contemporâneo.
  
  Mas o que são dados? Como explica um especialista no tema:
  
  “Etimologicamente, a palavra dados (data) é derivada do latim dare, que significa ‘dar’. Nesse sentido, os dados são elementos brutos que podem ser abstraídos de (dados por) fenômenos – medidos e registrados de várias maneiras. Entretanto, no uso geral, os dados se referem aos elementos que são capturados, extraídos por meio de observações, cálculos, experimentos e gerenciamento de registros”.
  
  A citação expressa um sentido geral para o termo. Outra definição, a partir de uma perspectiva crítica sobre o modo como eles se transformaram num dos pilares do sistema capitalista atual, é a de dados como fluxos de informações que transitam da vida humana para as infraestruturas de coleta e processamento. Assim, abstraem a vida, convertendo-a em informações que podem ser armazenadas e processadas por computadores.
  
  O adjetivo digital não é utilizado, mas a discussão está relacionada sobretudo a esse tipo de dado: logs de acesso a espaços na internet e informações sobre o tempo de visualização de páginas, interações com pessoas e conteúdos de redes sociais (curtidas, compartilhamentos, comentários etc.), informações sobre o uso de produtos que possuem recursos de IoT (internet das coisas), localizações de GPS, entre outros.
  
  Esses dados e sua agregação em escalas até então inimagináveis (big data) foram impulsionados por interesses do mundo das finanças, dos negócios e do marketing, mas logo atraíram a atenção dos cientistas sociais, em particular aqueles ligados às abordagens quantitativas e que já usavam computadores. A feitura de análises comportamentais a partir de dados e metadados de indivíduos sem que, em tese, ocorressem vieses de observação representava, para alguns, a principal inovação da pesquisa on-line e seu método por excelência.
- Rastros, traços e pegadas digitais
  
  Vários termos são usados para destacar a singularidade dos dados das pessoas que utilizam a internet, como rastros, traços ou pegadas digitais. Eles representam marcas de atividades que elas realizam e que poderão ser submetidas a análises com diferentes objetivos. Algumas avaliações sobre o papel e as possibilidades desses dados nas ciências sociais são entusiásticas:
  
  “Graças à rastreabilidade digital, os pesquisadores não precisam mais escolher entre precisão e alcance em suas observações: agora é possível seguir uma multiplicidade de interações e, simultaneamente, distinguir a contribuição específica que cada uma delas tem para a construção de fenômenos sociais. Concebidas em uma era de escassez, as ciências sociais entram em uma época de abundância.”
  
  Porém, há alertas sobre o risco de que a pesquisa social seja soterrada pela avalanche de dados desse tipo. Além disso, as pessoas que conduzem investigações científicas não têm muitas vezes controle sobre eles, nem exato conhecimento das categorias a partir das quais são produzidos. Há ainda o risco de que a prevalência do chamado positivismo digital, alicerçado nas ciências da computação, colonize as ciências sociais e humanas, em detrimento de abordagens interpretativas e críticas.
  
  Os computadores e a internet promoveram novas práticas de investigação social, bem como revitalizaram estratégias tradicionais. Ao facilitarem a coleta e tratamento de dados complexos deram novo vigor, por exemplo, à Análise de Redes Sociais (ARS) e à produção de visualizações para identificar padrões ou configurações relevantes.
  
  Isso ocorreu e continua a ocorrer a partir de propostas, críticas e debates sobre a validade desses procedimentos, bem como pela adaptação de métodos e o uso de certos dados habituais à investigação social. Entretanto, em paralelo, se desenvolvem também perspectivas e dados nativamente digitais, ampliando o leque de possibilidades para a pesquisa que se dirige aos fenômenos on-line.
- Dados nativamente digitais e dados digitalizados
  
  Os dados nativamente digitais estão associados à perspectiva restrita sobre métodos digitais, sendo geralmente derivados do uso das mídias digitais, por exemplo, metadados de usuários, visualizações de vídeos do YouTube, números de “curtidas” numa postagem do Facebook ou de seguidores de um perfil do Instagram.
  
  Nem todo dado que podemos obter pela internet é nativamente digital, pois há inúmeras informações que foram inseridas na rede por questões de acessibilidade, mas que podem também estar e ter sido geradas em outros locais, como estatísticas, documentos e atas de governos, empresas e organizações, livros e decisões judiciais. Esses seriam, portanto, dados digitalizados.
  
  Observa-se ainda a existência de um terceiro tipo de dado na internet: aquele que consiste em um objeto digital que passa a ser arquivado e isso tem efeito em sua natureza, como o arquivo de tweets de Trump. Isso pode ocorrer também com páginas da internet, metadados de usuários e outros materiais que sejam arquivados.
  
  Outros tipos de dados
  
  Além de dados nativamente digitais e digitalizados, há aqueles que são produzidos a partir de técnicas tradicionais das ciências sociais (pela pesquisa on-line) adaptadas ao contexto da rede. A entrevista telefônica ou presencial é com frequência, hoje, realizada a partir de dispositivos digitais e pela internet; os questionários em papel dão, cada vez mais, lugar aos formulários on-line e grupos pesquisados podem ser submetidos a certas condições experimentais apoiadas por computadores ou pela internet.
  
  Nesses casos, o papel da rede é acessório a uma investigação e a natureza do dado pode ser afetada, com vantagens e desvantagens, pela condição de coleta. Uma vantagem costumeiramente mencionada é que a discussão de temas sensíveis pode ser facilitada pela distância que há na interação pela internet. Seja como for, essa é uma instância de reflexão de qualquer pesquisa.
  
  Como conclusão parcial, é interessante notar a possibilidade de atualizar o dito do poeta Stéphane Mallarmé (1842-1898) que, a seu tempo, afirmava que tudo existiria no mundo para chegar a um livro. Atualmente, tudo existe para terminar na internet.
- Taxonomia de dados
  
  Além da distinção entre digitais e digitalizados, os dados podem ser categorizados de outras maneiras. Uma diferenciação comum entre eles comum é quanto aos qualitativos, relacionados a textos (escritos, mas também imagéticos ou audiovisuais, por isso alguns os caracterizam como não numéricos), e os quantitativos, associados a números. Ambos os tipos podem ser utilizados em uma investigação e estão ligados aos formatos dos dados, como: texto simples, numérico, percentual, valor monetário, data/horário e hiperlink.
  
  Há outros modos de categorizar os dados, como uma maneira para entendê-los melhor. Kitchin (2024), além de distingui-los também entre quali e quantitativos, no que seria a forma dos dados, elabora as seguintes categorias:
  
  Estrutura Fonte Quem fez Tipo
  
  Estruturados: organizados, armazenados e exportados em um modelo de dados específico, como números/texto em tabelas ou bancos de dados com formato consistente (por exemplo, nome, data de nascimento, endereço, gênero etc.).
  
  Semiestruturados: pouco estruturados, sem um modelo ou esquema de dados predefinido. Apesar da estrutura irregular, seus campos são parcialmente consistentes. Um exemplo disso, são páginas da web com XML (Extensible Markup Language), que codifica os documentos.
  
  Não estruturados: nenhum modelo ou estrutura comum é identificável. Cada elemento pode ter uma estrutura ou um formato próprio. São dados, geralmente, de natureza qualitativa, como o de um conjunto de postagens do Facebook.
  
  Capturados: diretamente por meio de alguma forma de medição, como observação, pesquisas, experimentos de laboratório e de campo, manutenção de registros, câmeras, scanners e sensores.
  
  Excedentes: gerados por um dispositivo ou sistema, como um subproduto de sua função principal. A nota eletrônica para processar pagamentos também pode servir para controles de estoque ou medida de desempenho de quem faz determinadas vendas, por exemplo.
  
  Transientes: nunca examinados ou processados e simplesmente descartados, por serem muito volumosos, não estruturados, caros para processar e armazenar ou, ainda, por faltarem técnicas para extrair valor deles, sendo de pouca utilidade estratégica ou tática.
  
  Derivados: produzidos por meio de processamento ou análise adicional de dados capturados.
  
  Primários: gerados pelo indivíduo que faz uma pesquisa, a partir dos instrumentos usados e dentro de um projeto de pesquisa próprio.
  
  Secundários: gerados por outra pessoa e disponibilizados para reutilização e análise para outros indivíduos.
  
  Terciários: uma forma de dados derivados, como contagens, categorias e resultados estatísticos. São geralmente divulgados por órgãos estatísticos, para garantir a confidencialidade com relação a quem os dados se referem.
  
  Indexicais: permitem a identificação e a vinculação (por exemplo, nomes, endereços de IP, números de passaporte e de cartão de crédito, números de série do fabricante).
  
  Atributivos: representam aspectos de um fenômeno, mas não são indexicais. A impressão digital é indexical, mas as informações dos atributos de idade, sexo, altura, peso, tipo sanguíneo, não o são.
  
  Metadados: dados sobre dados, como nomes e descrições de campos específicos em uma planilha. Podem se referir ao conteúdo dos dados ou a todo o conjunto de dados.
  
  Uma diferenciação menos intuitiva é entre dados criados e dados existentes. No primeiro caso, os dados são produzidos a partir de uma intervenção explícita de quem realiza a pesquisa no objeto de estudo. Esse dado é característico da pesquisa experimental, na qual alguma ação deliberada busca provocar uma mudança que será investigada. Nas ciências sociais e da comunicação, essa forma de pesquisa é menos comum e com mais tradição no contexto estadunidense. A ação deliberada pode ser de vários tipos: pedir para que o grupo em estudo leia, veja ou faça algo, por vezes, comparando o efeito disso num grupo não submetido à intervenção.
  
  Por sua vez, os dados existentes (termo um tanto ambíguo) estão associados a todos os outros tipos de dados que a pessoa que realiza uma investigação elabora utilizando as técnicas da pesquisa social, como a observação, as entrevistas e os questionários. Na verdade, se o termo dado não fosse consagrado pelo uso, seria melhor substituí-lo por outros, como apreendido ou capturado.
- Dados proprietários e dados abertos
  
  Os dados variam também quanto ao nível de acesso e finalidade. Alguns são totalmente públicos e podem ser utilizados livremente, inclusive em pesquisas científicas. Num polo oposto, há dados privados e restritos a ambientes internos, como intranets, e não disponíveis para uso externo. Há, é claro, dimensões intermediárias entre esses dois tipos.
  
  Uma vez que há custos envolvidos na produção e disponibilização de dados, bem como por seu valor na produção de conhecimento sobre o mundo, o acesso a eles tem sido frequentemente restrito. Isso é feito, por exemplo, limitando o acesso a pessoas que pagam ou recebam alguma aprovação ou limitando a forma como os dados podem ser usados. Nessa perspectiva, os termos de serviço das plataformas digitais são geralmente restritivos, tratando os dados como ativos da empresa, o que gera dificuldades para quem investiga esses espaços.
  
  Por outro lado, as possibilidades de democratização do conhecimento pela internet favoreceram as iniciativas de dados abertos (open data), ou seja, os esforços voltados à divulgação e compartilhamento de conteúdo de maneira ampla, sem restrições de uso. A ideia está alinhada com movimentos como o do software open source, da publicação científica e da ciência abertas, preconizando aumento da transparência e controle social sobre a informação.
  Dados abertos: Iniciativas globais e locais
  
  Há iniciativas globais, de sites, como o Open Data Inception e o Data Portals, ou repositórios, como o do Banco Mundial, reunindo dados de muitos países. No caso do Brasil, o governo federal possui um Plano de Dados Abertos e algumas iniciativas locais são as seguintes:
  
  Portal Brasileiro de Dados Abertos (dados do governo federal e governos locais)
  
  IBGE - Dados abertos
  
  Ipeadata (dados econômicos e sociais brasileiros)
  
  Portal de Dados Abertos do TSE
  
  DivulgaCandContas - TSE (dados de candidaturas e contas eleitorais)
  
  Portal de Dados do Cetic.br (dados de uso da internet no Brasil, entre outros)
  
  A expressão dados digitais abertos é redundante, pois os defensores dos open data geralmente colocam a disponibilização deles na internet como uma de suas características. Fala-se também em Linked Open Data (LOD), termo que recebe diferentes traduções (dados abertos interligados/conectados/vinculados), cujo significado remete tanto a certas práticas para publicar e conectar dados estruturados na web quanto aos conjuntos de dados desse tipo, como os da The Linked Open Data Cloud.
  
  Há também várias fontes de dados que, embora não sejam estritamente abertos, podem, muitas vezes, ser utilizados como dados secundários de alguma investigação. O InternetLab, por exemplo, elaborou Um guia da dieta de mídia digital brasileira com vários levantamentos desse tipo. O anuário Mídia Dados, do Grupo de Mídia, é uma publicação que, embora voltada a profissionais, pode ser útil para a pesquisa científica. Outra fonte relevante de dados para a pesquisa da comunicação são os acervos digitais de periódicos ou de coleções. Por vezes, o acesso é condicionado à assinatura da publicação.
  
  Introdução à Análise de Dados On-Line
  
  Acervos digitais de periódicos
  
  Acima é mostrada a tela da ferramenta de pesquisa da Hemeroteca Digital da Biblioteca Nacional, cuja coleção abrange periódicos, principalmente, do século XIX, mas também possui jornais importantes na história da imprensa moderna do país, como Última Hora, Jornal do Brasil e O Pasquim. Outros acervos digitalizados de jornais e periódicos brasileiros são os seguintes:
  
  Arquivo Público do Estado de São Paulo - coleção com muitos periódicos dos séculos XIX e XX, infelizmente sem ferramenta de busca interna deles;
  
  Veja;
  O Globo;
  Folha de S.Paulo;
  O Estado de S. Paulo.
  
  Em termos de acervos de audiovisual digitalizados, talvez a principal iniciativa local seja a da Cinemateca Brasileira, em seu Banco de Conteúdos Culturais.
- Atividade 3 - Bases de dados abertos Fórum
  
  Fazer postagens no fórum: 1
  
  Vencimento: quinta-feira, 30 jan. 2025, 17:26
  
  Navegue em uma ou mais das bases de dados abertos brasileiras indicadas. Você já usou, para pesquisas ou outras finalidades, alguma delas? Conhece outras? Faça uma postagem no fórum sobre essas questões e leia as postagens de participantes do curso e comente.
- Crítica dos dados
  
  “Embora nem todas as formas de conhecimento estejam firmemente enraizadas em dados – por exemplo, conjecturas, opiniões e crenças –, os dados são claramente um material de base fundamental para a forma como entendemos o mundo.” (Kitchin, 2014, p. 12)
  
  Como a citação destaca, os dados possuem um papel relevante na vida social. No entanto, a naturalização e o uso mal-intencionado ou ingênuo deles são frequentes. As polêmicas sobre os tratamentos durante a epidemia de Covid-19 foram estimuladas por dados, interpretações e por pesquisas sem rigor científico. Os políticos muitas vezes publicam postagens comemorativas em redes sociais quando atingem determinado número de seguidores, com o desejo de se autocongratular por popularidade expressiva. Mas quantos desses são robôs ou foram “comprados”?
  
  Os dados podem ser controversos e estão relacionados à fonte que os produziu: um mapa-múndi feito na Argentina provavelmente chamará as ilhas que o país disputa com o Reino Unido de “Malvinas”, enquanto o nome “Ilhas Falkland” aparecerá em outros (na dúvida, o Google Maps, usa ambos). O modo como as coisas do mundo são nomeadas e descritas podem variar, conforme os valores de quem produz a informação.
  
  O que importa destacar, assim, é que a produção e o uso de dados deve ser feito, na pesquisa científica, de maneira questionadora e crítica. O próprio jornalismo de qualidade procura agir desse modo ao fazer, por exemplo, distinções sobre métricas de redes sociais.
  
  Uma cientista de dados, ao abordar alguns aspectos que introduzem imperfeições e vieses em dados, oferece uma perspectiva básica para a crítica a eles. Conforme nota a autora:
  
  “Precisamos questionar os dados, em vez de presumir que, só porque atribuímos um número a algo, de repente isso é a verdade pura e simples. Ao se deparar com um estudo ou conjunto de dados, pergunte: O que pode estar faltando? Qual é a outra maneira de considerar o que aconteceu? E o que essa medida específica considera, exclui ou incentiva?” (para. 41).
  
  A partir dos estudos, espera-se que seu conhecimento sobre os dados e sua relevância na investigação científica tenha aumentado. A atividade que encerra o módulo propõe, para consolidar aprendizados, uma revisão do que foi visto até aqui, com a preocupação, também, de apresentar o uso de dados em pesquisas de comunicação.
- Atividade 4 - Dados em pesquisas H5P
  
  Receber uma nota
- REAs de aprofundamento
M3 | Fluxo de trabalho e crítica dos dados
Módulo 3

Fluxo de trabalho: coleta de dados
- Objetivos de aprendizagem:
  
  Conhecer etapas comuns do trabalho com dados em pesquisas sociais
  Reconhecer estratégias para a coleta de dados on-line
  Refletir sobre preocupações relacionadas à coleta de dados
  Aplicar o conhecimento na coleta de algum conjunto de dados (dataset)
- Primeiro encontro síncrono da turma Google Meet™ para Moodle
- Trabalho com dados digitais
  
  Ciclo de trabalho com dados
  
  O diagrama com um fluxo, na forma de ciclo, de trabalho com dados em pesquisas científicas é uma exposição sintética e geral de um procedimento que pode diferir. Alguém pode, por exemplo, ter acesso a uma base de dados coletada por outrem e a partir dela gerar uma indagação que demande análises; ou perceber, após ter feito a primeira coleta e análise de dados, que precisará coletar outros. Há casos em que as coletas e análises sugerem a necessidade de mudança no problema de investigação. Nada impede, ainda, que alguém colete dados com fins basicamente exploratórios, como insumo à reflexão e construção de questões de pesquisa posteriormente.
  
  Por outro lado, a figura indica uma cronologia com etapas que se sucedem – com o potencial iterativo mencionado – e na qual, ao fim, o resultado regressa ao ponto de partida. Em outras palavras, as questões de conhecimento que deram início e conduziram o trabalho serão idealmente esclarecidas, em maior ou menor medida, pelo que apurou.
  
  Neste módulo vamos conhecer estratégias para coleta e tratamento dos dados e, no seguinte, algumas possibilidades analíticas.
- Coleta de dados e amostragem
  
  Os dados coletados terão íntima relação com a amostra (ou conjunto de amostras) escolhida para a pesquisa. A amostra é unidade básica da investigação empírica, composta por grupos, de pessoas ou de outro tipo (como sites ou documentos), a partir dos quais serão obtidas as informações/dados de uma pesquisa.
  
  Uma questão crítica sobre as amostras, apontada por vários autores, diz respeito à representatividade amostral, ou seja, a capacidade dos dados capturarem adequadamente o fenômeno que buscam representar, gerando resultados extrapoláveis para a população em geral. Esse ponto é particularmente complexo quando os dados são obtidos pela internet. Um dos principais desafios, nesses casos, é saber se determinada amostra da web representa um país ou um tipo específico de conteúdo.
  
  A construção de amostras (na forma de corpura) pelo agrupamento de conteúdo sobre algum tópico, principalmente via hashtags, se tornou uma estratégia comum no estudo da mídia social, assim como abordagens envolvendo a seleção de conteúdos de atores vistos como relevantes para o problema da pesquisa nesses espaços.
  
  Os dados decorrem da amostra e ambas as dimensões estão ligadas às questões de pesquisa, fundamentalmente, além de aspectos éticos e práticos do desenvolvimento da investigação. A reflexão prévia sobre isso, portanto, se impõe.
  
  Sobre a pesquisa on-line de maneira geral, é interessante notar que, no contexto anglo-saxão, a utilização de amostras de pessoas que recebem pequenos pagamentos, a partir do recrutamento em plataformas digitais como a Amazon Mechanical Turk, tem sido comum. Inicialmente essa prática foi vista por alguns como renovadora da pesquisa quantitativa. No entanto, são apontados problemas nessa opção, relacionados à validade dos resultados e à questão ética de produzir conhecimento com base em uma força de trabalho mal remunerada.
- Atividade 5 - Coleta de dados planejada Página
  
  Ver
- Estratégias para a coleta de dados na internet
  
  Basicamente há duas formas principais de coletar dados na internet: a comunicação direta com as APIs de sites ou plataformas e a técnica de raspagem de dados (scraping), com características, vantagens e limitações específicas, como notam van der Vlist e Helmond (2023), veja a seguir.
  Coleta via APIs
  
  Usa pontos de acesso a bancos de dados (“back-end”).
  
  Os dados ficam ocultos no servidor de um site (ou seja, não são visíveis no navegador da web).
  
  Os resultados geralmente estão na forma de dados estruturados.
  
  Usa páginas da web e sites renderizados (“front-end”).
  
  Os dados são visíveis em seu navegador.
  
  Páginas e sites diferentes podem ter estruturas e formatos diversos.
  
  Os resultados geralmente estão na forma de dados semiestruturados.
  
  Aponta-se, por vezes, o uso de serviços de empresas que coletam dados, como um terceiro modo, mas essas empresas utilizam, de fato, alguns dos procedimentos mencionados.
  
  A utilização da Interface de Programação de Aplicações (Application Program Interface ou API) para coletar dados digitais favorece a obtenção de dados. A API é uma ferramenta de software que permite a interação entre alguém, a partir de algum aplicativo de coleta, e os dados de determinado site ou plataforma, de maneira gratuita ou sob certas condições ou taxas. A partir de APIs podem ser obtidos dados em grande quantidade, bem estruturados e sem que, em tese, existam questões éticas. Isso ocorre, pois a extração é regulamentada pelas próprias plataformas e os dados são compartilhados sem violação a direitos autorais.
  
  Já o método de raspagem está ligado à extração de dados de páginas e sites a partir do código-fonte deles, num processo automatizado, no qual o aplicativo que faz a coleta é configurado para capturar determinados conteúdos marcados por certa codificação.
  
  A raspagem de dados tem analogia com a ideia da cópia e colagem de conteúdos da web e, do mesmo modo que esse método, possui caráter mais controverso, tendo em vista que a cópia pode estar em desacordo com os termos de serviço de determinado espaço digital ou ferir a privacidade de quem produziu algo que está sendo copiado. Nesse sentido, é importante refletir criticamente a respeito do caráter ético do projeto em determinado contexto para decidir sobre quando e como usar a estratégia de raspagem de dados e outros procedimentos metodológicos.
- Reflexão sobre a coleta
  
  Numa perspectiva mais geral, vários aspectos merecem ser pensados, previamente à coleta e trabalho com dados digitais. Em primeiro lugar, o papel desses dados na elucidação das questões de pesquisa. Mas há também questões práticas: os aplicativos on-line podem ter problemas, a instalação de softwares pode falhar e as APIs das plataformas podem mudar, geralmente se tornando mais restritas, e isso é bastante frustrante para quem faz pesquisa.
  
  A prudência recomenda, assim, que o planejamento da investigação leve em conta eventualidades: se alguma forma gratuita ou pouco onerosa de coleta de dados se tornar inviável, seria possível fazer de outra forma? O quanto isso afetará o cronograma do trabalho? Possuo ou tenho tempo suficiente para aprender o conhecimento técnico requerido para utilizar determinada estratégia de coleta de dados? Questões desse tipo devem ser levadas em consideração.
  
  Já durante o processo de coleta de dados digitais, van Es et al. (2017) sistematizam vários pontos a serem pensados, conforme se segue.
  
  Questões a serem consideradas ao se coletar dados para pesquisa
  
  Quais considerações éticas foram levadas em conta ao coletar os dados da pesquisa?
  
  Que tipo de dados está sendo usado?
  
  Como os dados foram coletados? Quais ferramentas ou softwares foram usados, ou quem forneceu os dados?
  
  Quais critérios foram usados para selecionar o conjunto de dados? Quem está incluído ou excluído do conjunto de dados?
  
  Quais são as limitações desses métodos de coleta de dados? Qual é o grau de confiabilidade do método de coleta utilizado?
  
  Quais metadados o conjunto de dados contém (por exemplo, local, hora, data de um tweet)?
  
  Ao combinar conjuntos de dados, quais vieses podem resultar dos diferentes contextos de origem dos dados?
  
  No tópico seguinte serão expostos procedimentos, ferramentas e exemplos relacionados à coleta de dados, conforme a categorização mostrada abaixo. Em cada grupo, são descritas características básicas de aplicativos. É possível notar que a ordem de exposição vai de estratégias mais simples às que demandam mais trabalho.
  
  Não envolve, a rigor, programas, porém o uso de softwares para o manejo de dados em tabelas, como o Google Planilhas, é geralmente recomendável.
  
  Mozilla Firefox (navegador multiplataforma)
  
  Download.
  
  Permite copiar páginas web (ou partes delas) em formato de imagem ou PDF.
  
  HTTrack Website Copier (programa open source, para Windows e Linux)
  
  Download.
  
  Copia as páginas de algum website para um computador.
  
  Manual.
  
  Tutorial em vídeo (em inglês).
  
  A1 Website Download (programa proprietário para Windows e Mac)
  
  Download.
  
  Possui versão paga e gratuita. Os primeiros 30 dias de uso, após a instalação, permitem utilizar todas as funcionalidades do programa. Depois disso, caso ele não seja comprado, os recursos diminuem.
  
  Faz o mesmo que o programa anterior (cópia de páginas), mas é mais rápido, o que pode ser útil para sites complexos, com muitas imagens e páginas secundárias.
  
  Tutorial em vídeo (em inglês)
  
  Conifer (serviço on-line)
  
  Permite criar contas onde serão estocados os sites que forem copiados pelo aplicativo.
  
  Os dados podem ser baixados e o arquivo de cada pessoa é de 5 GB.
  
  Tutorial em vídeo (em inglês).
  
  WayBack Machine (serviço on-line)
  
  Permite verificar o conteúdo e aparência anterior de páginas web, conforme elas tenham sido copiadas pelo Internet Archive. O que for localizado pode ser copiado ou baixado e arquivado pelos métodos anteriores.
  
  Apify (site de serviço)
  
  Aplicativo pago, mas que permite coletas de dados gratuitas, até determinados montantes.
  
  Exige a criação de conta e possui uma interface intuitiva.
  
  Extrai dados, que podem ser exportados em diferentes formatos, principalmente, de redes sociais.
  
  Tutoriais em vídeo (em inglês).
  
  PhantomBuster (site de serviço)
  
  Mesmas características do anterior.
  
  Tutoriais em vídeo (em inglês).
  
  Instant Data Scraper (plugin para o navegador Chrome)
  
  Download.
  
  Extrai dados de páginas da web e os exporta como arquivos Excel ou CSV.
  
  Utiliza uma IA para buscar os possíveis conteúdos relevantes, que quem utiliza o plugin poderá selecionar.
  
  A interface é intuitiva e fácil de usar, porém, os recursos são limitados.
  
  Tutorial em vídeo (em inglês).
  
  Data Miner (plugin para o navegador Chrome)
  
  Download.
  
  Além de baixar o plugin, é necessário criar uma conta no aplicativo.
  
  Permitir fazer a raspagem de dados, a partir de “receitas” preexistentes ou criadas por quem usa.
  
  Os dados capturados podem ser exportados em diferentes formatos tabulares.
  
  O serviço possui versão paga, que torna mais fácil o trabalho, porém, estudando os procedimentos para criar as receitas, é possível extrair muitos tipos de dados da web com a versão gratuita.
  
  Tutoriais em vídeo (em inglês).
  
  Screaming Frog SEO (programa multiplataforma)
  
  Download.
  
  Aplicativo com versão gratuita e paga. A primeira com limitações.
  
  Embora voltado principalmente a profissionais da comunicação digital, ao fazer a recuperação automática de dados na web, em particular as ligações entre páginas (links), pode ser útil a pesquisas acadêmicas.
  
  Os dados obtidos são exportados em diferentes formatos de tabela.
  
  A própria empresa disponibiliza guias de uso.
  
  Tutoriais em vídeo (em inglês).
  
  Media Cloud (plataforma)
  
  A plataforma Media Cloud é um projeto open source que permite que se recuperem notícias sobre determinado assunto, exportando os dados em diferentes formatos.
  
  É necessário criar uma conta no site, cujo uso é relativamente simples.
  
  Facepager (aplicativo multiplataforma)
  
  Download.
  
  Aplicativo para a recuperação automatizada de dados de plataformas, como Facebook e YouTube, desenvolvido por Jakob Jünger e Till Keyling (2019).
  
  Possui um conjunto de pré-configurações (presets) que facilita fazer a solicitação para a coleta de dados.
  
  Os desenvolvedores criaram um site bastante explicativo sobre o programa.
  
  Tutoriais em vídeo (em inglês).
  
  YouTube Data Tools (aplicativo on-line multiplataforma)
  
  Desenvolvido por Bernhard Rieder (2015), no âmbito da Digital Methods Initiative, o aplicativo compreende um conjunto de seis ferramentas on-line para extrair dados de vídeos, canais, redes de canais e comentários em vídeos do YouTube.
  
  A interface é simples e intuitiva.
  
  Tutoriais em vídeo (em inglês).
  
  4CAT (aplicativo open source multiplataforma)
  
  Download.
  
  Programa que coleta dados de várias plataformas de mídia digital (Facebook, TikTok, X/Twitter, Telegram, entre outras), por vezes, em combinação com o plugin do navegador Firefox Zeeschuimer.
  
  A instalação envolve a criação de um Docker e configurações especiais no computador, já que o programa é executado remotamente. É recomendável que as pessoas interessadas leiam com atenção o tutorial e vejam o vídeo sobre como instalar o 4CAT.
  
  Há um paper (Peeters & Hagen, 2020) que descreve o desenvolvimento do software.
  
  No site do projeto, vários tutoriais explicam como fazer coletas e outras questões.
  
  Tutoriais em vídeo (em inglês).
  
  Ao baixar algum programa, leia atentamente as instruções e verifique se seu computador possui os requisitos necessários. Não instale nenhum programa sem ter testado outro recém-inserido, pois se ocorrer algum erro, não saberá qual o causou. Caso note problema no computador, desinstale o aplicativo.
- Coleta de dados on-line: possibilidades, ferramentas e exemplos
- Atividade 6 - Coleta de dados efetuada Página
  
  Ver
- REAs de aprofundamento
M4 | Tratamento dos dados
Módulo 4

Tratamento dos dados
- Objetivos de aprendizagem:
  
  Perceber o papel do tratamento e organização dos dados para as etapas posteriores da pesquisa
  Conhecer dimensões relacionadas à qualidade dos dados
  Familiarizar-se com o padrão tidy data, para adquirir a capacidade de estruturar dados nesse formato
  Aprender a realizar operações de limpeza, refino e conversão de dados
- Estruturação e arranjo dos dados
  
  Os dados poderão ser obtidos ou organizados a partir de diferentes modos, relacionados geralmente ao formato que possuem. Isso será relevante para dar legibilidade e favorecer a recuperação das informações, além de por vezes permitir tratamentos adicionais.
  
  A maneira mais comum de estruturar dados é a tabular, com o uso de programas de edição de planilhas, como o Microsoft Excel, o LibreOffice Calc e o Google Sheets. Com mais frequência, as tabelas de planilhas contêm textos e números, mas é possível também reunir dados multimídia (imagens, gráficos, URLs). Diferentes formatos de dados podem ser combinados em planilhas. A imagem de abertura desse tópico deriva provavelmente de planilha com dados de coordenadas geográficas que se associam a dados sobre a quantidade de tweets com alguma palavra relacionada ao ódio. Depois, algum programa deu a forma gráfica que se visualiza.
  
  Convém notar que, embora corriqueiramente os termos base de dados (database), conjunto de dados (dataset) e estrutura ou quadro de dados (dataframe) sejam utilizados de modo intercambiável, o primeiro é mais próprio de grandes quantidades de dados estruturados, enquanto os seguintes seriam mais aplicáveis a uma tabela simples.
  
  Arquivos de textos, por vezes antes trabalhados em programas de planilha, podem conter dados que deem origem a redes ou grafos. Dados textuais complexos (entrevistas ou textos de páginas web) podem ser armazenados em programas de edição de texto, posteriormente tendo algum tipo de organização diferente, como a de nuvem de palavras. Pode ser relevante, conforme a investigação, salvar ou arquivar uma página (ou páginas) da web, a partir inclusive de programas, como já mostrado.
  
  É possível ainda criar uma pasta na estrutura de arquivos do computador em que sejam inseridos dados coletados, com diferentes formatos, como vídeos, áudios, fotos, memes ou charges.
  
  Um aspecto que favorece a confiabilidade da pesquisa é a possibilidade de outras pessoas, eventualmente e seguindo preceitos éticos, verificarem os chamados dados brutos – que podem ainda ser dados secundários de outras pesquisas. Nesse sentido, a reflexão sobre como manter e arquivar os dados coletados é importante.
  
  Planilhas
  Se você chegou até aqui, para a continuidade, um conhecimento básico sobre a manipulação de planilhas é relevante. Caso não o tenha, recomenda-se a consulta ao seguinte manual.
- Limpeza e refino dos dados
  
  Antes de iniciar a análise de dados, com frequência é necessário realizar operações de limpeza e refino do que foi capturado. Uma recomendação importante é que seja feita uma cópia do arquivo com os dados brutos, de modo que, se ocorrer algum problema durante o trabalho, seja possível regressar ao que se coletou originalmente. Assim, na cópia, o trabalho de limpeza dos dados (data cleaning/cleansing) pode começar.
  Tarefas de limpeza dos dados
  
  Remover dados irrelevantes;
  
  Eliminar dados duplicados redundantes;
  
  Reparar erros estruturais;
  
  Resolver casos de dados ausentes;
  
  Filtrar dados discrepantes;
  
  Verificar a precisão, a consistência e a uniformidade dos dados;
  
  Validar se os dados estão corretos.
  
  Mesmo antes da limpeza, pode ser necessário fazer algum outro tipo de tratamento nos dados, para efeito de legibilidade, por exemplo: importar um arquivo em CSV ou JSON para o Excel. Há programas open source, como o OpenRefine, que fazem limpezas de dados. O próprio Google Planilhas possui ferramenta para isso, no caminho Dados > Limpeza de dados.
  
  Questões técnicas, como a duplicação indevida de dados durante a captura, podem ser corrigidas pelos métodos expostos. Os dados devem ser padronizados e consistentes, o que pode exigir revisões nos formatos de dados de células ou uniformizar a grafia de palavras (por vezes, caracteres especiais geram informações com ruído). Em outras situações, a correção ou refino dos dados depende de uma avaliação mais criteriosa, levando em consideração aspectos como a efetiva necessidade de certos dados para a análise ou a pertinência ética de alterar ou excluir dados confidenciais de pessoas.
  
  As práticas e reflexões feitas neste momento têm como objetivo assegurar a qualidade dos dados, geralmente, desdobrada em dimensões como:
  
  Completude Unicidade Atualidade Validade Acurácia Consistência
  
  Proporção, com relação aos dados obtidos, entre os que atendem aos requisitos desejados e os que têm falha ou ausência.
  Exemplo: Se num questionário aplicado 10% das pessoas deixaram de responder a uma pergunta, isso diminui a completude dos dados.
  
  Inexistência de registros múltiplos sobre algo.
  Exemplo: Um formulário respondido e registrado duas vezes por uma pessoa afeta negativamente essa dimensão.
  
  Grau em que os dados representam a realidade em determinado momento no tempo.
  Exemplo: A atualidade dos dados de pesquisas eleitorais tende a decair rapidamente, diferentemente de dados sobre preferências por times de futebol.
  
  No sentido do dado se enquadrar (ser válido) quanto ao parâmetro esperado de alguma definição.
  Exemplo: Se uma pergunta sobre quanto tempo alguém usa a internet por dia tem como resposta “esporte”, o dado é inválido.
  
  Capacidade do dado representar adequadamente o aspecto do mundo que procura refletir.
  Exemplo: A data de nascimento de alguém reflete acuradamente a idade dessa pessoa.
  
  Dados consistentes são corroborados internamente, por outros dados do conjunto, ou por dados existentes em outros locais.
  Exemplo: Se uma planilha possui dados em colunas com a data de nascimento e idade das pessoas, eles devem se confirmar mutuamente. Se não, há inconsistência.
- A estrutura de tabela Tidy Data
  
  Uma noção importante relacionada à ordem de dados tabulares é a de dados organizados (tidy data), proposta por Hadley Wickham, um conhecido desenvolvedor da linguagem de programação estatística e gráfica R. A ideia básica é organizar os dados num padrão com três regras inter-relacionadas:
  
  Cada variável deve ter sua própria coluna.
  
  Cada observação deve ter sua própria linha.
  
  Cada valor deve ter sua própria célula.
  
  Uma variável é qualquer característica ou medida de um fenômeno (como “nome”, “peso” e “altura”). As observações remetem a todos os valores descritos/medidos em uma mesma unidade (uma pessoa, um dia, uma nacionalidade etc.). Essas descrições são chamadas de valores, enquanto componente de alguma célula.
  
  Embora nem toda tabela precise utilizar esse padrão, um ponto forte dessa proposta é a ligação entre as estruturas de organização físicas e semânticas dos dados. Essa padronização tem várias vantagens: o tempo de limpeza e organização de dados tende a ser menor, além disso, os dados no formato tidy são mais facilmente compreendidos e reproduzíveis por pessoas que compreendem a lógica do formato, sendo compatíveis com as ferramentas tradicionais de análise e produção de visualizações de dados utilizadas em linguagens como R e Python.
  
  Entretanto, a plena compreensão do formato não é imediata, principalmente para quem está acostumado em trabalhar com planilhas eletrônicas, como observam certos autores. Vamos ver um exemplo comparado de tabela em formato de planilha tradicional e em tidy.
  Tabela normal e tidy
  
  Dados tabulares comuns
  
  Dados tabulares em tidy
  
  As duas tabelas foram elaboradas com os mesmos dados, obtidos do repositório de dados abertos do World Bank, mostrando índices percentuais da população que usa a internet em diferentes países. A tabela da esquerda não está em tidy, por colocar os anos e os indicadores percentuais como observações e não como variáveis. A tabela da direita gerará melhor plotagem (criação de imagem), como a mostrada abaixo, porém, poderia ser menos facilmente compreensível no corpo do texto de um artigo científico. Em suma, dependendo do objetivo de exposição do dado, o uso do formato tidy pode ou não ser adequado.
  
  Faça a atividade na sequência, para consolidar seu entendimento do padrão tidy.
  
  Pacotes de linguagens como R e Python possuem estratégias para a transformação de dados para o padrão tidy. No entanto, esse tópico não é abordado por este curso. Assim, é possível sugerir o auxílio de chatbots, nesse caso, verificando o acerto do resultado. Outra possibilidade é combinar o uso de recomendações de alguma IA com a conversão da tabela para o formato tidy, usando um programa como o Planilhas Google. Veja um exemplo.
  
  Introdução à Análise de Dados On-Line
  
  Figura que ilustra as regras de construção de tabelas no padrão tidy
  
  Reproduzido de R for Data Science: Import, tidy, transform, visualize and model data, de H. Wickham, M. Çetinkaya-Rundel e G. Grolemund, 2017.
  
  Introdução à Análise de Dados On-Line
  
  Conversão de dados tabulares para o formato tdy
  
  Conversão para o formato tidy, usando sugestão de chatbot e Planilhas Google.
- Atividade 7 - Tabelas Tidy H5P
  
  Receber uma nota
- Coleta e tratamento de dados como prévia das análises
  
  As etapas de trabalho com dados não são estanques. Ao coletar e tratar dados, muitas vezes, começamos a planejar e mesmo a fazer, embrionariamente, a análise. O vídeo deste tutorial mostra a consolidação e tratamento dos dados coletados sobre revistas científicas, numa Planilha Google, destacando isso. Observe, ainda, as recomendações gerais para a organização de dados em planilhas.
  
  A partir de agora será feita referência a dados coletados até o momento, para os exemplos didáticos. Você deve ter conseguido coletar dados, como foi proposto, no entanto, se desejar poderá utilizar algum dos conjuntos abaixo para realizar exercícios práticos.
  
  Conjuntos de dados coletados
  
  Perfis seguidos por organizações feministas no Instagram (coleta manual)
  
  Principais influenciadores brasileiros (raspagem simples)
  
  Comparativo de recursos e gastos eleitorais de candidatos (dado importado do TSE)
  
  Matérias jornalísticas do Acervo da Folha de S.Paulo sobre Marielle Franco (coleta manual)
  
  Postagens de Guilherme Boulos no Instagram (coleta com o aplicativo Apify)
  
  Dados das revistas Qualis A de Comunicação, Google Acadêmico (2024/h5) (raspagem com Instant Data Scraper)
  
  Resultados de busca no Google sobre “Marielle Franco” (raspagem com Data Miner)
  
  Links dos sites das associações científicas Intercom e Compós (extração com Screaming Frog SEO Spider)
  
  Notícias on-line sobre Marielle Franco em veículos brasileiros (2021-2024) (coleta com Media Cloud)
  
  Verbetes da Wikipédia em língua portuguesa sobre Marielle Franco (coleta com Facepager)
  
  Lista de vídeos do canal do YouTube do Instituto Marielle Franco (coleta com YouTube Data Tools)
  
  Comentários no vídeo do canal do YouTube do Instituto Marielle Franco com mais interações deste tipo (coleta com YouTube Data Tools)
  
  Vídeos do YouTube com o termo “Marielle” (coleta com YouTube Data Tools)
  
  Postagens do TikTok com os termos “Boulos” e “cocaína” (coleta com aplicativo 4CAT)
  
  Introdução à Análise de Dados On-Line
  
  Organização de dados em programa de planilha
  
  O vídeo mostra algumas etapas comuns no tratamento e análise preliminar dos dados.
- Atividade 8 - Tratamento de dados Fórum
  
  Ver Começar discussões: 1
  
  Vencimento: quinta-feira, 30 jan. 2025, 17:20
  
  A atividade propõe você efetue uma postagem no qual reflita e relate aspectos dos dados coletados anteriormente, no que diz respeito a dimensões da qualidade e forma que eles possuem. Foi necessário algum tratamento? Se sim, como foi feito?
- REAs de aprofundamento
M5 | Análise e visualização de dados
Módulo 5

Análise e visualização de dados
- Objetivos de aprendizagem:
  
  Entender a relação entre a análise e a visualização de dados na pesquisa
  
  Conhecer ferramentas para a realização de análises e visualizações
  
  Familiarizar-se com diferentes tipos de gráficos, de modo a favorecer escolhas
  
  Aplicar o conhecimento na elaboração de análise que utilize os recursos estudados
- Análises de dados
  
  O adágio “os dados não falam por si” tem como corolário a centralidade da análise de dados nas investigações. Entre os objetivos dessa etapa, conforme diferentes estudos, estão: descrever e hierarquizar os dados, destacando características relevantes, de modo a revelar padrões e, ao mesmo tempo, evidenciar relações entre as várias dimensões deles. Isso ocorre, internamente a um conjunto de dados e entre diferentes datasets e observações de uma investigação.
  
  As possibilidades analíticas são bastante variadas e os critérios de escolha estão ligados às opções paradigmáticas e teóricas de quem pesquisa, bem como aos problemas de investigação enfrentados. Uma categorização comum é entre as abordagens analíticas voltadas a dados quantitativos (estatística inferencial ou descritiva) e qualitativos (análises de conteúdo e discurso).
  
  Ao longo deste módulo, abordaremos, de maneira introdutória, as ferramentas analíticas mostradas a seguir. Por meio delas, será possível apresentar possibilidades de análises relacionadas a dados quantitativos e produção de visualizações (4CAT, Tableau e serviços web), dados textuais, tratados quantitativamente (4CAT, AntConc e Voyant Tools) e Análise de Redes (Flourish, VOSviewer e Gephi).
  
  O aplicativo on-line, cujas características para a coleta de dados de plataformas digitais foram vistas, possui os chamados “processadores” analíticos.
  
  Eles permitem obter dados organizados sob diferentes parâmetros, de maneira simples, como mostra esse vídeo.
  
  Software e plataforma proprietários para a feitura de análises visuais de dados.
  
  A relativa facilidade de uso é um dos pontos fortes desse programa.
  
  Possui diferentes versões: comercial, de teste, para uso de estudantes e educadores, on-line e desktop. Aqui, vamos explorar o gratuito Tableau Public, que requer apenas registro na plataforma e pode ser usado on-line.
  
  A empresa oferece bons materiais de treinamento, com vídeos e manual digital.
  
  Há uma comunidade interessada de pessoas que compartilham produções na plataforma da empresa, bem como explicações e tutoriais no YouTube e outros locais da internet.
  
  Veja essa breve descrição sobre uso do programa.
  
  RAWGraphs
  
  Aplicativo on-line open source, que permite a criação de diferentes tipos de gráficos.
  
  Possui interface simples e tutoriais explicativos sobre a criação dos gráficos, veja esse exemplo.
  
  Flourish
  
  Requer a criação de conta e possui plano pago e gratuito.
  
  Tem como diferencial a possibilidade de criar visualizações dinâmicas para a web.
  
  Permite a criação de gráficos de rede.
  
  O uso é relativamente intuitivo, porém é mais complexo do que o anterior.
  
  Datawrapper
  
  Outro serviço para a criar gráficos na web, com serviço por assinatura e uso gratuito.
  
  O grau de dificuldade e de recursos fica entre os dois serviços já mostrados.
  
  Voyant Tools
  
  Aplicativo on-line gratuito com várias ferramentas de análise de dados textuais, capaz de fornecer o índice de legibilidade, as palavras usadas com frequência (e nuvem de palavras), frases-chave, entre outras informações.
  
  Fácil de usar, com interface amigável.
  
  Tutorial em português.
  
  Como é um serviço on-line, se os dados são sensíveis e exigem confidencialidade, não é uma boa opção.
  
  AntConc
  
  Software gratuito multiplataforma criado pelo linguista Laurence Anthony, com ferramentas para a análise textual.
  
  Possui manual e vídeos explicativos feitos pelo autor. Na internet há também materiais de ensino do programa em português (como esse manual ou as úteis postagens de Tarcízio Silva). No entanto, é preciso ter atenção sobre o relacionamento entre a versão do programa usada e o material de estudo obtido.
  
  VOSviewer
  
  Programa multiplataforma especializado na produção de redes bibliográficas.
  
  Manual em português.
  
  Gephi
  
  Programa open source multiplataforma e gratuito para a produção de redes.
  
  O uso é relativamente simples e o site do software possui muitos tutoriais, introdutórios ou mais aprofundados, como esse, assim como as pessoas que o utilizam e produzem explicações, em vários espaços, como o YouTube.
  
  Introdução à Análise de Dados On-Line
  
  Tutorial: análise de dados com 4CAT
  
  Tutorial produzido pelos criadores do 4CAT sobre análise utilizando o aplicativo.
  
  Introdução à Análise de Dados On-Line
  
  Tutorial: interface e uso do Tableau Public
  
  Tutorial descrevendo a interface e o uso do programa Tableau Public.
  
  Introdução à Análise de Dados On-Line
  
  Tutorial: criação de gráfico no RAWGraphs
  
  Um dos tutoriais para a criação de um dos tipos de gráfico do serviço on-line.
  
  Introdução à Análise de Dados On-Line
  
  Tutorial: uso do programa AntConc
  
  Tutorias em vídeo do autor do programa AntConc, explicando como usar as funcionalidades do software.
- Visualização de dados
  
  Como notam vários trabalhos, a visualização de dados na pesquisa pode ser entendida sob dupla perspectiva: método de investigação e meio para comunicar resultados no âmbito acadêmico e para o público em geral.
  
  A produção de visualizações e as análises podem, por vezes, estar bastante ligadas, principalmente em termos de análises exploratórias dos dados. Há a ressalva, porém, sobre a necessidade do cuidado para que a organização visual dos dados não induza, de maneira equivocada, a análise. Em outras circunstâncias, pode haver uma dissociação entre a produção de visualizações, a partir de análises.
  
  Mas o que é exatamente uma visualização de dados? Este vídeo explica didaticamente o assunto.
  
  As visualizações e os dados que as informam tendem a ser percebidos como objetivos. Isso ocorre porque os números, historicamente, são vistos como confiáveis. Eles sugerem universalidade, neutralidade e ligação com a ciência. Além disso, as convenções consolidadas ao longo do tempo sobre as visualizações colaboram para que sejam vistas como neutras, meras janelas para os dados. No entanto, essa é uma concepção ingênua, uma vez que as visualizações, assim como os dados, são produzidas a partir de escolhas, decisões sobre o que mostrar e priorizar. Os mesmos dados, sob diferentes perspectivas, podem conduzir a diferentes propostas visuais e mensagens.
  
  O número de possibilidades de produção de visualizações é significativo, mas não ilimitado. A conhecida norma APA descreve, entre os elementos que compõem o trabalho científico escrito, além do texto, as tabelas e figuras. As primeiras possuem um componente visual e podem ser elaboradas de diversas formas, mas com aparência relativamente semelhante. No caso das figuras, entretanto, há mais diferenciação, e o termo engloba, para esta norma, os gráficos, diagramas, fotografias, desenhos e qualquer outra forma de representação ou ilustração não textual.
  
  De maneira geral, os gráficos e diagramas, a partir de agora referidos pelo primeiro termo, são a forma de visualização mais usual. O conhecimento sobre essas visualizações está relacionado à possibilidade de produzir materiais mais adequados do ponto de vista da comunicação científica. Quanto maior a compreensão das possibilidades, dos pontos fortes e limitações de cada possível forma, maior será a chance de boas escolhas.
  Intenções de quem produz e experiências de quem vê
  
  Em relação à experiência que a visualização proporcionará, um especialista no tema, comenta que há três intenções principais:
  
  Explicativa: com a peça procurando fornecer um retrato visual dos dados, destacando os principais significados que se busca transmitir.
  
  Exploratória: nesse caso, as pessoas que veem o material são mais livres, o que é favorecido por produções digitais, interativas e participativas que permitem a manipulação dos dados.
  
  Expositiva: simples exibição visual de dados, cuja interpretação dependerá fundamentalmente de quem vê. Assim, é mais adequada em trabalhos voltados a públicos com conhecimento do assunto que podem fazer sua própria sua própria interpretação, por vezes apoiada em explicações fornecidas em outro lugar, como um texto ou uma apresentação.
  
  Geralmente, em artigos científicos e outras formas de comunicação internas ao ambiente acadêmico, o uso de visualizações possui objetivos explicativos.
  
  Para aprofundar o entendimento sobre como os gráficos podem ter esse teor, vamos examinar características de categorias, grupos ou famílias dessas visualizações. Como existem muitos tipos de gráficos, as categorizações, a partir das características comunicativas deles, são úteis. Kirk (2019) fez a proposta, sumarizada a seguir, de descrever os gráficos em cinco grupos.
  
  Categórico
  
  Hierárquico
  
  Relacional
  
  Temporal
  
  Espacial
  
  Gráficos deste grupo servem para comparar categorias e distribuições de valores quantitativos.
  
  Alguns gráficos da família:
  
  Gráficos de barras: horizontais, verticais, agrupadas e empilhadas;
  
  Gráfico polar;
  
  Gráfico de radar;
  
  Gráfico de pontos;
  
  Historiograma;
  
  Nuvem de palavras.
  
  Servem para destacar o relacionamento entre o todo e suas partes, bem como hierarquias.
  
  Alguns gráficos da família:
  
  Gráficos de setores (também chamado de gráficos de pizza), com a variação do gráfico de rosca ou donut;
  
  Gráfico mapa de árvore (treemap);
  
  Gráfico de waffle;
  
  Dendrograma;
  
  Diagrama de Venn.
  
  São úteis para explorar correlações e conexões.
  
  Alguns gráficos da família:
  
  Gráficos (ou visualizações) de rede;
  
  Gráfico aluvial (ou sankey);
  
  Diagrama de corda;
  
  Gráfico de dispersão;
  
  Gráfico de bolhas.
  
  Representam graficamente tendências e intervalos ao longo do tempo.
  
  Alguns gráficos da família:
  
  Gráfico de linha ou gráfico de ranking (bump chart);
  
  Gráfico de inclinação;
  
  Gráfico de área;
  
  Gráfico de fluxo contínuo;
  
  Gráfico de Gantt;
  
  Gráfico de instância.
  
  Essas visualizações produzem o mapeamento de padrões espaciais por meio de sobreposições e distorções.
  
  Alguns gráficos da família:
  
  Mapa com pinos;
  
  Mapa de fluxo;
  
  Mapa de conexão;
  
  Mapa isoplético;
  
  Mapas de densidade de pontos;
  
  Mapa coropléticos;
  
  Cartograma.
  
  No próximo tópico, serão mostradas recomendações para produzir gráficos com qualidade, com tutoriais que exemplificam o uso dos programas mencionados.
  
  Introdução à Análise de Dados On-Line
  
  O que é uma visualização de dados
  
  Você já ouviu falar de visualizações de dados, já se perguntou o que é uma visualização, por que elas são tão populares ou como você pode entendê-las melhor? Você já se perguntou: o que é visualização de dados? Uma visualização de dados é simplesmente uma representação visual dos dados. Em outras palavras, uma visualização de dados mostra dados estatísticos e numéricos em forma visual, de modo a comunicar seus significados.
  
  As visualizações têm o objetivo de ajudar as pessoas a entender e explorar os dados. Os especialistas acreditam que a representação de dados de forma visual pode ajudar a comunicar o significado dos dados. Além disso, podem dar às pessoas a oportunidade de analisar e examinar grandes conjuntos de dados que, de outra forma, seriam difíceis de entender.
  
  Talvez você já tenha visto ou ouvido o termo infográfico?
  
  Um infográfico é semelhante a uma visualização de dados, mas as duas coisas não são exatamente a mesma coisa. Um infográfico é elaborado para contar uma história específica para um público específico. Ele pode incluir imagens ou informações. Normalmente, não inclui dados. Ele pode apresentar mais “estilo de design” do que uma visualização de dados. Aqui estão alguns exemplos.
  
  Uma visualização de dados, por outro lado, geralmente apresenta um conjunto de dados com o mínimo de edição e tem como objetivo tornar os dados mais acessíveis do que em sua forma bruta. Algumas visualizações de dados também têm o objetivo de possibilitar a exploração dos dados nos quais se baseiam. Uma visualização de dados pode ter sido gerada automaticamente a partir de um grande conjunto de dados, como no caso do Migration in the News [página que não está mais on-line] ou pode ser baseada em um pequeno conjunto de dados, como nos julgamentos de um Time Lord [gênero de personagem ficcional da série de televisão Doctor Who].
  
  Onde podemos ver as visualizações de dados?
  
  A resposta é: em muitos lugares! Isso inclui a internet, a mídia social e a mídia tradicional, como jornais e revistas. Na TV, as visualizações são frequentemente usadas em notícias, por exemplo, durante as eleições, ou em programas esportivos. Você pode recebê-las pelo correio em material de campanha ou publicidade, quando gráficos ou diagramas são usados para convencê-lo de algo, ou em relatórios de seu banco, previdência ou outras organizações.
  
  Aqui estão alguns exemplos de visualizações de dados que estão circulando atualmente. Essa é apenas uma pequena amostra de muitas centenas, para dar uma ideia de como as visualizações podem ser e que tipos de dados elas representam.
  
  O vídeo acima pertence à iniciativa Seeing Data, que reúne pesquisas e ações educativas relacionadas a visualizações de dados.
- Produção e leitura de visualizações
  
  As decisões de design afetam a eficácia das visualizações de dados. Sosulski (2019) procura, recorrendo a diferentes especialistas, sugerir padrões essenciais de design aplicáveis às visualizações, de maneira geral. O conhecimento desses dez padrões, colabora na produção de gráficos de mais qualidade.
  
  A legibilidade de um gráfico está diretamente ligada à resolução e ao formato do arquivo. Para impressões de qualidade em papel, o ideal é 300 pontos por polegada (dpi), e para web de 150. Acima está uma caixa de opção de programa de edição, mostrando onde alterar esse parâmetro.
  
  Formatos de arquivo usuais para o primeiro meio são TIFF, EPS e PSD. Já para o segundo, JPG, PNG e GIF. O formato SVG possui vários diferenciais interessantes, principalmente o fato de ser escalável, o que o torna um arquivo de trabalho bastante útil. As imagens dos gráticos podem ser retrabalhadas, com alterações de cores em vários programas on-line como Photopea e Boxy SVG.
  
  Cores devem ser usadas apenas quando corresponderem a diferenças nos dados. Por vezes, podem ser utilizadas quando se quer destacar somente um aspecto do gráfico, como uma barra ou linha específica. No exemplo acima, de um gráfico de rosca com dados de seguidores no Instagram de dez influenciadores brasileiros, a cor assinala os jogadores de futebol. Porém, é importante garantir contrastes de cor que facilitem a visualização também em escala de cinza. Esse aspecto é prejudicado, no caso, e o destaque desejado é perdido. O valor simbólico e cultural das cores é outro aspecto que merece reflexão.
  
  Geralmente quando inseridos em textos acadêmicos, os gráficos possuem numeração sequencial e títulos descritivos. No entanto, a forma exata depende do padrão utilizado por alguma publicação ou da norma que deve ser utilizada. Veja como se estruturam gráficos nas normas ABNT e APA. Nesse aspecto, é importante garantir a uniformidade formal, ao longo de um trabalho.
  
  Aspectos como o esquema de cores, o tamanho, a família tipográfica e a direção do texto afetam a capacidade de leitura de um gráfico. Textos na horizontal são mais fáceis de ler. O uso excessivo de fontes em itálico e negrito também deve ser evitado, por razões de legibilidade. Todos os elementos textuais do gráfico (rótulos de eixo, escalas, rótulos de dados etc.) devem ser legíveis. No exemplo acima, em gráfico de árvore a partir dos mesmos dados sobre influenciadores locais, há dificuldade de leitura nos nomes de influenciadores que não são jogadores de futebol, devido a um problema de contraste.
  
  Os eixos x e y dos gráficos devem possuir incrementos lógicos (0, 1, 2, 3, 4...; 0, 2, 4, 6, 8...; 0, 10, 20, 30, 40...; 0, 50, 100, 150, 200, 250... etc.), mas não necessariamente iniciando em zero.
  
  É recomendável que o valor final do eixo y esteja próximo, em alguma medida superando, do maior valor de algum dado neste eixo (como nos casos acima). Veja outro exemplo.
  
  Os dois gráficos de área mostrados acima foram construídos com os mesmos dados sobre visualizações de vídeos no YouTube que mencionam o termo “Marielle”. No entanto, o período de agregação dos dados do gráfico da esquerda foi anual e o outro, trimestral. Isso gerou a mudança na forma geral que é visualizada. Dependendo do que se quer destacar num trabalho, um ou outro gráfico poderá ser mais adequado.
  
  O livro influente de Edward Tufte The Visual Display of Quantitative Information (2007/1983) introduziu noções, como a de integridade gráfica e fator de mentira (lie factor), relevantes para a discussão sobre como a apresentação visual pode induzir interpretações enganosas dos dados. A forma principal de manipulação, intencional ou não, é quando a codificação visual distorce o tamanho da correspondência entre os valores. Esse é o caso, bastante evidente, do gráfico acima, discutido numa postagem sobre o tema.
  
  A representação seletiva de dados ou períodos de tempo relacionados a eles, o uso de eixos não rotulados ou enganosos, a apresentação de gráficos 3D que confundem proporções são alguns outros pontos que prejudicam a integridade visual dos dados.
  A escolha de um modelo inadequado de gráfico pode também prejudicar a interpretação dos dados. Os dois gráficos mostrados no item 5 possuem problema. Examine o dataset e reveja-os. Qual o problema? Veja se acertou.
  
  O site VisLies apresenta galerias anuais com visualizações que induzem a erros de interpretação.
  
  Os dois gráficos de linha acima mostram os mesmos dados referentes a matérias que mencionam Marielle Franco publicadas no jornal Folha de S.Paulo. O da esquerdo dificulta a leitura dos dados, pelo excesso de grafismos. Elementos gráficos meramente decorativos, redundantes ou desnecessários nas visualizações desviam o foco da exibição dos dados. Desse modo, prejudicam a eficácia dos gráficos em análises de dados.
  
  Vale a pena ver as transformações, em termos de eliminação de excessos visuais, em gráficos de barra, de pizza, tabelas, e mapas, produzidos pela empresa Darkhorse Analytics.
  
  A noção de densidade de dados remete à quantidade de elementos (linhas, pontos, tipos etc.) inseridos no gráfico. Deve-se buscar uma relação adequada entre o que se mostra e a capacidade de identificar o que é relevante.
  
  No gráfico acima, elaborado a partir das notícias com o termo “Marielle” publicadas em veículos on-line locais, há uma excessiva densidade. Isso torna inviável perceber os aspectos importantes que o gráfico poderia comunicar, por exemplo, qual veículo publicou mais. Resolver esse problema, em cada situação, poderá envolver a retirada de elementos redundantes (como no exemplo anterior), o aumento do tamanho do gráfico ou escolha de outro tipo de visualização. Para gráficos de linha, uma possibilidade é o uso dos gráficos de Pequenos Múltiplos (Small Multiples), modelo proposto por Tufte. Em relação ao exemplo, fica claro que os veículos UOL e O Globo publicaram mais matérias sobre o tema.
  
  Este padrão está relacionado à qualidade e ao nível de granuralidade (detalhamento) dos dados. O primeiro aspecto se associa, além dos aspectos discutidos no Módulo anterior, a questões como: grau de confiabilidade da fonte dos dados, possuir descrições sobre a metodologia para a obtenção dos dados, suas variáveis e dimensões, bem como informar a data em que foram coletados. O nível de granuralidade depende do objetivo da visualização.
  
  No entanto, note que o gráfico acima, elaborado a partir da contagem das interações (likes e comentários) de vídeos do YouTube que mencionam Marielle Franco possui menor granularidade do que essa visualização, que separa essas variáveis pelas categorias de vídeos, adicionando informação. Além disso, nesse modelo de gráfico dinâmico para web (conforme o mouse passa pela barra, são mostradas informações numéricas) é possível inserir link para os próprios dados com os quais foi produzido o gráfico.
  
  É praxe, sobretudo na comunicação científica, indicar a fonte dos dados de gráficos, inclusive quando os dados foram produzidos por quem fez a pesquisa. Daí, isso é informado. Por vezes, podem ser inseridas informações relevantes para a compreensão da visualização: certo tipo de tratamento nos dados ou alguma opção de visualização (como a distribuição escolhida para os gráficos de rede) e eventualmente o próprio software utilizado.
  
  A leitura de gráficos é uma habilidade associada à capacidade de produzi-los. A análise crítica preocupada com o modo como eles aparecem, em trabalhos acadêmicos e em geral, pode ajudar. É, inclusive, uma possível forma de inspiração para ajudar alguém a elaborar visualizações mais interessantes. A respeito da produção e leitura de gráficos, o projeto Seeing Data, que reúne várias pessoas que desenvolvem pesquisas na área de visualização de dados, possui um material de qualidade para estudar o assunto. Um dos conteúdos, adaptados aqui, sugere que se enfatize a leitura de cinco aspectos de qualquer gráfico.
  
  Concluindo esse tópico, você poderá ver, a seguir, pequenos tutoriais em vídeo que exemplificam a construção de gráficos com os programas e serviços mencionados.
  
  Introdução à Análise de Dados On-Line
  
  Gráfico de interações em vídeos no YouTube sobre Marielle, separados pela categoria do vídeo
  
  Observe que o gráfico acima possui características interativas e, portanto, é uma forma mais eficaz de comunicação quando é publicado digitalmente.
  
  4CAT - Mural de imagens do TikTok
  
  Com um dos processadores analíticos do aplicativo foi feita a contagem de hashtags e produzido um mural de imagens das postagens.
  Veja o tutorial
  
  RAWGraphs - Gráficos de rosca, pizza e dendrograma
  
  Os dois primeiros usaram os dados de influenciadores brasileiros e o dendrograma foi construído a partir dos links dos sites das entidades científicas da comunicação.
  
  Veja os tutoriais: gráfico de rosca, gráfico mapa de árvore e dendrograma
  
  Tableau - Gráficos de barra, linha e área
  
  O primeiro tutorial utiliza os dados do TSE de gastos e recursos de candidatos; o segundo, os das matérias de um jornal com o termo “Marielle”. Já o terceiro, o número de publicações de vídeos em um canal do YouTube.
  Veja os tutoriais dos gráficos: barra, linha e área
  
  Flourish - Gráficos de pequenos múltiplos (linha) e de barra dinâmico
  
  O primeiro gráfico utiliza dados de notícias sobre Marielle Franco em veículos on-line e o outro, explorando as possibilidades interativas dos gráficos digitais, explora novamente os dados do TSE sobre gastos e recursos de candidatos.
  Veja os tutoriais dos gráficos: pequenos múltiplos e dinâmico de barra
  
  Datawrapper - Gráficos de barras horizontais agrupadas e dinâmico
  
  O primeiro destes gráficos de barras permite comparar, entre um conjunto de revistas, o número de textos publicados de autoria com vínculo institucional no Brasil ou exterior, enquanto o segundo apresenta uma comparação entre interações de pessoas que viram vídeos sobre Marielle no YouTube e a categoria do conteúdo postado.
  Veja os tutoriais de gráficos de barras: horizontais agrupadas e dinâmico
  
  Introdução à Análise de Dados On-Line
  
  Remoção de excessos em gráfico de barra
  
  Passo a passo de retirada de excessos em gráfico de barras.
  
  Introdução à Análise de Dados On-Line
  
  Remoção de excessos em gráfico de pizza
  
  Passo a passo de retirada de excessos em gráfico de pizza.
  
  Introdução à Análise de Dados On-Line
  
  Remoção de excessos gráficos de tabela
  
  Passo a passo de retirada de excessos gráficos de tabela.
  
  Introdução à Análise de Dados On-Line
  
  Remoção de excessos gráficos de mapa
  
  Passo a passo de retirada de excessos gráficos de mapa.
  
  Introdução à Análise de Dados On-Line
  
  Cinco aspectos de um gráficos para se prestar atenção
  
  Adaptado de Making sense of data visualisations.
  
  Introdução à Análise de Dados On-Line
  
  Estrutura de gráfico na norma ABNT
  
  Reproduzido de Diretrizes para Apresentação de Dissertações e Teses da USP.
  
  Introdução à Análise de Dados On-Line
  
  Estrutura de gráfico na norma APA
  
  Reproduzido de Student Paper Setup Guide, APA Style 7th Edition.
  
  Introdução à Análise de Dados On-Line
  
  Indicação de número de eixo y em gráfico
  
  Reproduzido de Bigger is better: Maxing your axis.
  
  Introdução à Análise de Dados On-Line
  
  Gráfico do tipo Pequenos Múltiplos
  
  Esse tipo de gráfico favorece a comparação, quando há muitas dimensões que juntas dificultam a visualização.
  
  Introdução à Análise de Dados On-Line
  
  Tutorial: 4CAT - Mural de imagens do TikTok
  
  O tutorial mostra também a possibilidade de contar as hashtags de um dataset de postagens dessa plataforma.
  
  Introdução à Análise de Dados On-Line
  
  Tutorial: RAWGraphs - Gráfico de rosca
  
  Tutorial descrevendo a produção desse tipo de gráfico, a partir de dados sobre influenciadores brasileiros.
  
  Introdução à Análise de Dados On-Line
  
  Tutorial: RAWGraphs - Gráfico mapa de árvore
  
  Tutorial descrevendo a produção desse tipo de gráfico, a partir de dados sobre influenciadores brasileiros.
  
  Introdução à Análise de Dados On-Line
  
  Tutorial: RAWGraphs - Dendrograma
  
  Tutorial descrevendo a produção dessa visualização, a partir de dados sobre links nas páginas de duas associações científicas brasileiras.
  
  Introdução à Análise de Dados On-Line
  
  Tutorial: Tableau - Gráfico de barras agrupadas e empilhadas
  
  Tutorial descrevendo a produção dessa visualização, a partir de dados obtidos do site do TSE.
  
  Introdução à Análise de Dados On-Line
  
  Tutorial: Tableau - Gráfico de linha
  
  Tutorial descrevendo a produção dessa visualização, a partir de dados obtidos no acervo digital do jornal Folha de S.Paulo.
  
  Introdução à Análise de Dados On-Line
  
  Tutorial: Tableau - Gráfico de área
  
  Tutorial descrevendo a produção dessa visualização, a partir de dados coletados do canal do YouTube do Instituto Marielle Franco.
  
  Introdução à Análise de Dados On-Line
  
  Tutorial: Flourish - Gráfico dinâmico de barra
  
  Tutorial mostrando como elaborar um gráfico deste tipo, a partir de dados coletados do TSE.
  
  Introdução à Análise de Dados On-Line
  
  Tutorial: Flourish - Gráfico dinâmico de barra
  
  Tutorial mostrando como elaborar um gráfico deste tipo, a partir de dados coletados do TSE.
  
  Introdução à Análise de Dados On-Line
  
  Tutorial: Datawrapper - Gráfico de barra dinâmico
  
  Tutorial mostrando como elaborar um gráfico deste tipo, a partir de dados coletados do YouTube.
  
  Introdução à Análise de Dados On-Line
  
  Tutorial: Datawrapper - Gráfico de barras horizontais
  
  Tutorial mostrando como elaborar um gráfico deste tipo, a partir de dados coletados do Google Scholar.
  
  Introdução à Análise de Dados On-Line
  
  Tutorial: Flourish - Gráfico de pequenos múltiplos
  
  Tutorial descrevendo a produção dessa visualização, a partir de dados coletados de veículos on-line brasileiros com notícias envolvendo Marielle Franco.
  
  Introdução à Análise de Dados On-Line
  
  Escolha adequada de gráfico
  
  Gráficos de linha sugerem uma tendência e uma continuidade temporal que não podem ser inferidas dos dados. Em outras palavras, não é possível dizer que os vídeos publicados em 2018 foram vistos neste ano ou em ano posterior. O dataset apenas informa o número de visualizações de cada vídeo, mas sem informar quando elas ocorreram. Por conta disso, uma visualização mais adequada dos dados seria a partir de um gráfico de barra, como acima, por exemplo.
- Atividade 9 - Visualização de dados Tarefa
  
  Aberto: domingo, 24 nov. 2024, 00:00
  
  Vencimento: quarta-feira, 31 dez. 2025, 00:00
  
  A partir dos dados coletados por você, com base no que viu neste módulo, produza algum tipo de visualização e a insira em um documento de texto. Faça um texto descritivo, abaixo da visualização, em que aponte aspectos importantes relacionados aos dados que a visualização ajuda a perceber. Suba essa atividade para o ambiente.
- Análise textual
  
  Todos os tipos de texto contêm informações que podem ser tratadas como uma forma de dado em pesquisas, observa um autor, que também destaca que isso significa transformá-los em dados mais estruturados, sintéticos e quantitativos. Desse modo, os textos podem ser utilizados em abordagens tradicionais de análise de dados. Geralmente, sobretudo na pesquisa quantitativa, isso envolve a extração de características de um texto, depois tabuladas e contadas. Veja um exemplo.
  
  As ciências sociais possuem uma longa tradição de análise de textos para obter informações, a partir da codificação humana, em categorias elaboradas no processo de pesquisa. Porém, como argumentam certos pesquisadores, os textos eram, geralmente, usados com parcimônia devido à dificuldade de trabalhar com eles em larga escala. Isso muda a partir do advento e disseminação da internet, das ferramentas de análise computacionais e com os desenvolvimentos metodológicos associados. Nesse contexto, há diversidade de perspectivas e possibilidades analíticas no trabalho com o texto como dado. Ao mesmo tempo, a grande variedade entre os tipos de texto inviabiliza uma abordagem metodológica única, pois
  
  "o conteúdo que gostaríamos de extrair de um texto se estivermos interessados em conhecer seu tópico é qualitativamente diferente do conteúdo que extrairíamos se estivéssemos interessados em conhecer seu sentimento. Identificar a ideologia de um texto é bem diferente de identificar seu autor (uma tarefa do campo da estilometria). Os tipos de quantidades que os cientistas sociais esperam extrair dos textos são diversos e estão em constante crescimento" (Grimmer et al., 2022, p. 65).
  
  Embora não exista restrição quanto aos tipos de textos que possam ser analisados como dados, bem como quanto às formas de coleta, alguns autores argumentam que um ponto forte da abordagem é sua associação com meios de obtenção de dados em larga escala e de maneira não reativa, como nas produções (postagens, comentários etc.) que as pessoas publicam na internet. Isso seria um aspecto que poderia contornar vieses de observação.
  Linguística de Corpus
  
  Dentre as abordagens de estudo do texto como dado, a linguística de corpus (LC) tem ganhado atenção, além de sua área disciplinar de origem, a Linguística. A LC se desenvolveu, desde a década de 1960, a partir da linguística computacional, adquirindo contornos mais específicos nas décadas seguintes. Embora seu estatuto, enquanto metodologia ou teoria de estudo, seja debatido até hoje, em seu campo de origem, suas técnicas de pesquisa foram adotadas por várias áreas e disciplinas das ciências sociais interessadas em reconhecer padrões de uso de palavras, para inferir o significado dos dados linguísticos.
  
  Para alguns, as limitações da análise automatizada fazem com suas técnicas sejam válidas, principalmente, em análises exploratórias que levem à geração de hipóteses e indagações a serem exploradas por outros métodos de análise textual. Nesses casos, como mostram metanálises, a LC é usada como complemento de análises em pesquisas que utilizam métodos mistos. Assim, ela pode estar conjugada a análises de discurso, conteúdo e outras estratégias.
  
  A seguir, são expostas características de algumas técnicas usuais da LC, utilizando exemplos de uma análise no programa AntConc, tendo como corpus os comentários do vídeo com maior número de visualizações no canal do Instituto Marielle Franco. Esses comentários foram codificados em termos de exposição de sentimentos negativos, positivos e neutros/ambíguos em relação à Marielle e ao vídeo.
  
  Frequência e dispersão
  
  KWIC
  
  N-grams
  
  Palavras-chave
  
  Visualização
  
  No AntConc, é possível fazer o processamento analítico de diferentes corpura textuais ao mesmo tempo. Assim, os arquivos com comentários positivos, negativos e neutros foram, como mostra o resultado da imagem, verificados em termos da frequência e dispersão de palavras. Essas medidas fornecem informações básicas sobre a importância de palavras em textos. No caso, a análise se concentra nas três palavras com mais ocorrências no todo, mostrando como aparecem em cada um dos corpura.
  
  Os dados das medidas de frequência de palavras indicam ocorrências absolutas e relativas, sendo a última mais adequada para comparações. Uma noção importante é a de token, que significa cada conjunto contíguo de caracteres. Vale notar que é possível fazer com que o programa não recupere palavras comuns, mas sem significado analítico (“e”, “a”, “o”, “para” etc.). Além disso, pode ser necessário acrescentar tokens no programa para que sejam contados certos caracteres que tenham valor para uma pesquisa, mas que por padrão são ignorados (consulte o Manual do AntConc sobre isso), o que ocorre com os sinais gráficos de hashtag e arroba.
  
  A dispersão de palavras descreve a distribuição de algum termo no texto ou documento. Como os três corpura foram compostos por comentários do YouTube, com ordem textual em uma temporalidade do período mais recente (2024) ao início dos comentários (2022), é possível inferir que a preocupação com “justiça” esteve mais presente nos comentários positivos, no início e desde a metade do tempo até o período mais recente das publicações. A imagem do Plot favorece a percepção disso.
  
  A investigação de palavra-chave em contexto ou KWIC (Key Word in Context), conforme o acrônimo em inglês, examina os padrões de coocorrência de palavras adjacentes ou próximas, sendo frequentemente usada em análises exploratórias para entender quais tipos de palavras se agrupam nas proximidades de certo termo. A palavra-chave no centro de um quadro contextual é conhecida como palavra-nó (Hit, no termo do AntConc, como mostra a imagem acima) e as adjacentes ajudam a compreender o sentido mais exato de uso dela.
  O KWIC é o formato mais comum de apresentação de concordâncias, termo relacionado à apresentação sistemática de todas as ocorrências de uma palavra ou expressão específica (a palavra-chave) em seu contexto textual imediato. A análise de concordância permite identificar as colocações (palavras que frequentemente ocorrem juntas) e os contextos específicos de uso dos termos. As colocações mais frequentes de um termo podem ser vistas na aba Collocate do programa.
  
  Os padrões de colocação entre palavras contíguas, cujo número é chamado n-grama, são úteis para perceber grupos de palavras semanticamente importantes. Tais padrões podem ser localizados sem a especificação de alguma palavra-chave, como no caso do exemplo da imagem, em uma exploração puramente indutiva. O número de palavras contíguas a serem recuperadas é uma escolha de quem faz a pesquisa.
  
  A identificação de palavras-chave também examina um tipo de colocação ou coocorrência entre corpura. O objetivo é localizar, a partir da comparação, palavras que aparecem no corpus analisado (“Target Corpus” ) em taxas muito maiores ou menores do que seria esperado, a partir dessa comparação comum corpus de referência (“Reference Corpus”).
  
  Quando determinada palavra ocorre em um documento com frequência significativamente maior ou menor do que a esperada com base nas frequências observadas desse tipo de palavra em um ou mais documentos diferentes, isso tem valor analítico. É importante que o corpus de referência, usualmente pelo menos cinco vezes maior que o outro, tenha justificativa lógica. Por exemplo, no caso mostrado na imagem, o corpus em análise, consistindo dos comentários negativos ao vídeo sobre Marielle, foi comparado com uma coleção muito maior de comentários em outros vídeos envolvendo a ex-vereadora.
  
  As nuvens de palavras são, provavelmente, o formato de visualização mais diretamente associado aos trabalhos que usam textos como dados. Entretanto, como discute Laurence Anthony (2018), criador do software AntConc, muitas outras visualizações, como os gráficos de barra, linha, mapas de calor, são também utilizadas, nos estudos da LC, para dar expressão visual às análises de aspectos já discutidos. Isso é natural, devido ao teor quantitativo da abordagem.
  
  Como nota o autor, cada um dos métodos de visualização têm pontos fortes e fracos, por isso é importante entendê-los antes de escolher uma visualização apropriada para a análise. Há discussões sobre esse aspecto e trabalhos que fazem uso mais sofisticado de visualizações para comunicar dados textuais. Veja um exemplo.
  
  O AntConc gera nuvens de palavras e plots. O #Lancsbox, um programa similar, é um pouco melhor nesse aspecto, já que possui um módulo dedicado a visualizações , no qual foram produzidas as figuras que ilustram a discussão.
  
  Finalizando esse tópico, você poderá ver os tutoriais com um panorama do AntConc e sobre como produzir uma nuvem de palavras, além de ver outras informações com o aplicativo on-line Voyant Tools.
  
  AntConc - Panorama geral
  
  O tutorial apresenta um breve panorama do programa voltado à Linguística de Corpus, mostrando como importar dados e realizar algumas análise nele.
  Veja o tutorial
  
  Voyant Tools - nuvem de palavras e outros recursos
  
  O aplicativo on-line tem uso intuitivo e permite elaborar nuvens de palavras, escolhendo o nível de detalhamento, bem como outras informações sobre textos.
  
  Veja o tutorial
  
  Introdução à Análise de Dados On-Line
  
  Transformação de textos em dados quantitativos
  
  Exemplo de estratégia geral de conversão de dados textuais em quantitativos para análises. Adaptado de Benoit (2020).
  
  Introdução à Análise de Dados On-Line
  
  Tutorial: panorama do programa AntConc
  
  Tutorial que mostra a interface e características do software AntConc.
  
  Introdução à Análise de Dados On-Line
  
  Tutorial: nuvem de palavras com o aplicativo Voyant
  
  Criação de nuvem de palavras e outras características do aplicativo Voyant.
- Análise de redes sociais
  
  A Análise de Redes Sociais (ARS), de acordo um pesquisador reconhecido no campo, é
  
  “um conjunto de conceitos, medidas e técnicas de análise relacional. Trata-se de uma abordagem especificamente concebida para apreender as características mais importantes das estruturas sociais ... pode ser usada para explorar as relações sociais em si e também as estruturas culturais de normas e ideias que ajudam a organizar essas relações”.
  
  História da ARS
  
  A abordagem possui uma longa história nas ciências sociais, que remonta aos primórdios de disciplinas como a sociologia e a antropologia. Na área da comunicação, nas últimas décadas, houve forte crescimento de seu uso, principalmente nos estudos da mídia social e comunidades on-line.
  
  Já nas primeiras décadas do século XX, a sociologia alemã, com autores como Simmel (1858-1918), destacava que a sociedade era constituída por meio das interações entre indivíduos. Essa ideia é formalizada, em décadas posteriores, principalmente na psicologia social. Jacob Moreno (1889-1974), por exemplo, criou os chamados sociogramas, como uma forma de representar visualmente as redes sociais com padrões de pontos e linhas. A abordagem desenvolvida, com influência da teoria do grafo, é chamada de sociometria, e passa a ser utilizada em estudos de “dinâmicas de grupo” e de comunidades maiores.
  
  De modo simultâneo, nos Estado Unidos, métodos formais, principalmente os das teorias de conjuntos algébricos, foram utilizados no desenvolvimento de um paradigma para a ARS. Houve, assim, certa complementaridade entre as perspectivas: enquanto a teoria do grafo utilizada nos estudos sociométricos se concentrava nas interações entre indivíduos, a teoria dos conjuntos destacava as posições, funções e papéis ocupados por eles na estrutura social revelada.
  
  Afirma-se que a ARS não é, precisamente, uma abordagem teórica, mas sim uma orientação teórica geral (paradigma) que enfatiza os relacionamentos entre atores, cujos métodos têm sido utilizados no desenvolvimento de teorias sociais específicas. Por vezes, ela dialoga com teorias sociais, com as quais compartilha algumas afinidades, apesar de diferenças, como a Teoria Ator-Rede.
  
  Como apontam algumas autoras, várias razões tornam a ARS atraente no estudo da mídia digital: as redes sociais na internet possuem grande número de pessoas que interagem entre si, a abordagem favorece a compreensão sobre esse objeto ao destacar a estrutura de relacionamentos; além disso, a abordagem é produtiva, devido a seu foco ser em como os recursos fluem em uma rede. O último ponto pode ser relevante, por exemplo, para examinar a disseminação de certo conteúdo.
  
  As mesmas autoras notam que, metodologicamente, a delimitação do escopo do estudo é geralmente se baseia em uma abordagem nominalista. Desse modo, a natureza da pergunta de pesquisa indica quem será incluído na rede. Uma estratégia bastante utilizada é o agrupamento por hashtag. Embora válida, essa estratégia requer precauções, já que, entre outros pontos, uma discussão similar pode envolver o uso de várias hashtags.
  
  A ideia de entender uma estrutura social como uma rede está no centro da ARS, por isso, a importância de técnicas que transformem dados, digitais ou não, em visualizações de rede (grafos). A seguir, serão apresentados alguns conceitos básicos sobre os grafos e como se pode construir uma visualização de rede com diferentes programas.
  
  Gráficos de rede ou grafos dão forma visual a estruturas de relacionamento, mais ou menos explícitas, entre atores, representados nos chamados nós ou vértices. A ligação ou conexão entre os nós, que podem ser pessoas ou entidades como países, empresas, produtos e citações (dimensão comum em análises bibliométricas), é chamada de aresta. O direcionamento da relação é indicado por setas e nesse caso o grafo é chamado de direcionado.
  
  O grafo acima representa a primeira parte do famoso poema “Quadrilha”, de Carlos Drummond de Andrade. A aresta representa a relação de “amor” e não possui, em nenhum caso, reciprocidade. Caso houvesse, haveria duas arestas ou uma aresta com duas setas. Ao lado do grafo, há a representação da rede de relacionamento no formato de matriz e num padrão lido pelo programa Gephi.
  
  Os nós e arestas podem ter algum peso, que expresse alguma medida e seja representado de modo numérico ou visual. Veja esse exemplo.
  
  Os grafos podem ser organizados a partir de estruturas egocêntricas ou sem essa característica, nos gráficos inteiros. No primeiro caso, o grafo é organizado a partir de um nó central, o “ego”, e os seus contatos imediatos são chamados de “alters”.
  
  É mais comum que as redes sejam elaboradas com um único tipo de ator como nó. No entanto, nas redes de dois modos ou redes bipartidas, chamadas também por vezes de redes de afiliação, as ligações ocorrem entre dois conjuntos distintos de entidades. Um exemplo é uma rede em que um conjunto seja de pessoas e o outro de séries de televisão preferidas por elas. Embora a ideia possa ser interessante, para determinado estudo, observa-se que os conceitos analíticos da ARS são voltados a redes de um único modo.
  
  A centralidade do grau mede o número de conexões de um nó, somando as arestas conectadas a ele. Em gráficos direcionados, há um grau de entrada (in-degree) que corresponde às arestas que chegam ao vértice, e um grau de saída (out-degree), a partir do número de arestas que partem dele. A medida geral do grau de centralidade é a soma das anteriores.
  
  O grafo acima mostra os graus de entrada e de saída, isto é, o quanto os artigos publicados pelas revistas mostradas receberam ou fizeram citações a trabalhos de outros periódicos do conjunto. Por isso, a partir de configurações no software que gerou a visualização, as revistas com maior grau ocupam posição mais central e possuem nós maiores.
  
  A centralidade de grau pode se associar, dependendo do tipo de relação mapeada, a aspectos como relevância, influência ou popularidade do ator representado em um nó.
  
  Além desse tipo de centralidade (grau), há também as seguintes medidas:
  
  Centralidade de intermediação: verifica os nós que atuam como “pontes” na rede. O valor é dado pela contagem do número de vezes que determinado nó percorre o trajeto mais curto até os outros. Nós com alta centralidade de intermediação controlam fluxos de informação e recursos. Em redes de transporte, as estações centrais têm maior escore nesse quesito.
  
  Centralidade de proximidade: mede a proximidade de um nó em relação a todos os outros. Um nó com alta centralidade de proximidade tem acesso rápido aos demais nós, sendo capaz de se comunicar diretamente ou por poucos intermediários com o resto da rede. Alto escore nessa métrica se associa a nós com relevância, por exemplo, para a propagação de mensagens.
  
  Centralidade de autovetor: identifica as conexões diretas de um nó associadas à centralidade de seus vizinhos. Nós com alta centralidade de autovetor podem ser vistos como poderosos ou com prestígio, pois, ainda que não estejam conectados a muitos nós, suas conexões ocorrem com vértices importantes da rede. O algoritmo do buscador Google utiliza uma variante dessa medida.
  
  Para entender melhor a centralidade de intermediação, veja esse grafo.
  
  Programas como o Gephi realizam o cálculo de diferentes tipos de centralidade que poderão estar associadas à visualização.
  
  O coeficiente de clusterização é a métrica da tendência dos nós de uma rede formarem clusters ou grupos. Está associada à modularidade de uma rede, ou seja, à propensão de determinados nós estabelecerem conexões com outros, formando grupos.
  
  No grafo acima, com os mesmos dados de revistas, mas com design mais elaborado (sem números de grau e com arestas curvas), a cor dos nós e arestas (roxo, laranja e verde) está relacionada aos clusters formados a partir das conexões entre nós.
  
  Os grafos podem ser desenhados de modo manual, em programas de desenho. No entanto, tem se tornado frequente o uso de aplicativos que produzem visualizações elaboradas, seguindo métricas como as vistas aqui. Geralmente essas ferramentas possuem os chamados algoritmos de distribuição que irão, a partir de suas características específicas, distribuir nós e arestas para produzir uma visualização. Há, entretanto, margem para personalizações, durante o uso do programa.
  
  Como escolher uma distribuição/visualização? Em primeiro lugar, é essencial que a representação dos dados seja legível, além disso, a topologia do grafo deve destacar os aspectos para os quais se pretende apontar. Como se pode ver, acima, os mesmos dados serviram para elaborar grafos bastante diferentes, a partir dos algoritmos, indicados abaixo das imagens. Desse modo, conhecer as características dos algoritmos é importante, consultando materiais sobre o assunto, como esse.
  
  Como bem observa Recuero (2017): “A visualização é uma forma de mostrar aquilo que as métricas calculam, e não uma justificativa per se. Ela deve ser, portanto, visualmente informativa daquilo que as métricas demonstram. Por conta disso, é sempre importante descrever quais métricas e algoritmos foram utilizados para a visualização” (p. 62).
  
  Para concluir o estudo sobre a análise de redes, você pode ver os tutoriais, exemplificando o uso de programas na produção de grafos.
  
  VOSviewer - Grafo bibliográfico
  
  Exemplo de como produzir um grafo com palavras-chave de trabalhos acadêmicos sobre Marielle Franco, coletados do Scopus (veja esse tutorial sobre como fazer isso). Em programas que editam arquivos SVGs, como o on-line Boxy, é possível apagar o logotipo do VOSviewer. Entretanto, é válido informar o uso dele, em textos que utilizam grafos feitos com ele.
  Veja o tutorial
  
  Flourish - Grafo egocêntrico
  
  É possível construir gráficos neste programa, como mostra o exemplo, a partir de verbetes da Wikipédia relacionados a Marielle Franco.
  
  Veja o tutorial
  
  Gephi - Grafos de relacionamento entre perfis do Instagram e entre citações de revistas
  
  O primeiro tutorial utiliza os dados de perfis seguidos por organizações feministas brasileiras e o segundo, os dados de revistas científicas.
  
  Em relação à primeira visualização, vale a pena notar o uso de filtros no Gephi, de modo a diminuir o número de rótulos de nós mostrados, bem como a aplicação da cor aos clusters do grafo.
  Veja os tutoriais dos grafos: perfis, revistas
  
  Você aprendeu muito sobre análises de dados, mas terá uma visão mais sólida sobre o tema, para efetuar seus próprios trabalhos, à medida em que ler criticamente estudos que utilizam metodologias como as expostas. Nesse sentido, sugere-se o exame dos seguintes artigos, cada um utilizando uma das estratégias de análise destacadas:
  
  “#PraCimaDeles: O Humor na Construção da Identidade Política de Guilherme Boulos”, de Richard Romancini, Viviane Barbosa Marques e Fernanda Castilho Santana – Palabra Clave, 27(4), e2749, 2024. Utiliza análises descritivas de dados do Instagram.
  
  “Ni Una Menos: A Luta pelos Direitos das Mulheres na Argentina e Suas Representações no Facebook”, de Rodrigo Esteves de Lima-Lopes e Maristella Gabardo – Revista Brasileira de Linguística Aplicada, 19(4), 801-824, 2019. Aplica a Linguística de Corpus, no trabalho metodológico.
  
  “A Endogamia da Comunicação: Redes de Colaboração na CSAI”, de Marco T. Bastos, Gabriela Zago e Raquel Recuero – Revista Famecos, 23(2), ID21459, 2016. Faz uso da ARS.
  
  Uma observação final importante é que as metodologias ou técnicas descritas podem ser conjugadas entre si e a outras, como exemplifica a discussão de Recuero (2018) sobre a combinação de ARS e análise de conteúdo.
  
  Introdução à Análise de Dados On-Line
  
  Grafo do comércio internacional dos países do G-20
  
  O grafo exemplifica a ideia do peso para nós e aresta, explicando que: “As arestas direcionadas (links) entre quaisquer dois nós (países) são dadas pelo valor total do comércio entre esses países. A espessura das arestas e o tamanho de suas setas indicam as magnitudes dos fluxos comerciais em ambas as direções. Os tamanhos dos nós são definidos de acordo com o logaritmo do PIB de um país. É possível ver claramente como os nós Europa, China e Estados Unidos formam um grande triângulo global de comércio e como outros países se conectam a ele”. Reproduzido de Netconomics: Novel Forecasting Techniques from the Combination of Big Data, Network Science and Economics.
  
  Introdução à Análise de Dados On-Line
  
  Exemplo de centralidade de intermediação
  
  A tonalidade (do vermelho=0 ao azul=máx.) indica a centralidade de intermediação de cada nó. Grafo de Claudio Rocchini, CC BY 2.5.
  
  Introdução à Análise de Dados On-Line
  
  Tutorial: VOSviewer - Grafo bibliográfico
  
  Tutorial mostrando a elaboração de um grafo, a partir de dados coletados na base Scopus.
  
  Introdução à Análise de Dados On-Line
  
  Tutorial: Flourish - Grafo egocêntrico
  
  O tutorial mostra como produzir um grafo utilizando o aplicativo Flourish, a partir de ligações entre verbetes da Wikipédia.
  
  Introdução à Análise de Dados On-Line
  
  Tutorial: Gephi - Grafo de relacionamento entre perfis do Instagram
  
  Tutorial mostrando a elaboração de um grafo a partir de dados de relacionamento entre perfis de rede social.
  
  Introdução à Análise de Dados On-Line
  
  Tutorial: Gephi - Grafo de citações entre revistas
  
  Tutorial com passo a passo para criar grafo com dados de citações entre revistas.
  
  Introdução à Análise de Dados On-Line
  
  Coleta de dados bibliográficos da base Scopus
  
  Tutorial que explica como coletar dados bibliográficos da base Scopus a partir de busca.
- Atividade 10 - Análise de dados Tarefa
  
  Aberto: domingo, 24 nov. 2024, 00:00
  
  Vencimento: quarta-feira, 31 dez. 2025, 00:00
  
  Realize uma breve análise de dados coletados por você durante o curso, a partir do que estudou, podendo optar por algum tipo de estratégia relacionada a texto ou à ARS. Faça isso em um arquivo de texto que seja inserido no ambiente.
- REAs de aprofundamento
M6 | Ética e pesquisa com dados on-line
Módulo 6

Ética em pesquisa com dados on-line
- Objetivos de aprendizagem:
  
  Conhecer aspectos básicos ligados à ética na pesquisa e especificidades da investigação com dados on-line nesse contexto
  
  Refletir sobre práticas éticas em situações controversas envolvendo a pesquisa digital
  
  Perceber caminhos de aprofundamento de estudos dos temas do curso
  
  Revisar o que foi aprendido
- Temas gerais
  
  A ciência objetiva o bem social, por isso preocupações éticas devem nortear seus procedimentos. Em pesquisas, isso significa incorporar o tema desde a elaboração das perguntas à publicização de resultados. As investigações que utilizam métodos digitais, em sentido amplo ou restrito, possuem questões éticas parecidas àquelas que não envolvem tecnologias e o ambiente da rede. Entretanto, há especificidades que merecem atenção.
  
  Pontos centrais da ética na pesquisa envolvendo seres humanos são expostos na Lei nº 14.874, de 28 de maio de 2024, que instituiu o Sistema Nacional de Ética em Pesquisa com Seres Humanos. A Lei, em seu Art. 3, destaca as seguintes exigências éticas e científicas para as pesquisas com seres humanos:
  
  “I - respeito aos direitos, à dignidade, à segurança e ao bem-estar do participante da pesquisa, que deverá prevalecer sobre os interesses da ciência e da sociedade;
  II - embasamento em avaliação favorável da relação risco-benefício para o participante da pesquisa e para a sociedade;
  III - embasamento científico sólido e descrição em protocolo;
  IV - condução de acordo com protocolo aprovado pelo CEP;
  V - garantia de competência e de qualificação técnica e acadêmica dos profissionais envolvidos na realização da pesquisa;
  VI - garantia de participação voluntária, mediante consentimento livre e esclarecido do participante da pesquisa;
  VII - respeito à privacidade do participante da pesquisa e às regras de confidencialidade de seus dados, garantida a preservação do sigilo sobre sua identidade;
  VIII - provimento dos cuidados assistenciais necessários em casos que envolvam intervenção;
  IX - adoção de procedimentos que assegurem a qualidade dos aspectos técnicos envolvidos e a validade científica da pesquisa;
  X - condução da pesquisa em plena compatibilidade com as boas práticas clínicas”.
  
  Os riscos de prejuízo a pessoas e grupos envolvidos em pesquisas são diversos. Ao mesmo tempo, o balanço entre riscos e benefícios é complexo, pois nem sempre quem pesquisa tem clareza sobre os potenciais danos de sua investigação. Desse modo, reflexões cuidadosas ao longo do processo de pesquisa se impõem.
  
  Um aspecto central da ética na pesquisa é o âmbito metodológico, pois, como nota um autor, quem conduz a investigação, geralmente, irá interferir na vida dos participantes da pesquisa e isso pode, de algum modo, ferir a dignidade dessas pessoas. O mesmo estudioso observa que
  
  “Não existe ‘risco zero’. Todo e qualquer método pode ser prejudicial para o sujeito da pesquisa, pois um mero questionário pode, por exemplo, desencadear angústias imprevisíveis em quem o responde. Quiséssemos o ‘risco zero’, não faríamos pesquisa (e nem entraríamos em qualquer interação humana!). Todavia, há métodos que, mais do que outros, apresentam claramente riscos” (p. 275).
- Controvérsias específicas da pesquisa digital
  
  Um autor observa, com propriedade, que há três aspectos que geram reflexões e preocupações específicas em relação à ética na pesquisa on-line:
  
  1. A compreensão entre o que é público ou privado;
  
  Usualmente, interações sociais em locais públicos podem produzir dados de pesquisa. Isso não exime quem pesquisa de preocupações éticas, mas a distinção tradicional entre ambientes off-line públicos (ruas, praças, praias etc.) e privados colocava um limite claro entre uma situação com menos formalidade na regulação da pesquisa e outra diferente.
  
  No entanto, o contexto on-line problematiza a distinção rígida entre essas esferas. As pessoas que utilizam a internet e as redes sociais, ainda que interajam ou façam publicações em modo “público”, costumam expressar preocupação sobre como o que produzem será utilizado por outros indivíduos.
  
  Portanto, é importante refletir sobre o uso de dados pessoais da internet, mesmo que, em tese, sejam públicos. É nessa linha que vai, por exemplo, o documento com Diretrizes Éticas da Association of Internet Researchers (AoIR). Autoras influentes na discussão do assunto defendem, assim, localizar as questões éticas nos contextos específicos das investigações, em
  
  “uma abordagem baseada em casos que reconheça e considere as tensões éticas como conflitos com considerações legais, disciplinares, institucionais e culturais .... Ao colocar questões éticas de forma consistente e refletir sobre o processo de pesquisa, quem investiga irá equilibrar melhor suas diferentes obrigações” (p. 204).
  
  2. A necessidade e a forma de obtenção do consentimento livre e esclarecido; e
  
  A noção de “consentimento informado” decorre da ética médica e, com o tempo, passou a ser parte central da ética da pesquisa de diversas disciplinas quando as investigações envolvem seres humanos. Geralmente, o uso de um Termo de Consentimento Livre e Esclarecido (TCLE) operacionaliza o conceito na prática. Conforme define a Lei nº 14.874, ele é o “documento no qual é explicitado o consentimento livre e esclarecido do participante da pesquisa, ou do seu responsável legal, de forma escrita, com todas as informações necessárias, em linguagem clara e objetiva, de fácil entendimento, para o completo esclarecimento sobre a pesquisa da qual se propõe participar” (Art. 2º, LIII).
  
  O modo como se dá o aceite deste termo, na maior parte das vezes, evidencia uma diferenciação entre a pesquisa off-line e a que utiliza o ambiente digital, pois, como nota uma estudiosa:
  
  “Enquanto a ética tradicional da pesquisa envolvendo seres humanos geralmente envolve o contato face a face entre quem pesquisa e o indivíduo pesquisado, permitindo que ocorra uma conversa, a tecnologia elimina esse contato, diluindo significativamente a capacidade de quem solicita o consentimento de avaliar a autonomia, a competência e a compreensão de quem poderá consentir, e destas pessoas de entender as minúcias da explicação”.
  
  A Resolução CNS Nº 510/2016 nota que o processo de consentimento ou assentimento livre e esclarecido pode acontecer em qualquer fase da pesquisa. O momento em que isso ocorre depende da pesquisa, pois, embora o receio de não obter o consentimento após terem sido feitas observações seja compreensível, há também o risco de que essa solicitação possa perturbar e enviesar o contexto de pesquisa, como o de algum grupo on-line. Assim, o momento em que o pedido será feito é uma decisão que envolve ponderação. Entretanto, em pesquisas de levantamento utilizando a internet como meio de coleta de dados, a praxe tem sido explicar textualmente a pesquisa, mostrando os termos de consentimento (veja exemplos de TCLEs desse tipo), que deve ser aceito antes do início efetivo da coleta de dados.
  
  Por outro lado, nem sempre é possível obter o consentimento informado de um número grande de pessoas, como ocorre na pesquisa com big data. A tendência internacional tem sido tratar esses dados a partir de agregações das informações e sem que exista possibilidade de identificação individual de qualquer pessoa. A Resolução mencionada, no parágrafo único de seu Art. 1, dispensa a necessidade de registro e avaliação por Comitês de Ética para pesquisas desse tipo, abonando essa prática.
  
  Essa opção, de maneira geral razoável em relação à pesquisa com dados existentes, é controversa na investigação científica que envolve a manipulação de participantes. O notório experimento realizado no Facebook, em 2012, com cerca de 700 mil usuários da plataforma com o objetivo de avaliar o “contágio emocional”, a partir da alteração do que elas viam em seu feed, é um exemplo. A publicação do artigo provocou ultraje público e críticas no campo científico , em particular pela inexistência de algum tipo de consentimento das pessoas. Embora a empresa tenha alegado que a pesquisa cumpria suas regras, foi apenas quatro meses depois desse experimento que os termos de uso do Facebook foram alterados, passando a incluir a informação sobre a coleta de dados das pessoas que usam o serviço para estudos científicos.
  
  3. A garantia de anonimato e confidencialidade.
  
  Por vezes, quem faz a investigação obtém dados sem identificação, anônimos, por exemplo, ao coletar dados a partir de um questionário on-line que não solicita isso, nem quaisquer informações indexicais. Mas é frequente que se saiba quem forneceu os dados. Então, é preciso torná-los anônimos, ou seja, não associados a uma pessoa, para proteger a privacidade de quem colaborou.
  
  No entanto, no contexto digital, isso é também problemático, na medida em que citações literais podem ser rastreadas, por exemplo, quando inseridas em buscadores da internet que apontam suas fontes. Por isso, quando a identificação de quem participou da pesquisa for indesejável, o uso de citações diretas ou informações e dados, como fotos e imagens, que permitam identificar pessoas deve ser evitado. Na etapa de publicação de resultados, para garantir o sigilo de quem deu informações, é comum o uso de pseudônimos ou identificações genéricas.
  
  A confidencialidade dos dados está relacionada também à manipulação e compartilhamento dos dados brutos, por isso quem faz a pesquisa deve estabelecer procedimentos que protejam a identidade dos participantes nessas ocasiões.
  
  Vale notar que pessoas e instituições públicas não requerem, de maneira geral, as mesmas preocupações relacionadas às dimensões de anonimato e confidencialidade na pesquisa científica que indivíduos comuns.
  
  Veremos, a seguir, como as preocupações discutidas têm gerado propostas de quadros de referência reflexivos para ajudar a tomada de decisões éticas durante pesquisas no ambiente digital.
  
  Introdução à Análise de Dados On-Line
  
  Exemplos de Termos de Consentimento Livre e Esclarecido no contexto on-line
  
  É interessante notar os diferentes formatos dos TCLEs, mas com a preocupação básica de informar quem irá participar da investigação a respeito da natureza dela.
- Enquadramentos reflexivos
  
  Quadros de referências ou guias sobre questões éticas podem favorecer opções contextualizadas nas investigações envolvendo a mídia digital. Há algumas propostas convergentes sobre o tema, como as de Williams et al. (2017), Townsend e Wallace (2016) e Fuchs (2018).
  
  A primeira proposta recomenda que, durante a investigação, sejam feitas considerações sobre o modo de publicação de determinado conteúdo (público ou não) e as características do produtor (indivíduo público ou não, vulnerável ou não). A partir daí, quem pesquisa deve decidir se irá solicitar a autorização para o uso do conteúdo na investigação e mesmo se deverá utilizar esse material no trabalho.
  
  O guia de Townsend e Wallace (2016), por sua vez, localiza as questões éticas num contexto amplo, sugerindo a reflexão sobre três dimensões principais:
  
  Aspectos Legais Privacidade e risco Reuso e publicação
  
  Os termos e condições da plataforma foram consultados?
  
  As diretrizes da disciplina acadêmica, dos agentes de fomento, legais ou institucionais relevantes foram consultadas?
  
  Quem utiliza a mídia social pode esperar razoavelmente ser observado por estranhos?
  
  Os participantes da pesquisa são vulneráveis (crianças ou adultos vulneráveis, por exemplo)?
  
  Quem utiliza as mídias sociais será anonimizado nos resultados publicados?
  
  Será possível publicar ou compartilhar a base de dados?
  
  Em linha com as propostas anteriores, Fuchs (2018) discute particularmente os dilemas éticos relacionados aos estudos qualitativos, recomendando uma ética de pesquisa on-line crítico-realista. A discussão do autor, no trabalho, significativamente intitulado “Caro Sr. Neonazista, Você Pode Me Dar Seu Consentimento Informado para que Eu Possa Citar Seu Tweet Fascista?”, exemplifica a proposta.
  
  Desse modo, o dilema exposto é equacionado a partir do argumento de que, quando alguém publica algo usando hashtag, numa mídia social, se engaja numa discussão pública, portanto, sabe que o que publicou será lido por outras pessoas, e até deseja isso, não possuindo expectativa de privacidade. Assim, o uso desse dado, sem pedido de autorização, seria abonado. Ao mesmo tempo, o autor nota que, mesmo utilizando conteúdo produzido por pessoas desconhecidas (não personalidades públicas), anonimiza os dados.
  
  A seguir são mostrados alguns “estudos de caso”, retirados do trabalho de Townsend e Wallace (2016), com situações de pesquisa que demandam decisões e suas propostas de encaminhamento ético.
  
  Estudo de caso #1
  
  Estudo de caso #2
  
  Estudo de caso #3
  
  Contexto
  
  Alguém deseja estudar narrativas pró-legalização do uso da maconha. Os dados serão coletados a partir do Twitter, portanto são dados públicos abertos. A pesquisa será feita com a coleta de dados, postagens, publicadas com as hashtags #cannabis, #legalize e #ismokeit, durante os últimos 7 dias.
  
  Preocupações
  
  De saída, o assunto é sensível porque se refere a uma atividade ainda ilegal no Reino Unido. Em segundo lugar, pode haver usuários com menos de 18 anos de idade contribuindo para o debate. Por isso, quem faz a pesquisa deve trabalhar de modo a tratar os dados adotando procedimentos de proteção do anonimato.
  
  Encaminhamento ético
  
  Quem pesquisa decide que os dados são públicos, porque são postados no Twitter (plataforma na qual a configuração padrão para postagens é pública); a maioria dos perfis são públicos e podem ser vistos e seguidos por qualquer um. Além disso, o uso de hashtags implica que os usuários estão interessados em contribuir em uma comunidade ou debate e, portanto, esperam um número ainda maior de pessoas vendo seus dados. O tema é sensível, e pode haver dados de menores, assim, há risco considerável de danos. A autoria decide que convém acessar os dados e apresentar resultados a partir de dados agregados, mas não é correto publicar um conjunto de dados (proibido pelo Twitter de qualquer forma) ou republicar citações diretas que levarão pessoas interessadas ao perfil do usuário, comprometendo o anonimato. Quem faz a pesquisa apresentará, portanto, citações parafraseadas (removendo os identificadores) para refletir os temas que surgirem, e fornecerá detalhes sobre como os dados da pesquisa podem ser replicados. Algumas citações diretas podem ser usadas com o consentimento informado do usuário da plataforma, mas o pesquisador sabe que deve tomar medidas para garantir que o usuário tem mais de 18 anos de idade.
  
  Contexto
  
  Uma pesquisadora deseja explorar os temas dominantes nas publicações de mídia social de atletas olímpicos em seus perfis de mídia social. Os perfis são públicos e normalmente têm centenas de milhares de seguidores. As plataformas sob escrutínio incluem Twitter e Facebook.
  
  Preocupações
  
  A pesquisadora pode considerar estas postagens públicas, e é ético publicar seus dados textualmente?
  
  Encaminhamento ético
  
  É razoável que a pesquisadora considere estes dados públicos, porque o esportista está publicando em um perfil público com o objetivo de divulgar sua conta de forma mais geral e com a intenção de alcançar o maior número de pessoas possível. Nesse caso, também é razoável que a pesquisadora republique esses dados – o esportista tem uma grande expectativa de que (um grande número de) estranhos estarão vendo seus dados e, de fato, isto é frequentemente desejado. Portanto, é pouco provável que os dados sejam sensíveis. Também dado o tamanho de seu público, é pouco provável que o pesquisador represente um dano potencial ao esportista, além de qualquer risco potencial que ele coloque sobre si mesmo. As citações podem ser republicadas em sua forma original.
  
  Contexto
  
  Um pesquisador conduz uma análise crítica do discurso de uma base de dados de tweets usando as hashtags #DonaldTrump; #TrumpTrain; #VoteTrump2016; #AlwaysTrump; #MakeAmericaGreatAgain ou #Trump2016. Os tweets são analisados a fim de descobrir como os apoiadores do Trump argumentam em prol de seu candidato no Twitter.
  
  Preocupações
  
  Podemos considerar estes dados públicos? Há algum problema de sensibilidade ou risco de dano? Precisamos buscar o consentimento informado antes de citar estes tweets diretamente?
  
  Encaminhamento ético
  
  Os apoiadores do Trump usam estas hashtags para alcançar um público amplo e convencer outras pessoas a votar em Trump. Portanto, é razoável supor que tais tweets tenham caráter público: os autores esperam e querem ser observados por estranhos a fim de defender um ponto de vista político que eles querem que outros leiam. O pesquisador pode, portanto, citar diretamente tais tweets sem ter que obter o consentimento informado. No entanto, é uma boa prática apagar as IDs dos usuários comuns, que não são eles mesmos figuras públicas.
- Atividade 11 - Enquadramento ético sobre conteúdo publicado na internet H5P
  
  Receber uma nota
- Comitês de Ética e LGPD
  
  No contexto brasileiro, como já observado, a Lei nº 14.874, de 28 de maio de 2024, instituiu o Sistema Nacional de Ética em Pesquisa com Seres Humanos. Os Comitês de Ética em Pesquisa (CEP) possuem papel central nesse Sistema, sendo responsáveis por avaliar projetos. No Parágrafo único de seu Art. 1, a Resolução CNS Nº 510/2016, dirigida especificamente às ciências sociais e humanas, informa os casos em que as investigações não precisam ser registradas e avaliadas por CEPs:
  
  “I - pesquisa de opinião pública com participantes não identificados;
  II - pesquisa que utilize informações de acesso público, nos termos da Lei n o 12.527, de 18 de novembro de 2011;
  III - pesquisa que utilize informações de domínio público;
  IV - pesquisa censitária;
  V - pesquisa com bancos de dados, cujas informações são agregadas, sem possibilidade de identificação individual; e
  VI - pesquisa realizada exclusivamente com textos científicos para revisão da literatura científica;
  VII - pesquisa que objetiva o aprofundamento teórico de situações que emergem espontânea e contingencialmente na prática profissional, desde que não revelem dados que possam identificar o sujeito; e
  III (sic) - atividade realizada com o intuito exclusivamente de educação, ensino ou treinamento sem finalidade de pesquisa científica, de alunos de graduação, de curso técnico, ou de profissionais em especialização.
  § 1 o Não se enquadram no inciso antecedente os Trabalhos de Conclusão de Curso, monografias e similares, devendo-se, nestes casos, apresentar o protocolo de pesquisa ao sistema CEP/CONEP;
  § 2 o Caso, durante o planejamento ou a execução da atividade de educação, ensino ou treinamento surja a intenção de incorporação dos resultados dessas atividades em um projeto de pesquisa, dever-se-á, de forma obrigatória, apresentar o protocolo de pesquisa ao sistema CEP/CONEP.”
  
  Quem elabora uma proposta de investigação deve ter em mente essas exceções para avaliar se seu projeto de pesquisa envolvendo seres humanos deve ser submetido a um CEP. Ao mesmo tempo, é importante saber que a Lei nº 14.874 estabelece, em seu Art. 14, que a “análise ética de pesquisa, realizada pelo CEP, com emissão do parecer, não poderá ultrapassar o prazo de 30 (trinta) dias úteis da data de aceitação da integralidade dos documentos da pesquisa, e essa aceitação, ou sua negativa, deverá ser feita pelo CEP em até 10 (dez) dias úteis a partir da data de submissão”. Um parâmetro como esse deve, portanto, ser levado em conta no planejamento e cronograma de investigações que requeiram avaliação.
  
  Outra legislação relacionada à regulação da pesquisa é a Lei Geral de Proteção de Dados Pessoais (LGPD). Devido à redação ambígua, há certa controvérsia se ela se aplica diretamente à investigação científica conduzida em instituições sem fins lucrativos. Porém, existe alinhamento claro entre o espírito da Lei e certas regras preconizadas com relação às práticas tradicionais da ética na pesquisa. Além disso, a própria Lei nº 14.847 faz referência à LGPD, em particular, no que diz respeito à proteção e ao anonimato de dados pessoais das pessoas que participam de pesquisas (ver Artigo 69).
  
  Na LGPD, a noção de “tratamento de dados” é definida como:
  
  “toda operação realizada com dados pessoais, como as que se referem a coleta, produção, recepção, classificação, utilização, acesso, reprodução, transmissão, distribuição, processamento, arquivamento, armazenamento, eliminação, avaliação ou controle da informação, modificação, comunicação, transferência, difusão ou extração” (Art. 5, inciso X).
  
  Tendo em vista a discussão prévia, as preocupações éticas do pesquisador devem estar em todas essas etapas.
- Conclusão e desenvolvimentos
  
  Neste curso, abordamos conceitos relacionados aos dados on-line e à pesquisa digital, bem como estratégias de coleta, tratamento e análise de dados. A natureza introdutória da formação fez com que o conteúdo se limitasse a algumas abordagens, se preocupando em desenvolver um lastro para aprofundamento futuro de quem realizaria o curso.
  Foram indicados materiais para avanços posteriores que podem corresponder a uma primeira etapa de novos estudos. No entanto, outras dimensões podem ser sugeridas. Nesse sentido, duas podem ser recomendadas, desde já: uma de teor específico e outra de caráter geral, sendo que ambas podem colaborar para tornar alguém mais competente na pesquisa envolvendo dados on-line.
  A geral é a contínua leitura crítica de pesquisas e discussões que envolvam dados e métodos digitais, pois isso favorece o desenvolvimento do senso crítico e científico quanto aos dados. As revistas científicas de comunicação apresentam, quase sempre a cada edição, trabalhos assim, e os livros organizados por Silva e Stabile (2016), Silva et al. (2018) reúnem muitos estudos e discussões metodológicas interessantes.
  Outras leituras válidas, nessa perspectiva, são o trabalho de Lopes e Freire (2015), discutindo implicações de ferramentas, métricas e monitoramento de conteúdos produzidos por fãs em redes sociais e, no âmbito dos métodos digitais, o de Rogers (2019), abordando as possibilidades de uso de métricas alternativas para estudar o engajamento social em questões problemáticas, no que chamou de “análise crítica”.
  A sugestão mais restrita está ligada ao fortalecimento de uma atitude reflexiva frente aos instrumentos técnicos de coleta, organização e análise de dados. Como argumentam van Es et al. (2021), as ferramentas fazem um trabalho epistêmico, de modo que suas premissas e adequação para fins de pesquisa precisam ser avaliadas criticamente. Isso envolve, entre outros pontos, a busca por conhecimento sobre as características, as limitações e o papel que elas exercem no desenvolvimento da pesquisa. É preciso evitar uma atitude acrítica e ingênua sobre a influência que os instrumentos exercem sobre os dados obtidos a partir deles e sobre o processo de investigação como um todo.
  Um provável desenvolvimento das ferramentas, por sinal, deverá ser a associação com softwares de inteligência artificial, o que já foi vislumbrado, embora de maneira tímida, em determinados momentos desta formação. Mas essa é uma área que deve crescer e que exigirá também reflexividade na adoção por parte de quem faz pesquisas.
- Atividade 12 - Revisão geral do conteúdo do curso H5P
  
  Receber uma nota
- Despedida
  
  Parabéns, a você que está concluindo o curso Introdução à Análise de Dados On-Line. Agora que quase tudo já foi dito e feito, só nos resta torcer para que você aproveite o conhecimento em prol de futuras pesquisas e novas jornadas de conhecimento.
  
  Antes de concluir, pedimos que você, por favor, preencha o formulário de avaliação do curso. Ele é um instrumento para que possamos aperfeiçoar esta formação.
  
  Muito obrigado.
- Avaliação Pesquisa de avaliação
- REAs de aprofundamento
- 1111 Arquivo