Analisando tendências centrais
Contorno da seção
-
-
Estatísticas descritivas descrevem ou resumem características relevantes de uma amostra e auxiliam na análise de dados de interesse. Ao analisar grandes quantidades de dados e desenvolver uma inferência, é preciso identificar um valor representativo de todo o conjunto de dados. Características como tendência central, valores extremos, intervalo de medições ou o valor mais repetido podem ajudar a entender melhor os dados. A tendência central é a característica de dados mais convencionalmente usada. É uma medida estatística que identifica um único valor exclusivamente representativo dos dados. A média, a mediana, a moda e os médios são as quatro medidas essenciais de tendência central e apresentam vantagens e desvantagens umas sobre as outras. Média: A média é definida como o valor médio de um conjunto de dados. No entanto, uma desvantagem crítica da média é que ela é sensível a valores extremos, chamados outliers, especialmente se o tamanho da amostra for pequeno. Mediana: A mediana é o valor central ou intermediário em um conjunto de dados quando todos os elementos de dados são organizados em ordem crescente ou decrescente. A mediana geralmente é uma medida melhor do centro quando há valores extremos ou discrepantes porque não é afetada pelos valores numéricos precisos dos outliers. Moda: A moda é definida como o valor mais frequente de um conjunto de dados. Os dados bimodais têm duas modas e os dados multimodais têm mais de duas modas. A moda é a única medida de centro para o nível nominal de medição. -
A média aritmética é a medida mais comumente usada da tendência central de um conjunto de dados. É definido como a soma de todos os elementos que constituem o conjunto de dados, dividido pelo número total de elementos. Às vezes, é vagamente referido como a “média”.
Quando todos os valores em um conjunto de dados não são únicos, a soma no numerador pode ser calculada multiplicando cada valor distinto por sua frequência.
Às vezes, a média aritmética de uma amostra pode ser afetada por alguns pontos de dados que são significativamente diferentes dos demais, outliers. Por exemplo, se em uma amostra de dez alunos, nove alunos têm idades variando de 20 a 21 anos, enquanto um aluno tem dez anos, então a média aritmética seria menor que 20, o que não é uma representação verdadeira da tendência central dos alunos. ' idades. Portanto, é necessária uma consideração cuidadosa antes de usar a média aritmética para medir a tendência central de um conjunto de dados.
A média aritmética de um conjunto de dados qualitativos não pode ser calculada. Por exemplo, em uma classe de alunos com diferentes nacionalidades, não há média aritmética para a nacionalidade.
-
Em alguns conjuntos de dados, os dados são inerentemente multiplicativos e a média aritmética não é útil. Por exemplo, a população humana se multiplica com o tempo, assim como o valor do crédito do investimento financeiro, à medida que os juros se acumulam em sucessivos intervalos de tempo.
Nos casos de dados multiplicativos, a média geométrica é utilizada para análise estatística. Primeiro, o produto de todos os elementos é tomado. Então, se houver n elementos no conjunto de dados, a n-ésima raiz dos produtos é definida como a média geométrica do conjunto de dados. Também pode ser expresso através do uso da função logarítmica natural.
Por exemplo, suponha que a moeda seja composta a taxas de juros anuais de 10%, 5% e 2%. Nesse caso, o fator de crescimento médio pode ser calculado calculando a média geométrica de 1,10, 1,05 e 1,02. Seu valor chega a 1,056, o que significa que a taxa média de crescimento é de 5,6% ao ano.
Pode-se mostrar que a média geométrica de um conjunto de dados de amostra é sempre quantitativamente menor ou no máximo igual à média aritmética da amostra.
-
Ao tomar a média aritmética, geométrica ou harmônica de um conjunto de dados de amostra, a mesma importância é atribuída a todos os pontos de dados. No entanto, nem sempre todos os valores são igualmente importantes em alguns conjuntos de dados. Um viés intrínseco pode tornar mais importante atribuir mais peso a valores específicos em detrimento de outros.
Por exemplo, considere o número de gols marcados nas partidas de um torneio. Ao calcular o número médio de gols marcados no torneio, pode ser mais importante considerar os jogos disputados na fase eliminatória. Os gols da fase eliminatória podem ter mais peso do que os outros gols. Uma vez atribuída uma estimativa numérica a esta ideia, calcula-se o número médio de golos no torneio. Tais médias são chamadas de médias ponderadas. Eles nos ajudam a atribuir um valor intrínseco a diferentes elementos de um conjunto de dados.
Às vezes, a probabilidade de ocorrência de cada elemento pode desempenhar o papel de pesos. Por exemplo, se dados viciados forem lançados aleatoriamente algumas vezes, alguns lados numerados podem aparecer com mais frequência do que outros. A média ponderada dos números responde por esse viés.
-
Às vezes, os dados coletados de um experimento em uma grande amostra ou população são organizados em tabelas concisas. Nesses casos, a frequência do conjunto de dados quantitativos é plotada na forma de uma tabela. Ou então, os valores dos dados são agrupados nos intervalos da quantidade, que formam classes, e suas respectivas frequências são conhecidas. Ou seja, os valores dos dados são distribuídos em diferentes categorias ou classes. Isso é conhecido como distribuição de frequência.
Quando tal conjunto de dados é encontrado, a média aritmética pode ser calculada considerando cada classe como um elemento. Cada categoria representa uma quantidade ou uma quantidade média, e sua frequência dá seu peso para calcular a média.
O número total de pontos na amostra ou população é, portanto, a soma das frequências das classes individuais. Portanto, a média de uma distribuição de frequência compreende a soma das frequências da distribuição em seu denominador.
A média calculada a partir de uma tabela de frequência pode ser considerada uma média ponderada, onde o peso refere-se à frequência de cada aula.
-
Além da média, a mediana é uma medida de tendência central amplamente utilizada. Normalmente, a mediana é definida como o valor central ou médio de um conjunto de dados, medido pela disposição dos elementos de dados em ordem crescente ou decrescente. Como esse valor médio não é afetado pelos valores numéricos precisos dos outliers ou flutuações, ele é insensível a eles. Portanto, nos casos em que um conjunto de dados pode ter outliers ou os valores extremos não são conhecidos, a mediana é uma medida melhor da tendência central do que a média.
A mediana pode ser o valor exato do meio de um conjunto de dados, se o número de elementos que ele contém for ímpar. Se for par, a mediana é igual à média dos dois valores do meio, mas não é igual a nenhum dos dois valores.
Calcular a mediana requer classificar o conjunto de dados e calcular o número de elementos que ele contém. Portanto, não existe uma fórmula algébrica simples. No entanto, os softwares padrão podem calcular facilmente a mediana de um conjunto de dados.
-
As medidas de tendência central calculadas a partir de um conjunto de dados podem não revelar muito sobre sua distribuição intrínseca. Se for feito um gráfico dos valores do conjunto de dados, a média e a mediana podem não apenas diferir, mas também o gráfico pode ter mais valores em um lado das tendências centrais. Diz-se que tal conjunto de dados é assimétrico para esse lado.
Quanto mais longa a cauda do gráfico de um lado, mais distorcida ela é. A assimetria dos valores de um conjunto de dados sugere que as medidas de tendência central são um tanto grosseiras, perdendo os detalhes mais sutis. Em uma distribuição simétrica, a média, a mediana e a moda são iguais, enquanto em uma distribuição assimétrica ou conjunto de dados assimétricos, a média e a mediana ficam à esquerda ou à direita da moda.
Por exemplo, a distribuição média de renda de um país não lança muita luz sobre sua desigualdade de renda. Enquanto alguns indivíduos mais ricos podem ganhar muito, a maioria da população pode ganhar miseravelmente. Portanto, a distribuição de renda representa um conjunto de dados assimétricos.
-