Perfilado de sección

    • Além das medidas de tendência central, distribuição, valores discrepantes e as características variáveis ​​dos dados com o tempo, uma característica importante de qualquer conjunto de dados é sua variação ou dispersão. Em alguns conjuntos de dados, os valores dos dados estão concentrados próximos à média; em outros, os valores dos dados estão mais afastados da média.
      
      A faixa, o desvio padrão, o erro padrão e a variância são as diferentes medidas de variação.
      
      Intervalo: O intervalo é a diferença entre seus valores máximo e mínimo.
      
      Desvio Padrão: É a medida de variação mais comumente usada. Um desvio padrão é um número que mede a distância entre os valores dos dados e sua média. O desvio padrão fornece uma medida numérica da quantidade total de variação em um conjunto de dados,
      
      Erro padrão: O erro padrão da média é um tipo especial de desvio padrão, que mede a variação de uma estatística de uma amostra para outra.
      
      Variância: A variância é uma medida de variação que é dada numericamente como o quadrado do desvio padrão.
      
      Assim, cada medida de variação fornece uma visão única sobre a interpretação e comparação de valores de dados ou amostras.

    • A amplitude é uma das medidas de variação. Pode ser definido como a diferença entre os valores mais altos e mais baixos de um conjunto de dados. Por exemplo, no estudo de sete latas de refrigerante de 16 onças, o volume cheio de refrigerante foi medido, produzindo assim a seguinte quantidade (em onças) de refrigerante:
      
      15.9; 16.1; 15.2; 14.8; 15.8; 15.9; 16,0; 15,5
      
      As medições da quantidade de refrigerante em 16 onças podem variar, pois diferentes indivíduos registram essas medições ou desde que a quantidade exata - 16 onças de líquido não foi derramada nos recipientes. Os fabricantes realizam testes regularmente para determinar se a quantidade de refrigerante na lata está dentro do intervalo desejado. Para o conjunto de dados fornecido, o intervalo é calculado como a diferença entre o maior e o menor valor: 16,1 − 14,8 = 1,3.
      
      O intervalo depende muito dos valores extremos, ou seja, os valores máximo e mínimo. Portanto, é altamente suscetível a outliers e carece de robustez na medição. No entanto, é relativamente fácil de calcular; portanto, é amplamente utilizado no controle estatístico de processos na fabricação, conforme mostrado no exemplo acima.

    • A medida de variação mais comumente usada é o desvio padrão. É um valor numérico que mede a distância entre os valores dos dados e sua média. O valor do desvio padrão é pequeno quando os dados estão concentrados próximos à média, apresentando pequena variação ou espalhamento. O valor do desvio padrão nunca é negativo, é positivo ou zero. O desvio padrão é maior quando os valores dos dados estão mais afastados da média, o que significa que os valores dos dados estão exibindo mais variação.
      
      Considere o tempo de espera dos clientes no caixa de dois supermercados, X e Y. O tempo médio de espera em ambos os supermercados é de cinco minutos. No supermercado X, o desvio padrão do tempo de espera é de dois minutos; no supermercado Y, o desvio padrão do tempo de espera é de quatro minutos. Como o supermercado Y tem um desvio padrão maior, há maior variação no tempo de espera no supermercado Y. No geral, os tempos de espera no supermercado Y são mais dispersos ou apresentam mais desvios da média. Em contraste, os tempos de espera no supermercado X são mais concentrados perto da média.
      
      A letra minúscula s significa o desvio padrão da amostra, enquanto a letra grega σ (sigma, minúscula) representa o desvio padrão da população.
      

    • Os desvios mostram como os dados estão espalhados em relação à média. Um desvio positivo ocorre quando o valor dos dados excede a média, enquanto um desvio negativo ocorre quando o valor dos dados é menor que a média. Se os desvios forem adicionados, a soma é sempre zero. Portanto, não se pode simplesmente adicionar os desvios para obter a dispersão dos dados. Ao elevar ao quadrado os desvios, os números tornam-se positivos; assim, sua soma também será positiva.
      
      O desvio padrão mede o spread nas mesmas unidades que os dados. A variância é definida como o quadrado do desvio padrão. Assim, suas unidades diferem daquelas dos dados originais. A variância da amostra é representada pela Equação1, enquanto a variância da população é representada pela Equação2.
      
      Para variância, o cálculo usa uma divisão por n – 1 em vez de n porque os dados são uma amostra. Essa mudança se deve ao fato de a variância da amostra ser uma estimativa da variância da população. Com base na matemática teórica por trás desses cálculos, a divisão por (n – 1) fornece uma estimativa melhor da variação da população.

    • A regra geral do intervalo nas estatísticas nos ajuda a calcular os valores mínimo e máximo de um conjunto de dados com desvio padrão conhecido. Essa regra é baseada no conceito de que 95% de todos os valores em um conjunto de dados estão dentro de dois desvios padrão da média.
      
      Por exemplo, a regra prática do intervalo pode ser usada para encontrar o aluno mais alto e o mais baixo de uma turma, considerando a altura média e o desvio padrão do aluno. Se a altura média do aluno for 1,6 m e o desvio padrão, s for 0,05 m, a altura do aluno mais baixo e mais alto dessa classe pode ser calculada usando as seguintes fórmulas:
      
      Altura do aluno mais alto (valor máximo) = média + 2*s
      
      Altura do aluno mais baixo (valor mínimo) = média - 2*s
      
      O aluno mais alto tem 1,7 m de altura, enquanto o aluno mais baixo tem 1,5 m de altura. Assim, pode-se concluir que a altura de 95% dos alunos da turma está na faixa de 1,5 m a 1,7 m.
      
      Além disso, a partir de um intervalo calculado a partir de um conjunto de dados conhecido, podemos calcular o valor do desvio padrão. Considere um exemplo de notas de teste de alunos 80, 70, 50, 60, 90, 60 e 70. O conjunto de dados mostra que as notas dos alunos estão dentro do intervalo de 50-90. O valor mínimo é 50 e o valor máximo é 90. O intervalo das pontuações do aluno é 40. Podemos dividir 40 por 4 para calcular o desvio padrão, s. Para o conjunto de dados acima, o desvio padrão é 10.

    • Em estatística, várias ferramentas são usadas para interpretar os dados. As medidas de tendência central representam as características dos dados, como média, mediana e moda. Além disso, medidas de variância como desvio padrão e intervalo são usadas para encontrar a dispersão dos dados a partir da média. A posição relativa mede a distância entre os locais dos dados. As medidas comumente usadas de posições relativas são percentil, pontuação z e quartis.
      
      Os percentis são um tipo de fractil que particiona os dados em grupos com aproximadamente o mesmo número de valores. O percentil divide os dados em 100 grupos, com cerca de 1% dos valores em cada grupo.
      
      As pontuações z são medidas de posição na medida em que descrevem a localização de um valor em termos de desvios padrão em relação à média. Uma pontuação z de 2 indica que um valor de dados está dois desvios padrão acima da média e uma pontuação z negativa de 3 indica que um valor está três desvios padrão abaixo da média.
      
      Os quartis são números que dividem os dados em trimestres. Para encontrar os quartis, primeiro encontre a mediana ou o segundo quartil. O primeiro quartil, Q1, é o valor médio da metade inferior dos dados, e o terceiro quartil, Q3, é o valor médio, ou mediana, da metade superior dos dados.

    • Um percentil indica a posição relativa de um valor de dados quando os dados são classificados em ordem numérica do menor para o maior. Ele representa as porcentagens de valores de dados que são menores ou iguais ao p-ésimo percentil. Por exemplo, 15% dos valores de dados são menores ou iguais ao 15º percentil.
      
      Percentis baixos sempre correspondem a valores de dados mais baixos.
      Percentis altos sempre correspondem a valores de dados mais altos.
      Os percentis dividem os dados ordenados em centésimos. Pontuar no percentil 90 de um exame não significa, necessariamente, que você obteve 90% em um teste. Isso significa que 90% das pontuações dos testes são iguais ou inferiores à sua pontuação e 10% das pontuações dos testes são iguais ou superiores à sua pontuação.
      
      Se i for um número inteiro, então o percentil k é o valor dos dados na posição i no conjunto de dados ordenados. Se i não for um número inteiro, arredonde i para cima e arredonde i para baixo para os inteiros mais próximos. Faça a média dos dois valores de dados nessas duas posições no conjunto de dados ordenado.
      
      Um percentil pode ou não corresponder a um julgamento de valor sobre se é "bom" ou "ruim". A interpretação se um determinado percentil é "bom" ou "ruim" depende do contexto da situação à qual os dados se aplicam. Em algumas situações, um percentil baixo seria considerado "bom"; em outros contextos, um percentil alto pode ser considerado "bom". Em muitas situações, não há julgamento de valor aplicável.
      

    • A pontuação z (ou valor padronizado) é medida em unidades de desvio padrão. Ele informa quantos desvios padrão o valor x está acima (à direita) ou abaixo (à esquerda) da média, μ. Valores de x maiores que a média têm pontuações z positivas e valores de x menores que a média têm pontuações z negativas. Se x for igual à média, então x tem uma pontuação z zero. É importante observar que a média dos escores z é zero e o desvio padrão é um.
      
      As pontuações z ajudam a encontrar os valores discrepantes ou incomuns de qualquer distribuição de dados. De acordo com a regra prática de intervalo, valores atípicos ou incomuns têm pontuações z menores que -2 ou maiores que +2.

    • O escore z é uma das três medidas de posição relativa. Ele descreve a localização de um valor em um conjunto de dados em relação à média. Os escores z são obtidos após a padronização dos valores em um conjunto de dados. A pontuação z para a média é 0.
      
       Essa pontuação indica o quão longe um valor está da média em termos de desvio padrão. Por exemplo, se um valor de dados tiver uma pontuação z de +1, o pesquisador pode inferir que o valor de dados específico está um desvio padrão acima da média. Se outro valor de dados exibir uma pontuação z de -2, pode-se concluir que o valor dos dados está dois desvios padrão abaixo da média.
      
      A maioria dos valores em qualquer distribuição tem escores z variando de -2 a +2. Os valores com escores z além desse intervalo são considerados incomuns ou discrepantes. Esses valores estão longe de outros pontos de dados em uma distribuição. Outliers podem ocorrer devido a erros experimentais e variações na medição.
      
       Por exemplo, considere uma distribuição de alturas de alunos em uma classe. Após a padronização, descobriu-se que um determinado aluno teve uma pontuação z de +3,3. Isso significa que o aluno é incomumente alto em comparação com os outros alunos da classe.

    • O teste de qualidade do ajuste pode ser usado para decidir se uma população se ajusta a uma determinada distribuição, mas não será suficiente para decidir se duas populações seguem a mesma distribuição desconhecida. Um teste diferente, chamado teste de homogeneidade, pode ser usado para concluir se duas populações têm a mesma distribuição. Para calcular a estatística de teste para um teste de homogeneidade, siga o mesmo procedimento do teste de independência. As hipóteses para o teste de homogeneidade podem ser enunciadas da seguinte forma:
      
      H0: As distribuições das duas populações são iguais.
      
      H1: As distribuições das duas populações não são iguais.
      
      Este teste usa uma estatística de teste qui-quadrado e é calculado da mesma forma que o teste de independência. Os graus de liberdade para este teste são dados como df = número de colunas - 1
      
      O uso mais comum para este teste é comparar duas populações. Por exemplo, homens x mulheres, antes x depois e leste x oeste. A variável é categórica, com mais de dois valores de resposta possíveis.
      
      Os valores de frequência esperados para este teste devem ser pelo menos 5, semelhantes aos testes baseados em qui-quadrado. No entanto, se algum valor for inferior a cinco, pode-se usar um Teste Exato de Fischer. É útil para todos os testes baseados em qui-quadrado e fornece um valor P exato. No entanto, como os cálculos envolvidos neste teste são complexos, são utilizados softwares