Programação

  • Conteúdo programático

  • Introdução a estatística

    • A ciência da estatística envolve coletar, analisar, interpretar e apresentar dados. O método de coletar, organizar e resumir dados é chamado de estatística descritiva. O método sistemático de extrair inferências dos dados da amostra e prever características desconhecidas de uma população é chamado de estatística inferencial.
      
      Em estatística, a coleção de indivíduos ou objetos em estudo é chamada de população. A ideia da amostragem é selecionar uma parte da população maior e estudar essa parte (amostra) para obter informações sobre a população. Os dados são o resultado da amostragem de uma população.
      
      A amostragem é uma técnica eficiente porque leva muito tempo e dinheiro para examinar uma população inteira. Por exemplo, se a média geral de notas de todos os alunos de uma escola precisa ser calculada, faria sentido selecionar alguns alunos e calcular sua média de notas.
      
      A partir dos dados de amostra, uma estatística pode ser calculada. Uma estatística é um número que representa a propriedade da amostra e fornece uma estimativa do parâmetro da população. Um parâmetro é uma característica numérica de toda a população que uma estatística pode estimar. No exemplo acima, os alunos de uma determinada turma podem ser considerados uma amostra de toda a população escolar. A média de notas dos alunos em uma única turma é um exemplo de estatística. Como os alunos de toda a escola foram considerados a população, a média de notas obtidas por aluno em uma turma é um exemplo de parâmetro.

  • Tipos de dados

    • Dados são itens individuais de informação obtidos de uma população ou amostra. Os dados podem ser classificados como qualitativos (categóricos), quantitativos contínuos ou quantitativos discretos. Como não é prático medir toda a população em um estudo, os pesquisadores usam amostras para representar a população. Uma amostra aleatória é um grupo representativo da população escolhido por meio de um método que dá a cada indivíduo da população uma chance igual de ser incluído na amostra. Os métodos de amostragem aleatória incluem amostragem aleatória simples, amostragem estratificada, amostragem por conglomerados e amostragem sistemática. A amostragem por conveniência é um método não aleatório de escolha de uma amostra que geralmente produz dados tendenciosos.
      
      Uma vez que os dados são coletados, eles podem ser descritos e apresentados em muitos formatos diferentes. Por exemplo, suponha que uma pessoa esteja interessada em comprar uma casa em uma determinada área. Não tendo muitas informações sobre os preços das casas, o comprador pode pedir ao corretor de imóveis para fornecer uma amostra de um conjunto de dados de preços. Ler todos os preços na amostra pode ser um pouco complicado. Uma maneira melhor pode ser olhar para o preço médio e a variação nos preços. A mediana e a variação são apenas duas maneiras que podem ser usadas para descrever os dados. O agente também pode fornecer um gráfico dos dados, que pode ser uma maneira mais conveniente de entender os preços das casas.
      
      A área de estatísticas que detalha as formas numéricas e gráficas de descrever e exibir os dados de amostra é chamada de "Estatística Descritiva". Um gráfico estatístico é uma ferramenta que ajuda a aprender sobre a forma ou distribuição de uma amostra ou população. Um gráfico pode ser uma forma mais eficaz de apresentar dados do que uma pilha de números porque é fácil observar agrupamentos de dados e identificar posições onde há apenas alguns valores de dados. Jornais e a Internet usam gráficos para mostrar tendências e permitir que os leitores comparem fatos e números rapidamente. Alguns tipos de gráficos usados ​​para resumir e organizar dados são o gráfico de pontos, o gráfico de barras, o histograma, o diagrama de ramo e folha, o polígono de frequência (um tipo de gráfico de linha quebrada), o gráfico de pizza e o gráfico de caixa.

    • Uma variável, geralmente indicada por letras maiúsculas como X e Y, é uma característica ou medida que pode ser determinada para cada membro de uma população. Os dados são os valores reais das variáveis. Podem ser números ou podem ser palavras. Datum é um valor único.
      
      Os dados são classificados com base em se eles são mensuráveis ​​ou não. Dados categóricos não podem ser medidos; em vez disso, pode ser dividido em categorias. Por exemplo, se Y denota a afiliação partidária de uma pessoa, alguns exemplos de Y incluem Republicano, Democrata e Independente. Y são dados categóricos. Categorizar uma população com base na cor do cabelo, idade, sexo, grupo sanguíneo são exemplos de dados categóricos.
      
      Em alguns casos, os dados categóricos podem ser ordenados de uma maneira específica e se enquadram na categoria ordinal. Considere a lista dos cinco principais parques nacionais dos Estados Unidos. Os cinco principais parques nacionais podem ser classificados de um a cinco, mas as diferenças entre os dados não são mensuráveis. Outro exemplo é uma pesquisa de cruzeiro em que as respostas às perguntas sobre o cruzeiro são "excelente", "bom", "satisfatório" e "insatisfatório". Essas respostas são ordenadas da resposta mais desejada para a menos desejada. No entanto, as diferenças entre os dois dados não podem ser medidas.

    • A maneira como um conjunto de dados é medido é chamada de nível de medição. Os procedimentos estatísticos corretos dependem de um pesquisador estar familiarizado com os níveis de medição. Para análise, os dados são classificados em quatro níveis de medição — nominal, ordinal, intervalo e razão.

      Os dados medidos usando uma escala ordinal são semelhantes aos dados da escala nominal, mas há uma grande diferença. Os dados da escala ordinal podem ser ordenados. Um exemplo de dados de escala ordinal é uma lista dos cinco principais parques nacionais dos Estados Unidos. Esses parques podem ser classificados de um a cinco com base no tamanho e na biodiversidade, mas as diferenças entre essas classificações não podem ser medidas. Outro exemplo de dados de escala ordinal é uma pesquisa de cruzeiro em que as respostas às perguntas sobre o cruzeiro são “excelente”, “bom”, “satisfatório” e “insatisfatório”. Essas respostas podem ser organizadas desde a resposta mais desejada até a menos desejada. No entanto, não é possível medir as diferenças entre quaisquer dois dados. Os dados de escala ordinal não podem ser usados em cálculos como os dados de escala nominal.

    • A maneira como um conjunto de dados é medido é chamada de nível de medição. Os procedimentos estatísticos corretos dependem de um pesquisador estar familiarizado com os níveis de medição. Nem toda operação estatística pode ser usada com todo conjunto de dados. Para análise, os dados são classificados em quatro níveis de medição — nominal, ordinal, intervalo e razão.


      Os dados que não podem ser medidos, mas podem ser agrupados em categorias, enquadram-se no nível nominal de medição. Os dados medidos usando uma escala nominal são qualitativos (categóricos). Categorias, cores, nomes, rótulos, comidas favoritas e respostas “sim” ou “não” são exemplos de dados de nível nominal. Por exemplo, pode-se agrupar restaurantes com base no fato de servirem dietas vegetarianas, não vegetarianas ou veganas. Mas não dá para medir o quanto a alimentação de cada restaurante é mais saudável ou o quanto ela é mais vegetariana do que outros restaurantes.

    • Como os dados numéricos são classificados? Dados que são contáveis ​​ou mensuráveis ​​em unidades específicas são chamados dados numéricos ou quantitativos. Dados quantitativos são sempre números. Os dados quantitativos são o resultado da contagem ou medição dos atributos de uma população. Quantidade de dinheiro, pulsação, peso, número de pessoas que vivem em uma cidade e número de estudantes que optam por estatísticas são exemplos de dados quantitativos.
      
      Os dados quantitativos podem ser discretos ou contínuos. Todos os dados quantitativos que assumem apenas valores numéricos específicos são chamados de dados discretos. Por exemplo, o número de telefonemas recebidos em cada dia da semana pode ser zero, um, dois ou três, um número inteiro.
      
      Os dados que incluem frações, decimais ou números irracionais são chamados de dados quantitativos contínuos. Dados contínuos geralmente são resultados de medições como comprimento, peso ou tempo. Por exemplo, as chamadas telefônicas feitas em um dia podem ter qualquer valor numérico, como 2,4 minutos, 7,5 minutos ou 11,0 minutos. O número de livros que os alunos carregam nas mochilas é um exemplo de dado discreto, enquanto o peso das mochilas carregadas pelos alunos é um exemplo de dado contínuo.

    • A coleta de dados é um método sistemático de obter, observar, medir e analisar informações precisas. Um estudo experimental é um método padrão de coleta de dados que envolve a manipulação das amostras pela aplicação de alguma forma de tratamento antes da coleta de dados. Refere-se à manipulação de uma variável para determinar suas mudanças em outra variável. A amostra submetida ao tratamento é conhecida como “unidades experimentais”.

      Um exemplo do método experimental é um ensaio clínico público de um medicamento. Por exemplo, para testar a eficácia de um novo medicamento eficaz no tratamento da pressão arterial, é preciso realizar uma coleta de dados experimental. A nova droga é administrada a um pequeno número de voluntários selecionados aleatoriamente que sofrem de pressão alta crônica. Um grupo de indivíduos é tratado com doses específicas de drogas ou métodos de tratamento, e um grupo de controle pode receber um placebo. Os sujeitos são monitorados por algumas semanas. Os sintomas do tratamento da doença e os efeitos posteriores da droga são observados e os dados são coletados. Como esse processo envolve a modificação dos sujeitos, ele é classificado sob o método experimental.


      Outro exemplo é estudar o efeito de um determinado fertilizante no crescimento da planta. Para isso, algumas plantas são retiradas e submetidas a tratamento com o novo adubo. O crescimento das plantas é monitorado diariamente por algumas semanas, e os dados são coletados.

  • Distribuição de frequência

    • O que é uma distribuição de frequência? Uma frequência é o número de vezes que um valor dos dados ocorre. A soma de todos os valores de frequência representa o número total de alunos incluídos na amostra. É comumente usado para agrupar dados de tipos quantitativos. As distribuições de frequência podem ser exibidas em uma tabela, histograma, gráfico de linha, gráfico de pontos ou gráfico de pizza, apenas para citar alguns. Um histograma é uma representação gráfica de frequências tabuladas, mostradas como retângulos adjacentes, erguidas sobre intervalos discretos (bins), com uma área igual à frequência das observações no intervalo.
      
      Em uma tabela de distribuição de frequência, os valores dos dados são agrupados em classes de larguras iguais. Os limites de classe são valores individuais escolhidos para separar classes (muitas vezes sendo os pontos médios entre os limites de classe superior e inferior de classes adjacentes), enquanto as menores e maiores observações em cada classe são chamadas de limites de classe. As distribuições de frequência podem normalmente ter entre 5 e 20 classes, todas com larguras iguais, mutuamente exclusivas, contínuas e exaustivas.

    • Uma tabela de distribuição de frequência pode ser construída usando as etapas abaixo. Primeiro, faça uma tabela com duas colunas – uma com o título dos dados que precisam ser organizados e a outra com a frequência. Em seguida, observe os itens fornecidos no conjunto de dados e decida se uma tabela de distribuição de frequência não agrupada ou uma tabela de distribuição de frequência agrupada seria mais adequada. Se houver grandes conjuntos de valores diferentes, é melhor construir uma tabela de distribuição de frequência agrupada. Agora, escreva os valores do conjunto de dados na primeira coluna. Conte o número de vezes que cada item se repete nos dados coletados. Em outras palavras, encontre a frequência de cada item contando, seguido de escrevendo a frequência na segunda coluna correspondente a cada item. Finalmente, escreva a frequência total na última linha da tabela.

    • Uma distribuição de frequência relativa é a proporção ou fração de vezes que um valor ocorre em um conjunto de dados. Para encontrar as frequências relativas, pode-se dividir cada frequência pelo número total de pontos de dados na amostra. É muito semelhante a uma distribuição de frequência regular, exceto que, em vez de relatar quantos valores de dados se enquadram em uma classe, uma distribuição de frequência relativa relata a fração de valores de dados que se enquadram em uma classe. Essas frações ou proporções são chamadas de frequências relativas e podem ser dadas como frações, decimais ou porcentagens.
      
      Reconhecidamente, não há muita diferença entre construir uma distribuição de frequência relativa e construir uma distribuição de frequência regular. O processo inicial é o mesmo e as mesmas diretrizes devem ser usadas ao criar classes para os dados. A única diferença fundamental entre um gráfico de distribuição de frequência e um gráfico de distribuição de frequência relativa é que o eixo vertical (eixo y) usa frequência proporcional ou relativa em vez de frequência simples.
      
      As distribuições de frequência relativa geralmente são exibidas em polígonos de frequência e em histogramas.

  • Analisando tendências centrais

    • Estatísticas descritivas descrevem ou resumem características relevantes de uma amostra e auxiliam na análise de dados de interesse. Ao analisar grandes quantidades de dados e desenvolver uma inferência, é preciso identificar um valor representativo de todo o conjunto de dados. Características como tendência central, valores extremos, intervalo de medições ou o valor mais repetido podem ajudar a entender melhor os dados.
      
      A tendência central é a característica de dados mais convencionalmente usada. É uma medida estatística que identifica um único valor exclusivamente representativo dos dados.
      
      A média, a mediana, a moda e os médios são as quatro medidas essenciais de tendência central e apresentam vantagens e desvantagens umas sobre as outras.
      
      Média: A média é definida como o valor médio de um conjunto de dados. No entanto, uma desvantagem crítica da média é que ela é sensível a valores extremos, chamados outliers, especialmente se o tamanho da amostra for pequeno.
      
      Mediana: A mediana é o valor central ou intermediário em um conjunto de dados quando todos os elementos de dados são organizados em ordem crescente ou decrescente. A mediana geralmente é uma medida melhor do centro quando há valores extremos ou discrepantes porque não é afetada pelos valores numéricos precisos dos outliers.
      
      Moda: A moda é definida como o valor mais frequente de um conjunto de dados. Os dados bimodais têm duas modas e os dados multimodais têm mais de duas modas. A moda é a única medida de centro para o nível nominal de medição.

    • A média aritmética é a medida mais comumente usada da tendência central de um conjunto de dados. É definido como a soma de todos os elementos que constituem o conjunto de dados, dividido pelo número total de elementos. Às vezes, é vagamente referido como a “média”.

      Quando todos os valores em um conjunto de dados não são únicos, a soma no numerador pode ser calculada multiplicando cada valor distinto por sua frequência.

      Às vezes, a média aritmética de uma amostra pode ser afetada por alguns pontos de dados que são significativamente diferentes dos demais, outliers. Por exemplo, se em uma amostra de dez alunos, nove alunos têm idades variando de 20 a 21 anos, enquanto um aluno tem dez anos, então a média aritmética seria menor que 20, o que não é uma representação verdadeira da tendência central dos alunos. ' idades. Portanto, é necessária uma consideração cuidadosa antes de usar a média aritmética para medir a tendência central de um conjunto de dados.

      A média aritmética de um conjunto de dados qualitativos não pode ser calculada. Por exemplo, em uma classe de alunos com diferentes nacionalidades, não há média aritmética para a nacionalidade.

    •  Em alguns conjuntos de dados, os dados são inerentemente multiplicativos e a média aritmética não é útil. Por exemplo, a população humana se multiplica com o tempo, assim como o valor do crédito do investimento financeiro, à medida que os juros se acumulam em sucessivos intervalos de tempo.

      Nos casos de dados multiplicativos, a média geométrica é utilizada para análise estatística. Primeiro, o produto de todos os elementos é tomado. Então, se houver n elementos no conjunto de dados, a n-ésima raiz dos produtos é definida como a média geométrica do conjunto de dados. Também pode ser expresso através do uso da função logarítmica natural.

      Por exemplo, suponha que a moeda seja composta a taxas de juros anuais de 10%, 5% e 2%. Nesse caso, o fator de crescimento médio pode ser calculado calculando a média geométrica de 1,10, 1,05 e 1,02. Seu valor chega a 1,056, o que significa que a taxa média de crescimento é de 5,6% ao ano.

      Pode-se mostrar que a média geométrica de um conjunto de dados de amostra é sempre quantitativamente menor ou no máximo igual à média aritmética da amostra.

    • Ao tomar a média aritmética, geométrica ou harmônica de um conjunto de dados de amostra, a mesma importância é atribuída a todos os pontos de dados. No entanto, nem sempre todos os valores são igualmente importantes em alguns conjuntos de dados. Um viés intrínseco pode tornar mais importante atribuir mais peso a valores específicos em detrimento de outros.

      Por exemplo, considere o número de gols marcados nas partidas de um torneio. Ao calcular o número médio de gols marcados no torneio, pode ser mais importante considerar os jogos disputados na fase eliminatória. Os gols da fase eliminatória podem ter mais peso do que os outros gols. Uma vez atribuída uma estimativa numérica a esta ideia, calcula-se o número médio de golos no torneio. Tais médias são chamadas de médias ponderadas. Eles nos ajudam a atribuir um valor intrínseco a diferentes elementos de um conjunto de dados.

      Às vezes, a probabilidade de ocorrência de cada elemento pode desempenhar o papel de pesos. Por exemplo, se dados viciados forem lançados aleatoriamente algumas vezes, alguns lados numerados podem aparecer com mais frequência do que outros. A média ponderada dos números responde por esse viés.

    • Às vezes, os dados coletados de um experimento em uma grande amostra ou população são organizados em tabelas concisas. Nesses casos, a frequência do conjunto de dados quantitativos é plotada na forma de uma tabela. Ou então, os valores dos dados são agrupados nos intervalos da quantidade, que formam classes, e suas respectivas frequências são conhecidas. Ou seja, os valores dos dados são distribuídos em diferentes categorias ou classes. Isso é conhecido como distribuição de frequência.

      Quando tal conjunto de dados é encontrado, a média aritmética pode ser calculada considerando cada classe como um elemento. Cada categoria representa uma quantidade ou uma quantidade média, e sua frequência dá seu peso para calcular a média.

      O número total de pontos na amostra ou população é, portanto, a soma das frequências das classes individuais. Portanto, a média de uma distribuição de frequência compreende a soma das frequências da distribuição em seu denominador.

      A média calculada a partir de uma tabela de frequência pode ser considerada uma média ponderada, onde o peso refere-se à frequência de cada aula.

    • Além da média, a mediana é uma medida de tendência central amplamente utilizada. Normalmente, a mediana é definida como o valor central ou médio de um conjunto de dados, medido pela disposição dos elementos de dados em ordem crescente ou decrescente. Como esse valor médio não é afetado pelos valores numéricos precisos dos outliers ou flutuações, ele é insensível a eles. Portanto, nos casos em que um conjunto de dados pode ter outliers ou os valores extremos não são conhecidos, a mediana é uma medida melhor da tendência central do que a média.

      A mediana pode ser o valor exato do meio de um conjunto de dados, se o número de elementos que ele contém for ímpar. Se for par, a mediana é igual à média dos dois valores do meio, mas não é igual a nenhum dos dois valores.

      Calcular a mediana requer classificar o conjunto de dados e calcular o número de elementos que ele contém. Portanto, não existe uma fórmula algébrica simples. No entanto, os softwares padrão podem calcular facilmente a mediana de um conjunto de dados.

    • As medidas de tendência central calculadas a partir de um conjunto de dados podem não revelar muito sobre sua distribuição intrínseca. Se for feito um gráfico dos valores do conjunto de dados, a média e a mediana podem não apenas diferir, mas também o gráfico pode ter mais valores em um lado das tendências centrais. Diz-se que tal conjunto de dados é assimétrico para esse lado.

      Quanto mais longa a cauda do gráfico de um lado, mais distorcida ela é. A assimetria dos valores de um conjunto de dados sugere que as medidas de tendência central são um tanto grosseiras, perdendo os detalhes mais sutis. Em uma distribuição simétrica, a média, a mediana e a moda são iguais, enquanto em uma distribuição assimétrica ou conjunto de dados assimétricos, a média e a mediana ficam à esquerda ou à direita da moda.

      Por exemplo, a distribuição média de renda de um país não lança muita luz sobre sua desigualdade de renda. Enquanto alguns indivíduos mais ricos podem ganhar muito, a maioria da população pode ganhar miseravelmente. Portanto, a distribuição de renda representa um conjunto de dados assimétricos.

  • Variação e dispersão

    • Além das medidas de tendência central, distribuição, valores discrepantes e as características variáveis ​​dos dados com o tempo, uma característica importante de qualquer conjunto de dados é sua variação ou dispersão. Em alguns conjuntos de dados, os valores dos dados estão concentrados próximos à média; em outros, os valores dos dados estão mais afastados da média.
      
      A faixa, o desvio padrão, o erro padrão e a variância são as diferentes medidas de variação.
      
      Intervalo: O intervalo é a diferença entre seus valores máximo e mínimo.
      
      Desvio Padrão: É a medida de variação mais comumente usada. Um desvio padrão é um número que mede a distância entre os valores dos dados e sua média. O desvio padrão fornece uma medida numérica da quantidade total de variação em um conjunto de dados,
      
      Erro padrão: O erro padrão da média é um tipo especial de desvio padrão, que mede a variação de uma estatística de uma amostra para outra.
      
      Variância: A variância é uma medida de variação que é dada numericamente como o quadrado do desvio padrão.
      
      Assim, cada medida de variação fornece uma visão única sobre a interpretação e comparação de valores de dados ou amostras.

    • A amplitude é uma das medidas de variação. Pode ser definido como a diferença entre os valores mais altos e mais baixos de um conjunto de dados. Por exemplo, no estudo de sete latas de refrigerante de 16 onças, o volume cheio de refrigerante foi medido, produzindo assim a seguinte quantidade (em onças) de refrigerante:
      
      15.9; 16.1; 15.2; 14.8; 15.8; 15.9; 16,0; 15,5
      
      As medições da quantidade de refrigerante em 16 onças podem variar, pois diferentes indivíduos registram essas medições ou desde que a quantidade exata - 16 onças de líquido não foi derramada nos recipientes. Os fabricantes realizam testes regularmente para determinar se a quantidade de refrigerante na lata está dentro do intervalo desejado. Para o conjunto de dados fornecido, o intervalo é calculado como a diferença entre o maior e o menor valor: 16,1 − 14,8 = 1,3.
      
      O intervalo depende muito dos valores extremos, ou seja, os valores máximo e mínimo. Portanto, é altamente suscetível a outliers e carece de robustez na medição. No entanto, é relativamente fácil de calcular; portanto, é amplamente utilizado no controle estatístico de processos na fabricação, conforme mostrado no exemplo acima.

    • A medida de variação mais comumente usada é o desvio padrão. É um valor numérico que mede a distância entre os valores dos dados e sua média. O valor do desvio padrão é pequeno quando os dados estão concentrados próximos à média, apresentando pequena variação ou espalhamento. O valor do desvio padrão nunca é negativo, é positivo ou zero. O desvio padrão é maior quando os valores dos dados estão mais afastados da média, o que significa que os valores dos dados estão exibindo mais variação.
      
      Considere o tempo de espera dos clientes no caixa de dois supermercados, X e Y. O tempo médio de espera em ambos os supermercados é de cinco minutos. No supermercado X, o desvio padrão do tempo de espera é de dois minutos; no supermercado Y, o desvio padrão do tempo de espera é de quatro minutos. Como o supermercado Y tem um desvio padrão maior, há maior variação no tempo de espera no supermercado Y. No geral, os tempos de espera no supermercado Y são mais dispersos ou apresentam mais desvios da média. Em contraste, os tempos de espera no supermercado X são mais concentrados perto da média.
      
      A letra minúscula s significa o desvio padrão da amostra, enquanto a letra grega σ (sigma, minúscula) representa o desvio padrão da população.
      

    • Os desvios mostram como os dados estão espalhados em relação à média. Um desvio positivo ocorre quando o valor dos dados excede a média, enquanto um desvio negativo ocorre quando o valor dos dados é menor que a média. Se os desvios forem adicionados, a soma é sempre zero. Portanto, não se pode simplesmente adicionar os desvios para obter a dispersão dos dados. Ao elevar ao quadrado os desvios, os números tornam-se positivos; assim, sua soma também será positiva.
      
      O desvio padrão mede o spread nas mesmas unidades que os dados. A variância é definida como o quadrado do desvio padrão. Assim, suas unidades diferem daquelas dos dados originais. A variância da amostra é representada pela Equação1, enquanto a variância da população é representada pela Equação2.
      
      Para variância, o cálculo usa uma divisão por n – 1 em vez de n porque os dados são uma amostra. Essa mudança se deve ao fato de a variância da amostra ser uma estimativa da variância da população. Com base na matemática teórica por trás desses cálculos, a divisão por (n – 1) fornece uma estimativa melhor da variação da população.

    • A regra geral do intervalo nas estatísticas nos ajuda a calcular os valores mínimo e máximo de um conjunto de dados com desvio padrão conhecido. Essa regra é baseada no conceito de que 95% de todos os valores em um conjunto de dados estão dentro de dois desvios padrão da média.
      
      Por exemplo, a regra prática do intervalo pode ser usada para encontrar o aluno mais alto e o mais baixo de uma turma, considerando a altura média e o desvio padrão do aluno. Se a altura média do aluno for 1,6 m e o desvio padrão, s for 0,05 m, a altura do aluno mais baixo e mais alto dessa classe pode ser calculada usando as seguintes fórmulas:
      
      Altura do aluno mais alto (valor máximo) = média + 2*s
      
      Altura do aluno mais baixo (valor mínimo) = média - 2*s
      
      O aluno mais alto tem 1,7 m de altura, enquanto o aluno mais baixo tem 1,5 m de altura. Assim, pode-se concluir que a altura de 95% dos alunos da turma está na faixa de 1,5 m a 1,7 m.
      
      Além disso, a partir de um intervalo calculado a partir de um conjunto de dados conhecido, podemos calcular o valor do desvio padrão. Considere um exemplo de notas de teste de alunos 80, 70, 50, 60, 90, 60 e 70. O conjunto de dados mostra que as notas dos alunos estão dentro do intervalo de 50-90. O valor mínimo é 50 e o valor máximo é 90. O intervalo das pontuações do aluno é 40. Podemos dividir 40 por 4 para calcular o desvio padrão, s. Para o conjunto de dados acima, o desvio padrão é 10.

    • Em estatística, várias ferramentas são usadas para interpretar os dados. As medidas de tendência central representam as características dos dados, como média, mediana e moda. Além disso, medidas de variância como desvio padrão e intervalo são usadas para encontrar a dispersão dos dados a partir da média. A posição relativa mede a distância entre os locais dos dados. As medidas comumente usadas de posições relativas são percentil, pontuação z e quartis.
      
      Os percentis são um tipo de fractil que particiona os dados em grupos com aproximadamente o mesmo número de valores. O percentil divide os dados em 100 grupos, com cerca de 1% dos valores em cada grupo.
      
      As pontuações z são medidas de posição na medida em que descrevem a localização de um valor em termos de desvios padrão em relação à média. Uma pontuação z de 2 indica que um valor de dados está dois desvios padrão acima da média e uma pontuação z negativa de 3 indica que um valor está três desvios padrão abaixo da média.
      
      Os quartis são números que dividem os dados em trimestres. Para encontrar os quartis, primeiro encontre a mediana ou o segundo quartil. O primeiro quartil, Q1, é o valor médio da metade inferior dos dados, e o terceiro quartil, Q3, é o valor médio, ou mediana, da metade superior dos dados.

    • Um percentil indica a posição relativa de um valor de dados quando os dados são classificados em ordem numérica do menor para o maior. Ele representa as porcentagens de valores de dados que são menores ou iguais ao p-ésimo percentil. Por exemplo, 15% dos valores de dados são menores ou iguais ao 15º percentil.
      
      Percentis baixos sempre correspondem a valores de dados mais baixos.
      Percentis altos sempre correspondem a valores de dados mais altos.
      Os percentis dividem os dados ordenados em centésimos. Pontuar no percentil 90 de um exame não significa, necessariamente, que você obteve 90% em um teste. Isso significa que 90% das pontuações dos testes são iguais ou inferiores à sua pontuação e 10% das pontuações dos testes são iguais ou superiores à sua pontuação.
      
      Se i for um número inteiro, então o percentil k é o valor dos dados na posição i no conjunto de dados ordenados. Se i não for um número inteiro, arredonde i para cima e arredonde i para baixo para os inteiros mais próximos. Faça a média dos dois valores de dados nessas duas posições no conjunto de dados ordenado.
      
      Um percentil pode ou não corresponder a um julgamento de valor sobre se é "bom" ou "ruim". A interpretação se um determinado percentil é "bom" ou "ruim" depende do contexto da situação à qual os dados se aplicam. Em algumas situações, um percentil baixo seria considerado "bom"; em outros contextos, um percentil alto pode ser considerado "bom". Em muitas situações, não há julgamento de valor aplicável.
      

    • A pontuação z (ou valor padronizado) é medida em unidades de desvio padrão. Ele informa quantos desvios padrão o valor x está acima (à direita) ou abaixo (à esquerda) da média, μ. Valores de x maiores que a média têm pontuações z positivas e valores de x menores que a média têm pontuações z negativas. Se x for igual à média, então x tem uma pontuação z zero. É importante observar que a média dos escores z é zero e o desvio padrão é um.
      
      As pontuações z ajudam a encontrar os valores discrepantes ou incomuns de qualquer distribuição de dados. De acordo com a regra prática de intervalo, valores atípicos ou incomuns têm pontuações z menores que -2 ou maiores que +2.

    • O escore z é uma das três medidas de posição relativa. Ele descreve a localização de um valor em um conjunto de dados em relação à média. Os escores z são obtidos após a padronização dos valores em um conjunto de dados. A pontuação z para a média é 0.
      
       Essa pontuação indica o quão longe um valor está da média em termos de desvio padrão. Por exemplo, se um valor de dados tiver uma pontuação z de +1, o pesquisador pode inferir que o valor de dados específico está um desvio padrão acima da média. Se outro valor de dados exibir uma pontuação z de -2, pode-se concluir que o valor dos dados está dois desvios padrão abaixo da média.
      
      A maioria dos valores em qualquer distribuição tem escores z variando de -2 a +2. Os valores com escores z além desse intervalo são considerados incomuns ou discrepantes. Esses valores estão longe de outros pontos de dados em uma distribuição. Outliers podem ocorrer devido a erros experimentais e variações na medição.
      
       Por exemplo, considere uma distribuição de alturas de alunos em uma classe. Após a padronização, descobriu-se que um determinado aluno teve uma pontuação z de +3,3. Isso significa que o aluno é incomumente alto em comparação com os outros alunos da classe.

    • O teste de qualidade do ajuste pode ser usado para decidir se uma população se ajusta a uma determinada distribuição, mas não será suficiente para decidir se duas populações seguem a mesma distribuição desconhecida. Um teste diferente, chamado teste de homogeneidade, pode ser usado para concluir se duas populações têm a mesma distribuição. Para calcular a estatística de teste para um teste de homogeneidade, siga o mesmo procedimento do teste de independência. As hipóteses para o teste de homogeneidade podem ser enunciadas da seguinte forma:
      
      H0: As distribuições das duas populações são iguais.
      
      H1: As distribuições das duas populações não são iguais.
      
      Este teste usa uma estatística de teste qui-quadrado e é calculado da mesma forma que o teste de independência. Os graus de liberdade para este teste são dados como df = número de colunas - 1
      
      O uso mais comum para este teste é comparar duas populações. Por exemplo, homens x mulheres, antes x depois e leste x oeste. A variável é categórica, com mais de dois valores de resposta possíveis.
      
      Os valores de frequência esperados para este teste devem ser pelo menos 5, semelhantes aos testes baseados em qui-quadrado. No entanto, se algum valor for inferior a cinco, pode-se usar um Teste Exato de Fischer. É útil para todos os testes baseados em qui-quadrado e fornece um valor P exato. No entanto, como os cálculos envolvidos neste teste são complexos, são utilizados softwares

  • Probabilidade e distribuições

    • Probabilidade é a chance de um evento ocorrer. O termo evento é definido como uma coleção de resultados de um procedimento. Um evento é um evento simples quando um resultado não pode ser dividido em partes mais simples.
      
      Um exemplo de evento simples é o lançamento de uma moeda. O resultado do lançamento de uma moeda é cara ou coroa. Aqui, cabeça e cauda são dois eventos simples. Esses dois eventos simples compõem o espaço amostral. Além disso, a probabilidade de um evento ocorrer cai dentro do intervalo de 0 a 1. A probabilidade de um evento impossível é 0, enquanto a de um evento que sem dúvida ocorreria é 1.
      
      Se duas moedas forem lançadas, haverá quatro resultados prováveis. Eles são cabeça e cabeça, cabeça e rabo, rabo e cabeça e rabo e rabo. Esses quatro resultados não podem ser mais detalhados e são considerados eventos simples. Observe que dois resultados têm uma cara e uma coroa. Apenas um resultado tem duas caras ou duas coroas - com esta informação, a probabilidade pode ser calculada usando a seguinte equação:
      
      No experimento do cara ou coroa, o valor de s para duas caras é um; para duas caudas, é uma; e para cabeça e cauda, ​​são dois. O número de eventos, n, é 4. Usando a equação, a probabilidade de duas caras no cara ou coroa é 1/4; duas coroas são 1/4, enquanto uma cara e uma coroa são 2/4.
      
      Além disso, a probabilidade é uma ferramenta estatística prática. Pode ajudar os estatísticos a prever resultados futuros com base em eventos passados. Algumas de suas aplicações estão na previsão do tempo, no enquadramento de jogos e estratégias esportivas e na compra de seguros.

    • A probabilidade de uma variável aleatória x é a probabilidade de sua ocorrência. Uma distribuição de probabilidade representa as probabilidades de uma variável aleatória usando uma fórmula, gráfico ou tabela. Existem dois tipos de distribuição de probabilidade – distribuição de probabilidade discreta e distribuição de probabilidade contínua.
      
      Uma distribuição de probabilidade discreta é uma distribuição de probabilidade de variáveis ​​aleatórias discretas. Ela pode ser categorizada em distribuição de probabilidade binomial e distribuição de probabilidade de Poisson.
      
      A distribuição binomial é uma distribuição de probabilidade de um procedimento com um número fixo de tentativas, onde cada tentativa tem apenas dois resultados possíveis. Uma distribuição envolvendo o lançamento de uma moeda é um exemplo dessa distribuição, pois o lançamento de uma moeda tem apenas dois resultados possíveis – cara ou coroa.
      
      A distribuição de Poisson é uma distribuição de eventos independentes que ocorrem em um intervalo específico. A quantidade de mensagens recebidas por dia é um exemplo desse tipo de distribuição. Uma distribuição de probabilidade de Poisson de uma variável aleatória discreta dá a probabilidade de um número de eventos ocorrer em um intervalo fixo de tempo ou espaço se esses eventos acontecerem a uma taxa média conhecida e independentemente do tempo desde o último evento. A distribuição de Poisson pode ser usada para aproximar o binomial se a probabilidade de sucesso for "pequena" (menor ou igual a 0,05) e o número de tentativas for "grande" (maior ou igual a 20).
      
      Distribuições de probabilidade contínuas são as distribuições associadas a variáveis ​​aleatórias contínuas. Eles são divididos em duas categorias - distribuição uniforme e distribuição normal,
      
      Uma distribuição uniforme tem formato retangular, indicando que os valores estão distribuídos uniformemente no intervalo de possibilidades. Um exemplo seria uma distribuição de copas, espadas, paus e ouros em um baralho de cartas. Isso ocorre porque há uma probabilidade igual de tirar uma copa, uma espada, um pau ou um ouro do baralho.

    • A probabilidade de uma variável aleatória x é a probabilidade de sua ocorrência. Uma distribuição de probabilidade representa as probabilidades de uma variável aleatória usando uma fórmula, gráfico ou tabela. Existem dois tipos de distribuição de probabilidade – distribuição de probabilidade discreta e distribuição de probabilidade contínua.
      
      Uma distribuição de probabilidade discreta é uma distribuição de probabilidade de variáveis ​​aleatórias discretas. Ela pode ser categorizada em distribuição de probabilidade binomial e distribuição de probabilidade de Poisson.
      
      A distribuição binomial é uma distribuição de probabilidade de um procedimento com um número fixo de tentativas, onde cada tentativa tem apenas dois resultados possíveis. Uma distribuição envolvendo o lançamento de uma moeda é um exemplo dessa distribuição, pois o lançamento de uma moeda tem apenas dois resultados possíveis – cara ou coroa.
      
      A distribuição de Poisson é uma distribuição de eventos independentes que ocorrem em um intervalo específico. A quantidade de mensagens recebidas por dia é um exemplo desse tipo de distribuição. Uma distribuição de probabilidade de Poisson de uma variável aleatória discreta dá a probabilidade de um número de eventos ocorrer em um intervalo fixo de tempo ou espaço se esses eventos acontecerem a uma taxa média conhecida e independentemente do tempo desde o último evento. A distribuição de Poisson pode ser usada para aproximar o binomial se a probabilidade de sucesso for "pequena" (menor ou igual a 0,05) e o número de tentativas for "grande" (maior ou igual a 20).
      
      Distribuições de probabilidade contínuas são as distribuições associadas a variáveis ​​aleatórias contínuas. Eles são divididos em duas categorias - distribuição uniforme e distribuição normal,
      
      Uma distribuição uniforme tem formato retangular, indicando que os valores estão distribuídos uniformemente no intervalo de possibilidades. Um exemplo seria uma distribuição de copas, espadas, paus e ouros em um baralho de cartas. Isso ocorre porque há uma probabilidade igual de tirar uma copa, uma espada, um pau ou um ouro do baralho.

    • Um histograma de probabilidade é uma representação visual de uma distribuição de probabilidade. Semelhante a um histograma típico, o histograma de probabilidade consiste em caixas contíguas (adjacentes). 
      Tem um eixo horizontal e um eixo vertical. O eixo horizontal é rotulado com o que os dados representam. 
      O eixo vertical é rotulado com probabilidade. Cada barra retangular no histograma tem 1 unidade de largura, o que sugere que a área sob cada barra é igual à probabilidade, P(x), onde x é 1, 2, 3 e assim por diante. O conceito de que a área é igual às probabilidades é útil em estatística. O histograma (como o gráfico de haste) pode fornecer a forma dos dados, o centro e a dispersão dos dados.
      
      Além disso, a média, variância e desvio padrão podem ser calculados e visualizados no histograma de probabilidade.

    • O desvio padrão da população raramente é conhecido em muitos exemplos de estatísticas do dia-a-dia. Quando os tamanhos das amostras são grandes, é fácil estimar o desvio padrão da população usando um intervalo de confiança, que fornece resultados próximos o suficiente do valor original. No entanto, os estatísticos tiveram problemas quando o tamanho da amostra era pequeno. Um tamanho de amostra pequeno causou imprecisões no intervalo de confiança.
      
      A distribuição t de Student foi desenvolvida por William S. Goset (1876–1937) da cervejaria Guinness em Dublin, Irlanda, para estimar o desvio padrão da população quando os tamanhos das amostras eram pequenos. O nome dessa distribuição vem do pseudônimo "Student" usado por Gosset.
      
      A distribuição t de Student é usada sempre que s é usado para estimar σ. Se uma amostra aleatória simples de tamanho n for extraída de uma distribuição aproximadamente normal com média μ e desvio padrão populacional desconhecido σ e escores t forem calculados, os escores t seguirão a distribuição t de Student com n – 1 graus de liberdade. A pontuação t é interpretada de forma semelhante à pontuação z. Ele mede o quão longe um valor está de sua média μ. Para cada tamanho de amostra n, existe uma distribuição t de Student diferente.
      
      O gráfico da distribuição t de Student é semelhante à curva normal padrão.
      A média para a distribuição t de Student é zero, e a distribuição é simétrica em torno de zero.
      A distribuição t de Student tem mais probabilidade em suas caudas do que a distribuição normal padrão porque a dispersão da distribuição t é maior do que a da normal padrão. Portanto, a curva de distribuição t de Student é mais espessa nas caudas e mais curta no centro do que o gráfico da distribuição normal padrão.
      A forma exata da distribuição t de Student depende dos graus de liberdade. À medida que os graus de liberdade aumentam, o gráfico da distribuição t de Student torna-se mais parecido com o gráfico da distribuição normal padrão.
      A população subjacente de observações individuais é considerada normalmente distribuída com uma média populacional desconhecida μ e um desvio padrão populacional desconhecido σ.

    • A distribuição z e t de Student estimam a média da população usando a média amostral e o desvio padrão. No entanto, para decidir qual distribuição usar para um cálculo, é preciso determinar o tamanho da amostra, a natureza da distribuição e se o desvio padrão da população é conhecido. Se o desvio padrão da população for conhecido e a população for normalmente distribuída, ou se o tamanho da amostra for maior que 30, a distribuição z é preferida. A distribuição t de Student é preferida quando o desvio padrão da população é desconhecido e a população é normalmente distribuída; ou se o tamanho da amostra exceder 30.
      
      É importante observar que, para uma amostra com tamanho menor que 30, extraída de uma distribuição assimétrica ou desconhecida, nem a distribuição z nem a distribuição t podem ser usadas. Portanto, as distribuições z e t não podem estimar com precisão a média da população para amostras extraídas de respostas voluntárias, amostragem de conveniência ou distribuições populacionais distorcidas ou desconhecidas. Deve-se empregar métodos estatísticos não paramétricos, como bootstrapping para dados categóricos ou quando o tamanho da amostra é pequeno, ou seja, inferior a 30.

  • Distribuições e estimativas

    • Não é fácil medir um parâmetro como a altura média ou o peso médio de uma população. Assim, extraímos amostras da população e calculamos a altura média ou o peso médio dos indivíduos da amostra. 
      Esses dados de amostra atuam como uma medida representativa do parâmetro da população. Essas estatísticas de amostra são conhecidas como estimativas.
      
      A estimativa para a média de uma amostra é denotada por x̄, enquanto a média da população é designada por μ. Além disso, parâmetros como média, proporção e variância de amostras são medidos usando pontuações padrão, comumente chamadas de pontuações z. 
      As estimativas são essenciais para o teste de hipóteses, e os métodos de estimativa são usados ​​ao projetar experimentos e conduzir meta-análises.

    • Os valores precisos dos parâmetros populacionais, como proporção populacional, média populacional e desvio padrão populacional (ou variância) geralmente são desconhecidos. Estes são valores fixos que só podem ser estimados a partir dos dados coletados das amostras. As estimativas de cada um desses parâmetros são a proporção amostral, a média amostral e o desvio padrão amostral (ou variância). Para obter os valores dessas estatísticas amostrais, são necessários dados que tenham distribuição particular e tendência central. Essas distribuições amostrais são essenciais e precisam ser convertidas em algumas distribuições de probabilidade específicas necessárias para a estimativa dos parâmetros populacionais.
      
      Quando as condições são atendidas, como tamanho de amostra alto (geralmente mais de 30), amostragem aleatória e imparcial e a distribuição normal da população e a distribuição normal das amostras, a estimativa dos parâmetros populacionais torna-se direta. No entanto, tais condições não podem ser assumidas para as amostras dadas nem ser alcançadas todas as vezes ou em todos os estudos. Nesses casos, a estimativa requer outras distribuições.
      
      Para estimar a proporção da população a partir da proporção da amostra, a distribuição z e a tabela z são usadas. Aqui, as amostras não precisam seguir a distribuição normal padrão, mas devem ser pelo menos aproximadamente distribuídas simetricamente e normalmente. As pontuações z calculadas a partir dos dados da amostra podem então ser usadas para estimar o ponto da proporção da população e os intervalos de confiança podem ser construídos.
      A distribuição z também pode ser usada para estimar a média da população, mas requer conhecimento prévio do desvio padrão da população (ou variância). A distribuição z pode então ser usada para obter a estimativa pontual da média da população, e os intervalos de confiança no nível de confiança desejado podem ser construídos para estimativas confiáveis ​​da média da população.
      
      Em situações mais realistas, o desvio padrão da população (para estimar a média da população) pode não ser conhecido a priori para o estudo em questão. Nesses casos, a estimativa de um parâmetro populacional, como a média populacional, é baseada na distribuição t de Student. A distribuição t é uma distribuição simétrica, por exemplo, a distribuição normal, mas é uma aproximação da distribuição normal padrão. Sua forma (a superficialidade ou inclinação) muda de acordo com os graus de liberdade (ou pelo tamanho da amostra). A distribuição t de Student pode ser vantajosa quando o tamanho da amostra é inferior a 30.
      
      Estimar o desvio padrão da população (ou variância) requer a distribuição Qui-quadrado, que não é simétrica. A inclinação na distribuição do qui-quadrado muda de acordo com os graus de liberdade (ou tamanho da amostra). Ele se aproxima da distribuição normal em um tamanho de amostra acima de 90. A distribuição Qui-quadrado ajuda a estimar o desvio padrão da população (ou variância) mesmo em tamanhos de amostra menores.

    • O grau de liberdade para um determinado cálculo estatístico é o número de valores que podem variar livremente.
       Assim, o número mínimo de números independentes pode especificar uma estatística particular. Os graus de liberdade diferem muito dependendo dos componentes estatísticos conhecidos e não calculados.
      
      Por exemplo, suponha que haja três números desconhecidos cuja média seja 10; embora possamos atribuir valores livremente ao primeiro e segundo números, o valor do último número não pode ser atribuído arbitrariamente. 
      Como os dois primeiros são independentes e o terceiro dependente, diz-se que o conjunto de dados tem dois graus de liberdade. Em muitos métodos estatísticos, o número de graus de liberdade geralmente é calculado como um menos o tamanho da amostra. Os graus de liberdade têm amplas aplicações no cálculo do desvio padrão e estimativas estatísticas em métodos como a distribuição t de Student e os testes de distribuição qui-quadrado.

    • Um valor crítico é um valor definido obtido de uma distribuição de probabilidade particular em um nível de confiança predeterminado (ou um nível de significância predeterminado) para um determinado parâmetro populacional. O valor crítico fornece demarcação que separa as estatísticas de amostra que provavelmente ocorrerão daquelas que provavelmente não ocorrerão com base na distribuição de probabilidade fornecida e no parâmetro populacional a ser estimado. O valor crítico para a distribuição normal é obtido a partir da distribuição z (tabela de distribuição z), comumente conhecida como escore z. Para as outras distribuições não normais, pode ser obtido a partir da distribuição t, distribuição F ou distribuição Qui-quadrado.
      
      Quando as distribuições amostrais de um determinado parâmetro populacional, por exemplo, proporção populacional, são normalmente distribuídas, a distribuição amostral pode ser convertida para a distribuição z e uma pontuação z apropriada (o valor z crítico) é obtida. Os valores comuns de obtenção de escores z estão em 90%, 95% e 99% do nível de confiança (ou em 10%, 5% ou 1% de nível de significância α).
      
      Um valor crítico pode ser calculado na cauda direita, cauda esquerda ou em ambas as caudas da distribuição. O valor crítico na cauda direita é positivo, enquanto o mesmo na cauda esquerda é negativo. Para a estimativa de intervalo, um valor crítico é comumente estimado em ambas as caudas, gerando pontuações positivas e negativas. Assim, o valor na metade do nível de significância α, por exemplo, α/2, é consultado na tabela z para obter o valor crítico no nível de confiança desejado (por exemplo, a pontuação z no nível de confiança de 95% é encontrada localizando 0,9750 na tabela z, que gera +1,96 e -1,96). O valor do valor crítico depende muito da natureza da hipótese, do parâmetro a ser estimado, da distribuição da amostra e, em alguns casos, também pode depender do tamanho da amostra. Um valor crítico para estimativa de intervalo (ou seja, para o intervalo de confiança dado) é crucial, sem o qual os limites de confiança não podem ser calculados.

    • Uma estimativa pontual imparcial geralmente é insuficiente para prever uma estimativa populacional, como média populacional ou proporção populacional. Neste cenário, um intervalo de confiança é usado. Um intervalo de confiança é uma estimativa semelhante a uma proporção de amostra. No entanto, ao contrário da estimativa pontual, que é um valor único, o intervalo de confiança contém uma faixa de valores. Esses valores possuem limites inferior e superior, conhecidos como limites de confiança, e podem ser designados como L1 e L2, respectivamente.
      
      Um intervalo de confiança é representado como - L1, seguido por uma estimativa pontual, como proporção amostral ou média amostral, seguido por L2. Os limites de confiança podem ser calculados da seguinte forma:
      
      L1 = estimativa pontual - margem de erro, E
      
      L2 = estimativa pontual + margem de erro, E
      
      Um intervalo de confiança permite que um pesquisador determine a incerteza de uma estimativa pontual ao prever o valor verdadeiro de um parâmetro populacional. Em outras palavras, à medida que o intervalo de confiança diminui, a precisão da estimativa pontual em prever o valor real de um parâmetro populacional aumenta.
      
      Além disso, um nível de confiança é usado para verificar se um intervalo de confiança contém um parâmetro populacional. As escolhas comuns para um nível de confiança são 90%, 95% e 99%.

    • Considere uma curva representando dados amostrais extraídos aleatoriamente de uma população normalmente distribuída. 
      Deve-se construir intervalos de confiança para estimar ou testar uma afirmação sobre o desvio padrão da população. 
      Por exemplo, um intervalo de confiança de 95% cobre 95% da área sob a curva e os 5% restantes são igualmente distribuídos em ambos os lados da curva. 
      Para atingir tais intervalos de confiança, deve-se determinar os valores críticos. Os valores críticos são simplesmente os valores que separam os valores prováveis ​​dos improváveis.
      
      Como a distribuição do qui-quadrado é assimétrica, os valores críticos esquerdo e direito que separam uma área de 2,5% ou um nível de significância de 0,025 em cada lado da curva são determinados separadamente por meio de tabelas. 
      Na tabela para os valores críticos de qui-quadrado, os valores críticos são encontrados primeiro localizando a linha correspondente ao número apropriado de graus de liberdade df, onde df = n - 1, n representa o tamanho da amostra. O nível de significância α é usado para determinar a coluna. O valor de cauda direita é calculado localizando a área de 0,025 na parte superior da tabela. Como a tabela é baseada em valores cumulativos da direita, para o valor de cauda esquerda, subtraia 0,025 da área total sob a curva, ou seja, 1, e resulta em 0,975. O valor na coluna correspondente de 0,975 fornece o valor crítico de cauda esquerda.

    • A distribuição F recebeu o nome de Sir Ronald Fisher, um estatístico inglês. A estatística F é uma razão (uma fração) com dois conjuntos de graus de liberdade; um para o numerador e outro para o denominador. 
      A distribuição F é derivada da distribuição t de Student. Os valores da distribuição F são quadrados dos valores correspondentes da distribuição t. One-Way ANOVA expande o teste t para comparar mais de dois grupos. 
      O escopo dessa derivação está além do nível deste curso. É preferível usar ANOVA quando há mais de dois grupos em vez de realizar testes t pareados porque a realização de vários testes introduz a probabilidade de cometer um erro Tipo 1.
      A variância entre amostras: Uma estimativa de σ2 que é a variância das médias amostrais multiplicada por n (quando os tamanhos amostrais são iguais). Se as amostras tiverem tamanhos diferentes, a variância entre as amostras é ponderada para contabilizar os diferentes tamanhos de amostra. A variação também é chamada de variação devido ao tratamento ou variação explicada.
      A variância dentro das amostras: É uma estimativa de σ2, a média das variâncias da amostra (também conhecida como variância agrupada). 
      Quando os tamanhos das amostras diferem, a variância dentro das amostras é ponderada. A variância também é chamada de variação devido a erro ou variação inexplicável.
      

  • Testes de Hipótese

    • Uma hipótese pode ser uma frase ou declaração simples sobre uma propriedade ou qualquer fenômeno observado ou previsto para uma população. Geralmente é uma reivindicação sobre uma propriedade da população. Pode ser declarado para quaisquer observações ou experimentos de campo. Uma declaração de hipótese não pode ser considerada certa ou errada, pois é apenas uma declaração. Ele precisa ser testado por meio de um elaborado processo de coleta de dados e um teste estatístico apropriado. Uma hipótese deve ser uma afirmação geral, mas não vaga. Não deve ser uma afirmação sobre a propriedade da população com um número, quantidade ou medida definida.
      Um estatístico decidirá usando testes estatísticos sobre as afirmações que precedem as declarações de hipóteses. Esse processo é chamado de "teste de hipótese". Um teste de hipótese envolve coletar dados de uma amostra e avaliar os dados. Em seguida, o estatístico decide se há evidências suficientes, com base na análise dos dados, para rejeitar a hipótese nula.
      O teste de hipóteses consiste em duas hipóteses ou declarações contraditórias, uma decisão baseada nos dados e uma conclusão. Para realizar um teste de hipótese, um estatístico irá:
      Elabore duas hipóteses contraditórias. Colete dados de amostra (em problemas de lição de casa, os dados ou estatísticas resumidas serão fornecidos a você).
      Determine a distribuição correta para realizar o teste de hipótese. Analise os dados da amostra realizando os cálculos que permitirão que você rejeite ou se recuse a rejeitar a hipótese nula.
      Tome uma decisão e escreva uma conclusão significativa

    • O teste de hipótese real começa considerando duas hipóteses. Eles são chamados de hipótese nula e hipótese alternativa. Essas hipóteses contêm pontos de vista opostos.
      
      A hipótese nula, denotada por H0, é uma afirmação de que não há diferença entre as variáveis ​​– elas não estão relacionadas. Muitas vezes, isso pode ser considerado o status quo. Como resultado, se você não puder aceitar o valor nulo, será necessária alguma ação.
      
      A hipótese alternativa, denotada por H1 ou Ha, é uma afirmação sobre a população que é contraditória a H0 e o que concluímos quando rejeitamos H0. Isso geralmente é o que o pesquisador está tentando provar.
      
      Uma vez que as hipóteses nula e alternativa são contraditórias, deve-se examinar as evidências para determinar se devemos rejeitar a hipótese nula ou não. A evidência utilizada está na forma de dados de amostra.
      
      Depois de decidir qual hipótese os dados da amostra suportam, uma decisão pode ser tomada. Existem duas opções para uma decisão. Eles são "rejeitar H0" se a informação da amostra favorecer a hipótese alternativa ou "não rejeitar H0" ou "recusar a rejeição de H0" se a informação da amostra for insuficiente para rejeitar a hipótese nula.

    • A região crítica, o valor crítico e o nível de significância são conceitos interdependentes cruciais no teste de hipóteses.
      
      No teste de hipóteses, uma estatística de amostra é convertida em uma estatística de teste usando a distribuição z, t ou qui-quadrado. Uma região crítica é uma área sob a curva nas distribuições de probabilidade demarcada pelo valor crítico. Quando a estatística de teste cai nessa região, sugere que a hipótese nula deve ser rejeitada. Como essa região contém todos os valores da estatística de teste (calculada com os dados da amostra) que sugerem a rejeição da hipótese nula, ela também é conhecida como região de rejeição ou região de rejeição. A região crítica pode cair à direita, à esquerda ou em ambas as caudas da distribuição com base na direção indicada na hipótese alternativa e no valor crítico calculado.
      
      Um valor crítico é calculado usando a tabela de distribuição z, t ou qui-quadrado em um nível de significância específico. É um valor fixo para o tamanho da amostra dado e o nível de significância. O valor crítico cria uma demarcação entre todos os valores que sugerem a rejeição da hipótese nula e todos os outros valores que indicam o contrário. Um valor crítico é baseado em um nível de significância pré-definido.
      
      Um nível de significância ou nível de significância ou significância estatística é definido como a probabilidade de que a estatística de teste calculada cairá na região crítica. Em outras palavras, é uma medida estatística que indica que a evidência para rejeitar uma hipótese nula verdadeira é forte o suficiente. O nível de significância é indicado por α, sendo comumente 0,05 ou 0,01.

    • O valor P é um dos conceitos mais cruciais em estatística. Indica a probabilidade de se observar uma diferença tão grande ou maior do que a que foi observada sob a hipótese nula
      
      P-valor representa o valor de probabilidade. P-valor é a probabilidade de que, se a hipótese nula for verdadeira, os resultados de outra amostra selecionada aleatoriamente serão tão extremos ou mais extremos quanto os resultados obtidos da amostra dada.
      
      Um grande valor P calculado a partir dos dados indica não rejeitar a hipótese nula. Mas um valor P mais alto não significa que a hipótese nula seja verdadeira. Quanto menor o valor P, mais improvável é o resultado e mais forte é a evidência contra a hipótese nula. A hipótese nula é rejeitada se a evidência for fortemente contra ela. Geralmente, o valor P < 0,05 é considerado estatisticamente significativo, onde 0,05 é o nível de significância pré-definido.
      
      O valor P não é uma probabilidade de rejeitar a hipótese nula. Não é um erro estatístico permissível nem um erro de amostragem que pode ocorrer durante a condução de um experimento ou coleta de dados. Também não é uma taxa de erro. O valor P também não significa que há 95% de chance (em um nível de significância pré-definido de 95%) de que a diferença observada ou o resultado seja real. O valor P não transmite nenhuma informação sobre a verdade de hipóteses nulas ou alternativas.

    • Existem três tipos de testes de hipótese: à direita, à esquerda e bicaudal.
      
      Quando as hipóteses nula e alternativa são apresentadas, observa-se que a hipótese nula é uma declaração neutra contra a qual a hipótese alternativa é testada. A hipótese alternativa é uma afirmação que, em vez disso, tem uma certa direção. Se a hipótese nula afirma que p = 0,5, a hipótese alternativa seria uma declaração oposta a isso e pode ser colocada p > 0,5, p < 0,5 ou p ≠ 0,5. Em todas essas declarações de hipóteses alternativas, os símbolos de desigualdade indicam a direção da hipótese. Com base na direção mencionada na hipótese, o tipo de teste de hipótese pode ser decidido para o parâmetro da população em questão.
      
      Quando a hipótese alternativa reivindica p > 0,5 (observe o símbolo 'maior que), a região crítica cairia no lado direito da curva de distribuição de probabilidade. Nesse caso, o teste de hipótese de cauda direita é usado.
      
      Quando a hipótese alternativa afirma p < 0,5 (observe o símbolo 'menor que'), a região crítica cairia no lado esquerdo da curva de distribuição de probabilidade. Nesse caso, o teste de hipótese de cauda esquerda é usado.
      
      No caso da hipótese alternativa p ≠ 0,5, uma direção definida não pode ser decidida e, portanto, a região crítica cai em ambas as extremidades da curva de distribuição de probabilidade. Neste caso, o teste bicaudal deve ser usado.

    • O processo de teste de hipóteses com base no método do valor-P inclui o cálculo do valor-P usando os dados da amostra e interpretando-os.
      
      Primeiro, uma afirmação específica sobre o parâmetro populacional é proposta. A afirmação é baseada na questão de pesquisa e é declarada de forma simples. Além disso, uma declaração oposta à reivindicação também é declarada. Essas declarações podem atuar como hipóteses nulas e alternativas: uma hipótese nula seria uma declaração neutra, enquanto a hipótese alternativa pode ter uma direção. A hipótese alternativa também pode ser a afirmação original se envolver uma direção específica sobre o parâmetro populacional.
      
      Uma vez formuladas as hipóteses, elas são expressas simbolicamente. Como convenção, a hipótese nula conteria o símbolo de igualdade, enquanto a hipótese alternativa pode conter os símbolos >, < ou ≠.
      
      Antes de prosseguir no teste de hipótese, um nível de significância apropriado deve ser decidido. Existe um consenso geral para definir níveis de significância em 95% (ou seja, 0,95) ou 99% (ou seja, 0,99). Aqui o α seria 0,05 ou 0,01, respectivamente.
      
      Em seguida, identifique uma estatística de teste apropriada. A proporção e a média (quando o desvio padrão da população é conhecido) é a estatística z. Para a média, quando o desvio padrão da população é desconhecido, é uma estatística t, e para a variância (ou SD), é uma estatística qui-quadrado.
      
      Depois de calcular a estatística de teste, encontre o valor-P eletronicamente ou na respectiva tabela de valores-P e compare-o com o nível de significância pré-definido. Se o valor P for menor que o nível de significância pré-definido, rejeite a hipótese nula.
      
      A interpretação da afirmação original da hipótese ou da propriedade da população deve ser baseada no valor-P.

    • O processo de teste de hipóteses baseado no método tradicional inclui o cálculo do valor crítico, o teste do valor da estatística de teste usando os dados da amostra e a interpretação desses valores.
      
      Primeiro, uma afirmação específica sobre o parâmetro da população é decidida com base na questão da pesquisa e é declarada de forma simples. Além disso, uma declaração oposta a esta reivindicação também é declarada. Essas declarações podem atuar como hipóteses nulas e alternativas, das quais uma hipótese nula seria uma declaração neutra, enquanto a hipótese alternativa pode ter uma direção. A hipótese alternativa também pode ser a reivindicação original se envolver uma direção específica do parâmetro.
      
      Uma vez formuladas as hipóteses, elas são expressas simbolicamente. Como convenção, a hipótese nula conteria o símbolo de igualdade, enquanto a hipótese alternativa pode conter os símbolos >, < ou ≠.
      
      Antes de prosseguir com o teste de hipótese, um nível de significância apropriado deve ser decidido. Existe uma convenção geral de escolher um nível de 95% (ou seja, 0,95) ou 99% (ou seja, 0,99). Aqui o α seria 0,05 ou 0,01, respectivamente.
      
      Em seguida, identifique uma estatística de teste apropriada. A proporção e a média (quando o desvio padrão da população é conhecido) a estatística z é preferida. Para a média, quando o desvio padrão da população é desconhecido, é uma estatística t, e para variância (ou SD), é uma estatística qui-quadrado.
      
      Em seguida, calcule o valor crítico no nível de significância fornecido para a estatística de teste e plote a distribuição de amostragem para observar a região crítica. O valor crítico pode ser obtido nas tabelas z, t e qui-quadrado ou eletronicamente usando software estatístico.
      
      Verifique se a estatística de teste está dentro da região crítica. Se cair dentro da região crítica, rejeite a hipótese nula.
      
      A decisão sobre a reivindicação sobre a propriedade da população ou a interpretação geral neste método não requer o valor P.

    • Ao realizar um teste de hipótese, existem quatro resultados possíveis, dependendo da verdade real (ou falsidade) da hipótese nula e da decisão de rejeitá-la ou não.
      
      A decisão é não rejeitar a hipótese nula quando ela é verdadeira (decisão correta).
      A decisão é rejeitar a hipótese nula quando ela é verdadeira (decisão incorreta conhecida como erro Tipo I).
      A decisão é não rejeitar a hipótese nula quando, de fato, ela é falsa (decisão incorreta conhecida como erro Tipo II).
      A decisão é rejeitar a hipótese nula quando ela é falsa (decisão correta cuja probabilidade é chamada de Poder do Teste).
      Cada um dos erros ocorre com uma probabilidade particular. As letras gregas α e β representam as probabilidades.
      
      α = probabilidade de um erro Tipo I = P(erro Tipo I) = probabilidade de rejeitar a hipótese nula quando a hipótese nula é verdadeira.
      
      β = probabilidade de um erro Tipo II = P(erro Tipo II) = probabilidade de não rejeitar a hipótese nula quando a hipótese nula é falsa.
      
      α e β devem ser os menores possíveis porque são probabilidades de erros. Eles raramente são zero.
      
      A potência do teste é 1 – β. Idealmente, queremos um alto poder que seja o mais próximo possível de um. Aumentar o tamanho da amostra pode aumentar o poder do teste.

  • Analises of Variance (ANOVA)

    • A Análise de Variância ou ANOVA é um teste estatístico desenvolvido por Ronald Fisher em 1918. É realizado em três ou mais amostras para verificar a igualdade entre suas médias.
      
      Antes de realizar a ANOVA, deve-se garantir que as amostras utilizadas para esta análise tenham três características ou pressupostos estatísticos cruciais. A primeira suposição afirma que as amostras devem ser retiradas de amostras normalmente distribuídas, enquanto a segunda exige que todas as amostras retiradas sejam selecionadas de forma aleatória e independente. A terceira e última suposição afirma que as amostras devem ser retiradas de populações com variâncias iguais.
      
      Existem dois tipos de ANOVA comumente usados: ANOVA de uma via e ANOVA de duas vias. ANOVA de uma via é usada para as amostras categorizadas por um fator, enquanto a ANOVA de duas vias é usada quando dois fatores categorizam as amostras.
      
      Além disso, ANOVA é um método útil que tem amplas aplicações práticas. Ele pode ajudar um consumidor a escolher uma máquina de lavar ou uma geladeira depois de comparar diferentes modelos ou ajudar um sociólogo a discernir se a renda de uma pessoa depende de sua criação. A ANOVA é usada em ciências ambientais para determinar a variação nos níveis médios de poluição entre vários corpos d'água. Portanto, ANOVA é amplamente aplicável em áreas como ciências da vida, administração de empresas, ciências sociais, ciências forenses, etc.

    • A ANOVA de uma via analisa mais de três amostras categorizadas por um fator. Por exemplo, pode comparar a quilometragem média de motos esportivas. Aqui, os dados são categorizados por um fator - a empresa. No entanto, a ANOVA de um fator não pode ser usada para comparar simultaneamente a média amostral de três ou mais amostras categorizadas por dois fatores. Um exemplo de dois fatores seriam as motos esportivas de diferentes empresas conduzidas em diferentes terrenos, como deserto ou paisagem com neve. Aqui, a ANOVA bidirecional é usada, uma vez que dois fatores estão envolvidos, a saber, empresa e terreno.
      
      Duas hipóteses, a saber, a nula e a hipótese alternativa, são formuladas antes de analisar as amostras usando ANOVA de um fator. A hipótese nula afirma que as médias das amostras usadas durante a análise são iguais, enquanto a hipótese alternativa afirma que as médias das amostras são desiguais. Depois de formuladas as duas hipóteses, calculam-se as variâncias entre amostras e dentro das amostras. A variância entre as amostras é calculada como a variância das médias da amostra multiplicada pelo tamanho da amostra, n. A variação dentro das amostras é calculada como a média das variações da amostra.

    • A ANOVA unidirecional pode ser realizada em três ou mais amostras de tamanhos desiguais. No entanto, os cálculos ficam complicados quando os tamanhos das amostras nem sempre são os mesmos. Portanto, ao realizar ANOVA com tamanhos de amostras desiguais, a seguinte equação é usada:
      
      NObserve que ambas as estimativas de variância, a variância entre amostras e a variância dentro das amostras são ponderadas, pois usam o mesmo tamanho para calcular a estatística F. Em outras palavras, os diferentes tamanhos de amostra no conjunto de dados afetarão as duas estimativas de variância - a variância entre amostras e a variância dentro das amostras, afetando, em última análise, o valor da estatística F

  • Tipos de gráficos

    • A maneira mais comum e fácil de exibir a relação entre duas variáveis, x e y, é um gráfico de dispersão. Um gráfico de dispersão mostra a direção de uma relação entre as variáveis. Uma direção clara acontece quando há:
      
      Valores altos de uma variável ocorrendo com valores altos da outra variável ou valores baixos de uma variável ocorrendo com valores baixos da outra variável.
      Valores altos de uma variável ocorrendo com valores baixos da outra variável.
      Pode-se determinar a força da relação observando o gráfico de dispersão e vendo o quão perto os pontos estão de uma linha, uma função de potência, uma função exponencial ou algum outro tipo de função. Para uma relação linear, há uma exceção. Considere um gráfico de dispersão em que todos os pontos caem em uma linha horizontal, fornecendo um "ajuste perfeito". A linha horizontal, de fato, não mostraria nenhuma relação.
      
      Ao olhar para um gráfico de dispersão, deve-se observar o padrão geral e quaisquer desvios.

    • Um gráfico de barras também é chamado de gráfico de barras e consiste em barras separadas umas das outras. 
      Ele usa barras horizontais ou verticais para mostrar comparações entre categorias. As barras podem ser retângulos ou podem ser caixas retangulares (usadas em gráficos tridimensionais). 
      Um eixo do gráfico representa as categorias específicas que estão sendo comparadas e o outro eixo mostra um valor discreto. Neste gráfico, o comprimento da barra para cada categoria é proporcional ao número ou porcentagem de indivíduos em cada categoria.
      Alguns gráficos de barras mostram barras agrupadas em grupos de mais de um (gráficos de barras agrupados) e outros representam as barras divididas em subpartes para mostrar o efeito cumulativo (gráficos de barras empilhadas). 
      Um gráfico de barras é uma escolha melhor do que um gráfico de linha ou histograma porque esses dados são categóricos em vez de contínuos. Além disso, é apropriado comparar o tamanho relativo das categorias.
      Deve-se notar que os gráficos de barras que são organizados do mais alto para o mais baixo são chamados de gráficos de Pareto.

    • Como o nome sugere, um gráfico de barras múltiplas é o mesmo que um gráfico de barras, mas possui várias barras para representar as relações entre diferentes valores de dados. Pode-se incluir tantos parâmetros quanto possível. No entanto, cada parâmetro deve ter a mesma unidade de medida.
      
      Cada barra ou coluna no gráfico de barras múltiplas representa um valor de dados. Esses gráficos são usados ​​principalmente na inter-relação de dois ou mais conjuntos de dados. As categorias de diferentes tipos de dados são listadas ao longo do eixo horizontal ou x, enquanto a frequência é listada ao longo do eixo vertical ou y. Por exemplo, considere comparar seis alunos com base em suas notas em quatro disciplinas, digamos, Física, Química, Biologia e Estatística, então quatro barras diferentes precisam ser desenhadas para cada aluno. Dependendo das alturas das barras, os dados são analisados ​​e comparados.
      
      Embora o gráfico de barras múltiplas seja usado para a maioria dos casos relacionais, ele tem alguns deméritos, como muitas vezes requer explicação adicional e falha em expor as principais suposições, causas, impactos e padrões. Às vezes, pode ser facilmente manipulado e pode dar falsas impressões.

    • Um gráfico de pizza (ou um gráfico de pizza) é um gráfico gráfico circular ou uma representação pictórica de dados categóricos. É dividido em fatias de torta, cada uma indicando proporções numéricas. Também é usado para mostrar os tamanhos relativos dos dados em um único gráfico.
      
      Em um gráfico de pizza, o ângulo central, o comprimento do arco de cada fatia e a área são diretamente proporcionais à quantidade ou porcentagem que representam. Alguns exemplos do mundo real que podem ser representados usando gráficos de pizza incluem as notas obtidas pelos alunos em uma aula, o gasto mensal de uma família e o custo de construção de uma casa. Com a ajuda de um gráfico de pizza, pode-se comparar facilmente a soma gasta em aço, cimento e assim por diante durante a construção. A soma real gasta em cada despesa individual também pode ser calculada.
      
      As principais vantagens de um gráfico de pizza são que ele é simples de usar e fácil para o público analisar e entender rapidamente as informações. No entanto, se houver muitos dados, pode ser um desafio para os leitores visualizar e assimilar informações usando um gráfico de pizza.

    • Um gráfico de série temporal é um gráfico de linhas com medições repetidas feitas em intervalos de tempo sucessivos. Também é chamado de gráfico de série temporal. 
      Para construir um gráfico de série temporal, deve-se olhar para ambas as partes de um conjunto de dados pareado. O eixo horizontal é usado para plotar os incrementos de tempo, e o eixo vertical é usado para plotar os valores da variável que se está medindo. Usando os eixos desta forma, cada ponto no gráfico corresponderá ao tempo e a uma quantidade medida. Os pontos no gráfico são normalmente conectados por linhas retas na ordem em que ocorrem.
      
      Gráficos de séries temporais são ferramentas importantes em várias aplicações estatísticas. Ao registrar valores da mesma variável durante um longo período de tempo, às vezes é difícil discernir qualquer tendência ou padrão. No entanto, uma vez que os mesmos pontos de dados são exibidos graficamente, alguns recursos se destacam. Gráficos de séries temporais facilitam a identificação de tendências.