Distribuições e estimativas
Contorno da seção
-
-
Não é fácil medir um parâmetro como a altura média ou o peso médio de uma população. Assim, extraímos amostras da população e calculamos a altura média ou o peso médio dos indivíduos da amostra.Esses dados de amostra atuam como uma medida representativa do parâmetro da população. Essas estatísticas de amostra são conhecidas como estimativas. A estimativa para a média de uma amostra é denotada por x̄, enquanto a média da população é designada por μ. Além disso, parâmetros como média, proporção e variância de amostras são medidos usando pontuações padrão, comumente chamadas de pontuações z.As estimativas são essenciais para o teste de hipóteses, e os métodos de estimativa são usados ao projetar experimentos e conduzir meta-análises. -
Os valores precisos dos parâmetros populacionais, como proporção populacional, média populacional e desvio padrão populacional (ou variância) geralmente são desconhecidos. Estes são valores fixos que só podem ser estimados a partir dos dados coletados das amostras. As estimativas de cada um desses parâmetros são a proporção amostral, a média amostral e o desvio padrão amostral (ou variância). Para obter os valores dessas estatísticas amostrais, são necessários dados que tenham distribuição particular e tendência central. Essas distribuições amostrais são essenciais e precisam ser convertidas em algumas distribuições de probabilidade específicas necessárias para a estimativa dos parâmetros populacionais. Quando as condições são atendidas, como tamanho de amostra alto (geralmente mais de 30), amostragem aleatória e imparcial e a distribuição normal da população e a distribuição normal das amostras, a estimativa dos parâmetros populacionais torna-se direta. No entanto, tais condições não podem ser assumidas para as amostras dadas nem ser alcançadas todas as vezes ou em todos os estudos. Nesses casos, a estimativa requer outras distribuições. Para estimar a proporção da população a partir da proporção da amostra, a distribuição z e a tabela z são usadas. Aqui, as amostras não precisam seguir a distribuição normal padrão, mas devem ser pelo menos aproximadamente distribuídas simetricamente e normalmente. As pontuações z calculadas a partir dos dados da amostra podem então ser usadas para estimar o ponto da proporção da população e os intervalos de confiança podem ser construídos.A distribuição z também pode ser usada para estimar a média da população, mas requer conhecimento prévio do desvio padrão da população (ou variância). A distribuição z pode então ser usada para obter a estimativa pontual da média da população, e os intervalos de confiança no nível de confiança desejado podem ser construídos para estimativas confiáveis da média da população. Em situações mais realistas, o desvio padrão da população (para estimar a média da população) pode não ser conhecido a priori para o estudo em questão. Nesses casos, a estimativa de um parâmetro populacional, como a média populacional, é baseada na distribuição t de Student. A distribuição t é uma distribuição simétrica, por exemplo, a distribuição normal, mas é uma aproximação da distribuição normal padrão. Sua forma (a superficialidade ou inclinação) muda de acordo com os graus de liberdade (ou pelo tamanho da amostra). A distribuição t de Student pode ser vantajosa quando o tamanho da amostra é inferior a 30. Estimar o desvio padrão da população (ou variância) requer a distribuição Qui-quadrado, que não é simétrica. A inclinação na distribuição do qui-quadrado muda de acordo com os graus de liberdade (ou tamanho da amostra). Ele se aproxima da distribuição normal em um tamanho de amostra acima de 90. A distribuição Qui-quadrado ajuda a estimar o desvio padrão da população (ou variância) mesmo em tamanhos de amostra menores. -
O grau de liberdade para um determinado cálculo estatístico é o número de valores que podem variar livremente.Assim, o número mínimo de números independentes pode especificar uma estatística particular. Os graus de liberdade diferem muito dependendo dos componentes estatísticos conhecidos e não calculados. Por exemplo, suponha que haja três números desconhecidos cuja média seja 10; embora possamos atribuir valores livremente ao primeiro e segundo números, o valor do último número não pode ser atribuído arbitrariamente.Como os dois primeiros são independentes e o terceiro dependente, diz-se que o conjunto de dados tem dois graus de liberdade. Em muitos métodos estatísticos, o número de graus de liberdade geralmente é calculado como um menos o tamanho da amostra. Os graus de liberdade têm amplas aplicações no cálculo do desvio padrão e estimativas estatísticas em métodos como a distribuição t de Student e os testes de distribuição qui-quadrado. -
Um valor crítico é um valor definido obtido de uma distribuição de probabilidade particular em um nível de confiança predeterminado (ou um nível de significância predeterminado) para um determinado parâmetro populacional. O valor crítico fornece demarcação que separa as estatísticas de amostra que provavelmente ocorrerão daquelas que provavelmente não ocorrerão com base na distribuição de probabilidade fornecida e no parâmetro populacional a ser estimado. O valor crítico para a distribuição normal é obtido a partir da distribuição z (tabela de distribuição z), comumente conhecida como escore z. Para as outras distribuições não normais, pode ser obtido a partir da distribuição t, distribuição F ou distribuição Qui-quadrado. Quando as distribuições amostrais de um determinado parâmetro populacional, por exemplo, proporção populacional, são normalmente distribuídas, a distribuição amostral pode ser convertida para a distribuição z e uma pontuação z apropriada (o valor z crítico) é obtida. Os valores comuns de obtenção de escores z estão em 90%, 95% e 99% do nível de confiança (ou em 10%, 5% ou 1% de nível de significância α). Um valor crítico pode ser calculado na cauda direita, cauda esquerda ou em ambas as caudas da distribuição. O valor crítico na cauda direita é positivo, enquanto o mesmo na cauda esquerda é negativo. Para a estimativa de intervalo, um valor crítico é comumente estimado em ambas as caudas, gerando pontuações positivas e negativas. Assim, o valor na metade do nível de significância α, por exemplo, α/2, é consultado na tabela z para obter o valor crítico no nível de confiança desejado (por exemplo, a pontuação z no nível de confiança de 95% é encontrada localizando 0,9750 na tabela z, que gera +1,96 e -1,96). O valor do valor crítico depende muito da natureza da hipótese, do parâmetro a ser estimado, da distribuição da amostra e, em alguns casos, também pode depender do tamanho da amostra. Um valor crítico para estimativa de intervalo (ou seja, para o intervalo de confiança dado) é crucial, sem o qual os limites de confiança não podem ser calculados. -
Uma estimativa pontual imparcial geralmente é insuficiente para prever uma estimativa populacional, como média populacional ou proporção populacional. Neste cenário, um intervalo de confiança é usado. Um intervalo de confiança é uma estimativa semelhante a uma proporção de amostra. No entanto, ao contrário da estimativa pontual, que é um valor único, o intervalo de confiança contém uma faixa de valores. Esses valores possuem limites inferior e superior, conhecidos como limites de confiança, e podem ser designados como L1 e L2, respectivamente. Um intervalo de confiança é representado como - L1, seguido por uma estimativa pontual, como proporção amostral ou média amostral, seguido por L2. Os limites de confiança podem ser calculados da seguinte forma: L1 = estimativa pontual - margem de erro, E L2 = estimativa pontual + margem de erro, E Um intervalo de confiança permite que um pesquisador determine a incerteza de uma estimativa pontual ao prever o valor verdadeiro de um parâmetro populacional. Em outras palavras, à medida que o intervalo de confiança diminui, a precisão da estimativa pontual em prever o valor real de um parâmetro populacional aumenta. Além disso, um nível de confiança é usado para verificar se um intervalo de confiança contém um parâmetro populacional. As escolhas comuns para um nível de confiança são 90%, 95% e 99%. -
Considere uma curva representando dados amostrais extraídos aleatoriamente de uma população normalmente distribuída.Deve-se construir intervalos de confiança para estimar ou testar uma afirmação sobre o desvio padrão da população.Por exemplo, um intervalo de confiança de 95% cobre 95% da área sob a curva e os 5% restantes são igualmente distribuídos em ambos os lados da curva.Para atingir tais intervalos de confiança, deve-se determinar os valores críticos. Os valores críticos são simplesmente os valores que separam os valores prováveis dos improváveis. Como a distribuição do qui-quadrado é assimétrica, os valores críticos esquerdo e direito que separam uma área de 2,5% ou um nível de significância de 0,025 em cada lado da curva são determinados separadamente por meio de tabelas.Na tabela para os valores críticos de qui-quadrado, os valores críticos são encontrados primeiro localizando a linha correspondente ao número apropriado de graus de liberdade df, onde df = n - 1, n representa o tamanho da amostra. O nível de significância α é usado para determinar a coluna. O valor de cauda direita é calculado localizando a área de 0,025 na parte superior da tabela. Como a tabela é baseada em valores cumulativos da direita, para o valor de cauda esquerda, subtraia 0,025 da área total sob a curva, ou seja, 1, e resulta em 0,975. O valor na coluna correspondente de 0,975 fornece o valor crítico de cauda esquerda. -
A distribuição F recebeu o nome de Sir Ronald Fisher, um estatístico inglês. A estatística F é uma razão (uma fração) com dois conjuntos de graus de liberdade; um para o numerador e outro para o denominador.A distribuição F é derivada da distribuição t de Student. Os valores da distribuição F são quadrados dos valores correspondentes da distribuição t. One-Way ANOVA expande o teste t para comparar mais de dois grupos.O escopo dessa derivação está além do nível deste curso. É preferível usar ANOVA quando há mais de dois grupos em vez de realizar testes t pareados porque a realização de vários testes introduz a probabilidade de cometer um erro Tipo 1. A variância entre amostras: Uma estimativa de σ2 que é a variância das médias amostrais multiplicada por n (quando os tamanhos amostrais são iguais). Se as amostras tiverem tamanhos diferentes, a variância entre as amostras é ponderada para contabilizar os diferentes tamanhos de amostra. A variação também é chamada de variação devido ao tratamento ou variação explicada. A variância dentro das amostras: É uma estimativa de σ2, a média das variâncias da amostra (também conhecida como variância agrupada).Quando os tamanhos das amostras diferem, a variância dentro das amostras é ponderada. A variância também é chamada de variação devido a erro ou variação inexplicável.
-