Teste de Hipóteses

Hipóteses
Testar um Hipótese
Procedimentos para Testar uma Hipótese
Função Potência
$p$ -value
Testes de Hipóteses Paramétricas

Hipóteses

Damos o nome de hipótese estatística a qualquer conjetura sobre um dado estatístico, como por exemplo a distribuição de uma VA de interesse, um parâmetro desconhecido, ou outro. A uma conjetura sobre um parâmetro damos o nome de hipótese paramétrica.
Este capítulo centra-se no estudo da confiança que podemos dar a uma hipótese paramétrica.
Normalmente, isto é feito através da confrontação de duas hipóteses paramétricas:

hipótese nula: $H_0 \in \Theta_0$ $\subset \Theta$ que consiste na hipótese principal;
hipótese alternativa: $H_1 \in \Theta_1$ $\subset \Theta \backslash \Theta_0$ que consiste na hipótese que é confrontada com a hipótese nula. Normalmente consideramos 3 tipos de hipóteses alternativas:
- unilateral inferior se $\Theta_1 \subset \{ x \in \Theta: x < H_0 \}$ , isto é, se todos os valores da hipótese alternativa forem inferiores aos da hipótese nula;
- unilateral superior se $\Theta_1 \subset \{ x \in \Theta: x > H_0 \}$ , isto é, se todos os valores da hipótese alternativa forem superiores aos da hipótese nula;
- bilateral caso enquadre valores para ambos os lados de $H_0$ . Um exemplo comum de uma hipótese alternativa bilateral é $H_0: \mu = \mu_0 \text{ e } H_1: \mu \neq \mu_0$

Uma hipótese paramétrica diz-se ainda simples se especificar um único valor para o parâmetro em caso, dizendo-se composta caso contrário.

Exemplo

Considere-se que queremos analisar a altura da população portuguesa. Assumimos que a distribuição da altura dos portugueses é normal. Sendo assim, é do nosso interesse saber qual é, por exemplo, o valor esperado da altura de um português. Seja este parâmetro $\mu$ .

Um exemplo de uma hipótese paramétrica é:

A média das alturas dos portugueses é $1,75m$ .

Esta hipótese paramétrica é simples pois especifica um só valor para o parâmetro desconhecido. Uma hipótese paramétrica composta seria, por exemplo:

A média das alturas dos portugueses está algures entre $1,70m$ e $1,80m$ .

Se considerarmos a primeira hipótese apresentada como a hipótese nula - $H_0: \mu = 1,70$ - temos que a hipótese alternativa é bilateral - $H_1: \mu \neq 1,70$ .

Temos que a hipótese nula $H_0: \mu \geq 1,70$ :

A média das alturas dos portugueses é no mínimo $1,70m$ .

Tem uma hipótese alternativa unilateral inferior: $H_1: \mu < 1,70$ .

Deve agora ser fácil imaginar uma hipótese nula cuja hipótese alternativa seja unilateral superior.

Testar um Hipótese

Testar uma hipótese consiste num processo estatístico que leva à aceitação/rejeição da hipótese nula em prol da alternativa. Esta decisão pode ou não estar correta: o teste permite-nos atribuir um valor de probabilidade a uma certa hipótese, mas nunca nos permite calcular sem margem de dúvida o valor de um parâmetro.

Dizemos que ocorreu um:

erro de primeira espécie se $H_0$ for verdadeira mas for rejeitada pelo teste. Designamos por $\alpha$ como a probabilidade de ocorrer um erro destes;
erro de segunda espécie se $H_0$ for falsa mas for aceite pelo teste. Designamos por $\beta$ como a probabilidade de ocorrer um erro destes;

Quando fazemos um teste, queremos que a probabilidade de ocorrer um erro seja o menor possível. É, então, normal colocar um limite superior para a probabilidade de ocorrência de erro de primeira espécie. A este limite dá-se o nome de nível de significância (n.s.) e representa-se por $\alpha_0$ $\in ]0,1[$ .
Para calcular a probabilidade de erro, definimos uma estatística de teste como uma estatística a utilizar no confronto entre um par de hipóteses sobre o parâmetro $\theta$ . Esta estatística:

reflete a discrepância entre o estimador de $\theta$ e o valor conjeturado para o mesmo em $H_0$ ( $\theta_0$ );
tem distribuição (exata ou aproximada) conhecida, sob a validade de $H_0$ ;
obtém-se, normalmente, à custa de uma certa VA fulcral, substituindo $\theta$ por $\theta_0$ na sua expressão.

A partir desta estatística $T$ , fica então a faltar definir o conjunto de valores que deverão levar à rejeição de $H_0$ . A estes valores damos o nome de valores críticos e a este conjunto região de rejeição ou rejeição crítica de $H_0$ . Esta região é designada por $\omega$ e é tal que $P(T \in \omega) = \alpha \leq \alpha_0$ , dependendo também da hipótese alternativa.

A decisão em relação a $H_0$ é então a seguinte, para uma estatística teste $T$ :

$T \in \omega \Rightarrow$ rejeição;
$T \not\in \omega \Rightarrow$ aceitação.

Mais uma vez, relembra-se que aceitação não significa que $H_0$ seja verdadeira: pode ocorrer um erro de primeira ou segunda espécie. Podemos, no entanto, concluir, em caso de aceitação da hipótese nula, que a probabilidade de um erro destes acontecer é inferior ao nível de significância $\alpha_0$ . Desta forma, quanto menor $\alpha_0$ , maior o conjunto de valores rejeitados.

Observamos ainda que, se $H_0$ for uma hipótese nula $H_0: \theta = \theta_0$ com alternativa bilateral $H_1: \theta \neq \theta_0$ , averiguar $H_0$ com n.s. $\alpha_0$ equivale a averiguar se o valor $\theta_0$ proposto por $H_0$ pertence ao intervalo de confiança $1-\alpha_0$ . Temos então que $\theta_0 \in IC_{1-\alpha_0}(\theta)$ leva à aceitação de $\theta_0$ com n.s. $\alpha_0$ e $\theta_0 \not\in IC_{1-\alpha_0}(\theta)$ leva à rejeição com esse mesmo n.s.

Procedimentos para Testar uma Hipótese

Para testar uma hipótese seguimos, então, o seguinte procedimento:

Escolhemos a VA de interesse $X$ ;
Identificamos a situação: qual a distribuição de $X$ , o parâmetro em questão, outros parâmetros em causa, etc;
Especificamos as hipóteses: nula ( $H_0$ ) e alternativa ( $H_1$ );
Escolhemos o nível de significância $\alpha_0$ ;
Escolhemos a estatística de teste $T$ e identificamos a sua distribuição sob a validade de $H_0$ ;
Obtemos a região de rejeição $\omega$
Calculamos o valor observado $t$ da estatística $T$ e decidimos pela rejeição ou não de $H_0$ com n.s. $\alpha_0$ .

Função Potência

Por vezes, além da probabilidade de rejeição para uma hipótese verdadeira, podemos querer essa probabilidade para uma hipótese falsa. Definimos a função potência de um teste como a probabilidade de rejeição da hipótese nula. Temos que

\alpha = P(T \in \omega | \theta), \theta \in \Theta_0 \\ \beta = P(T \not\in \omega | \theta), \theta \in \Theta_1

pelo que

p(\theta) = P(\text{Rejeitar } H_0 | \theta) = \begin{cases} \alpha, &\theta \in \Theta_0 \\ 1-\beta, &\theta \in \Theta_1 \end{cases}

$p$ -value

Até agora, temos estudado a decisão sobre uma hipótese para um n.s. fixo. No entanto, podemos seguir o sentido contrário: dado o valor observado $t$ de uma estatística, determinar para que níveis de significância é que rejeitamos/aceitamos a hipótese nula. Definimos, então, o p-value como o maior nível de significância que leva à aceitação de $H_0$ . Nomeadamente, se tivermos um teste:

unilateral inferior, $\omega = ]-\infty, c[$ , então $c = P(T<t | H_0) = F_{T|H_0}(t)$ ;
unilateral superior, $\omega = ]c, \infty[$ , então $c = P(T>t | H_0) = 1 - F_{T|H_0}(t)$ ;
bilateral, $\omega = ]-\infty, c[ \cup ]c, \infty[$ em que $T | H_0$ tem distribuição simétrica em relação à origem, então $c = P(T<-|t| \vee T>|t| | H_0) = 2\left(1 - F_{T|H_0}(|t|) \right)$

Testes de Hipóteses Paramétricas

Determinação de $\mu$ para $\sigma^2$ conhecido

Neste caso, estamos interessados em determinar a zona de rejeição para uma hipótese paramétrica em relação ao valor esperado de uma VA arbitrária $X$ cuja variância já conhecemos.

Consideramos, então, a hipótese nula $H_0: \mu = \mu_0$ .

Se $X \sim \op{normal}(\mu, \sigma^2)$ , temos então que

Z = \frac{\overline{X} - \mu_0}{\frac{\sigma}{\sqrt{n}}} \sim_{H_0} \op{normal}(0,1)

Sendo assim, a região de rejeição é exatamente

$\omega = \space]-\infty, -\Phi^{-1}(1-\frac{\alpha}{2})[\space \cup \space]\Phi^{-1}(1-\frac{\alpha}{2}), \infty[$
para uma hipótese alternativa bilateral $H_1: \mu \neq \mu_0$ ;
$\omega = \space]\Phi^{-1}(1-\alpha), \infty[$
para uma hipótese alternativa unilateral superior $H_1: \mu > \mu_0$ ;
$\omega = \space]-\infty, -\Phi^{-1}(1-\alpha)[$
para uma hipótese alternativa unilateral inferior $H_1: \mu < \mu_0$ ;

Se $X$ não seguir uma distribuição normal, invocamos o TLC para obter que

\frac{\overline{X} - \mu_0}{\frac{\sigma}{\sqrt{n}}} \sima_{H_0} \op{normal}(0,1)

e portanto podemos obter as mesmas regiões de rejeição indicadas acima, desta vez com nível de significância aproximado.

Determinação de $\mu_1 - \mu_2$ para $\sigma_1^2, \sigma_2^2$ conhecidos

Esta determinação não é lecionada no programa de 2021/22.

Neste caso, estamos interessados em determinar a zona de rejeição para uma hipótese paramétrica em relação à diferença entre os valores esperados de duas VA arbitrárias $X_1$ e $X_2$ cuja variância já conhecemos.

Consideramos, então, a hipótese nula $H_0: \mu_1 - \mu_2 = \mu_0$ .

Se $X_i \sim \op{normal}(\mu_i, \sigma_i^2)$ ( $i \in \{1,2\}$ ), temos que

Z = \frac{(\overline{X_1} - \overline{X_2}) - (\mu_1 - \mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}} \sim_{H_0} \op{normal}(0,1)

Sendo assim, a região de rejeição é exatamente

$\omega = \space]-\infty, -\Phi^{-1}(1-\frac{\alpha}{2})[\space \cup \space]\Phi^{-1}(1-\frac{\alpha}{2}), \infty[$
para uma hipótese alternativa bilateral $H_1: \mu \neq \mu_0$ ;
$\omega = \space]\Phi^{-1}(1-\alpha), \infty[$
para uma hipótese alternativa unilateral superior $H_1: \mu > \mu_0$ ;
$\omega = \space]-\infty, -\Phi^{-1}(1-\alpha)[$
para uma hipótese alternativa unilateral inferior $H_1: \mu < \mu_0$ ;

Se $X$ não seguir uma distribuição normal, invocamos o TLC para obter que

\frac{(\overline{X_1} - \overline{X_2}) - (\mu_1 - \mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}} \sima_{H_0} \op{normal}(0,1)

e portanto podemos obter as mesmas regiões de rejeição indicadas acima, desta vez com nível de significância aproximado.

Determinação de $\mu$ para $\sigma^2$ desconhecido

Neste caso, estamos interessados em determinar a zona de rejeição para uma hipótese paramétrica em relação ao valor esperado de uma VA arbitrária $X$ cuja variância não conhecemos.

Consideramos, então, a hipótese nula $H_0: \mu = \mu_0$ .

Se $X \sim \op{normal}(\mu, \sigma^2)$ , temos que

Z = \frac{\overline{X} - \mu}{\frac{s}{\sqrt{n}}} \sim_{H_0} t_{(n-1)}

em que $s$ é um estimador para a variância - a variância corrigida.

Sendo assim, a região de rejeição é exatamente

$\omega = \space]-\infty, -F_{t_{(n-1)}}^{-1}(1-\frac{\alpha}{2})[\space \cup \space]F_{t_{(n-1)}}^{-1}(1-\frac{\alpha}{2}), \infty[$
para uma hipótese alternativa bilateral $H_1: \mu \neq \mu_0$ ;
$\omega = \space]F_{t_{(n-1)}}^{-1}(1-\alpha), \infty[$
para uma hipótese alternativa unilateral superior $H_1: \mu > \mu_0$ ;
$\omega = \space]-\infty, -F_{t_{(n-1)}}^{-1}(1-\alpha)[$
para uma hipótese alternativa unilateral inferior $H_1: \mu < \mu_0$ ;

Se $X$ não seguir uma distribuição normal, invocamos o TLC para obter que

\frac{\overline{X} - \mu}{\frac{s}{\sqrt{n}}} \sima_{H_0} \op{normal}(0,1)

e portanto podemos obter as mesmas regiões de rejeição indicadas acima, desta vez com nível de significância aproximado.

Determinação de $\mu_1 - \mu_2$ para $\sigma_1^2, \sigma_2^2$ desconhecidos

Esta determinação não é lecionada no programa de 2021/22.

Consideramos, então, a hipótese nula $H_0: \mu_1 - \mu_2 = \mu_0$ .

Se $X_i \sim \op{normal}(\mu_i, \sigma_i^2)$ ( $i \in \{1,2\}$ ), temos que

Z = \frac{(\overline{X_1} - \overline{X_2}) - (\mu_1 - \mu_2)}{\sqrt{\frac{(n_1-1)s_1^2 + (n_2-1)s_2^2}{n_1+n_2-2}\left(\frac{1}{n_1} + \frac{1}{n_2} \right)}} \sim_{H_0} t_{(n_1+n_2-1)}

em que $s$ é um estimador para a variância - a variância corrigida.

Sendo assim, a região de rejeição é exatamente

$\omega = \space]-\infty, -F_{t_{(n_1+n_2-1)}}^{-1}(1-\frac{\alpha}{2})[\space \cup \space]F_{t_{(n_1+n_2-1)}}^{-1}(1-\frac{\alpha}{2}), \infty[$
para uma hipótese alternativa bilateral $H_1: \mu \neq \mu_0$ ;
$\omega = \space]F_{t_{(n_1+n_2-1)}}^{-1}(1-\alpha), \infty[$
para uma hipótese alternativa unilateral superior $H_1: \mu > \mu_0$ ;
$\omega = \space]-\infty, -F_{t_{(n_1+n_2-1)}}^{-1}(1-\alpha)[$
para uma hipótese alternativa unilateral inferior $H_1: \mu < \mu_0$ ;

Se $X_1$ e $X_2$ não seguirem uma distribuição normal, invocamos o TLC para obter que

\frac{(\overline{X_1} - \overline{X_2}) - (\mu_1 - \mu_2)}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}} \sima_{H_0} \op{normal}(0,1)

e portanto podemos obter as mesmas regiões de rejeição indicadas acima, desta vez com nível de significância aproximado.

Determinação de $\sigma^2$ para $\mu$ desconhecido

Neste caso, estamos interessados em determinar a zona de rejeição para uma hipótese paramétrica em relação à variância de uma VA $X$ com distribuição normal cujo valor esperado não conhecemos.

Consideramos, então, a hipótese nula $H_0: \sigma^2 = \sigma_0^2$ .

Como $X \sim \op{normal}(\mu, \sigma^2)$ , temos que

Z = \frac{(n-1)s^2}{\sigma^2} \sim_{H_0} \chi_{(n-1)}^2

Sendo assim, a região de rejeição é exatamente

$\omega = \space]-\infty, {\chi_{(n-1)}^2}^{-1}(\frac{\alpha}{2})[\space \cup \space]{\chi_{(n-1)}^2}^{-1}(1-\frac{\alpha}{2}), \infty[$
para uma hipótese alternativa bilateral $H_1: \sigma^2 \neq \sigma_0^2$ ;
$\omega = \space]{\chi_{(n-1)}^2}^{-1}(1-\alpha), \infty[$
para uma hipótese alternativa unilateral superior $H_1: \sigma^2 > \sigma_0^2$ ;
$\omega = \space]-\infty, {\chi_{(n-1)}^2}^{-1}(\alpha)[$
para uma hipótese alternativa unilateral inferior $H_1: \sigma^2 < \sigma_0^2$ ;

Determinação de $p$ numa Prova de Bernoulli

Neste caso, estamos interessados em determinar a zona de rejeição para uma hipótese paramétrica em relação ao parâmetro de uma Prova de Bernoulli.

Consideramos, então, a hipótese nula $H_0: p = p_0$ .

Como $X \sim Bernoulli(p)$ , temos, segundo o TLC, que para $n>>$

Z = \frac{\overline{X} - p}{\sqrt{\frac{p(1-p)}{n}}} \sima_{H_0} \op{normal}(0,1)

Sendo assim, a região de rejeição é aproximadamente

$\omega = \space]-\infty, -\Phi^{-1}(1-\frac{\alpha}{2})[\space \cup \space]\Phi^{-1}(1-\frac{\alpha}{2}), \infty[$
para uma hipótese alternativa bilateral $H_1: p \neq p_0$ ;
$\omega = \space]\Phi^{-1}(1-\alpha), \infty[$
para uma hipótese alternativa unilateral superior $H_1: p > p_0$ ;
$\omega = \space]-\infty, -\Phi^{-1}(1-\alpha)[$
para uma hipótese alternativa unilateral inferior $H_1: p < p_0$ ;

Exemplos

Exemplo

// TODO

Teste de Hipóteses

Hipóteses

Testar um Hipótese

Procedimentos para Testar uma Hipótese

Função Potência

ppp-value

Testes de Hipóteses Paramétricas

Determinação de μ\muμ para σ2\sigma^2σ2 conhecido

Determinação de μ1−μ2\mu_1 - \mu_2μ1​−μ2​ para σ12,σ22\sigma_1^2, \sigma_2^2σ12​,σ22​ conhecidos

Determinação de μ\muμ para σ2\sigma^2σ2 desconhecido

Determinação de μ1−μ2\mu_1 - \mu_2μ1​−μ2​ para σ12,σ22\sigma_1^2, \sigma_2^2σ12​,σ22​ desconhecidos

Determinação de σ2\sigma^2σ2 para μ\muμ desconhecido

Determinação de ppp numa Prova de Bernoulli

Exemplos

$p$ -value

Determinação de $\mu$ para $\sigma^2$ conhecido

Determinação de $\mu_1 - \mu_2$ para $\sigma_1^2, \sigma_2^2$ conhecidos

Determinação de $\mu$ para $\sigma^2$ desconhecido

Determinação de $\mu_1 - \mu_2$ para $\sigma_1^2, \sigma_2^2$ desconhecidos

Determinação de $\sigma^2$ para $\mu$ desconhecido

Determinação de $p$ numa Prova de Bernoulli