- Tipos de graus de liberdade
- Em uma caixa mecânica
- Em um conjunto de valores aleatórios
- Exemplos
- Variância e graus de liberdade
- Na distribuição de Chi quadrado
- No teste de hipótese (com exemplo resolvido)
- Referências
Os graus de liberdade nas estatísticas são o número de componentes independentes de um vetor aleatório. Se o vetor tem n componentes e existem p equações lineares relacionando seus componentes, então o grau de liberdade é np.
O conceito de graus de liberdade também aparece na mecânica teórica, onde eles são aproximadamente equivalentes à dimensão do espaço onde a partícula se move, menos o número de ligações.
Figura 1. Um pêndulo se move em duas dimensões, mas tem apenas um grau de liberdade porque é forçado a se mover em um arco de raio L. Fonte: F. Zapata.
Este artigo irá discutir o conceito de graus de liberdade aplicado à estatística, mas um exemplo mecânico é mais fácil de visualizar na forma geométrica.
Tipos de graus de liberdade
Dependendo do contexto em que é aplicado, a forma de calcular o número de graus de liberdade pode variar, mas a ideia subjacente é sempre a mesma: dimensões totais menos número de restrições.
Em uma caixa mecânica
Vamos considerar uma partícula oscilante amarrada a uma corda (um pêndulo) que se move no plano vertical xy (2 dimensões). No entanto, a partícula é forçada a se mover na circunferência do raio igual ao comprimento da corda.
Como a partícula só pode se mover nessa curva, o número de graus de liberdade é 1. Isso pode ser visto na figura 1.
A maneira de calcular o número de graus de liberdade é tomando a diferença do número de dimensões menos o número de restrições:
graus de liberdade: = 2 (dimensões) - 1 (ligadura) = 1
Outra explicação que nos permite chegar ao resultado é a seguinte:
-Sabemos que a posição em duas dimensões é representada por um ponto de coordenadas (x, y).
-Mas como o ponto deve obedecer à equação da circunferência (x 2 + y 2 = L 2) para um dado valor da variável x, a variável y é determinada pela referida equação ou restrição.
Desta forma, apenas uma das variáveis é independente e o sistema possui um (1) grau de liberdade.
Em um conjunto de valores aleatórios
Para ilustrar o que o conceito significa, suponha que o vetor
x = (x 1, x 2,…, x n)
Representando a amostra de n valores aleatórios normalmente distribuídos. Nesse caso, o vetor aleatório x tem n componentes independentes e, portanto, diz-se que x tem n graus de liberdade.
Vamos agora construir o vetor r dos resíduos
r = (x 1 -
Onde
Então a soma
(x 1 -
É uma equação que representa uma restrição (ou ligação) nos elementos do vetor r dos resíduos, pois se n-1 componentes do vetor r são conhecidos, a equação de restrição determina o componente desconhecido.
Portanto, o vetor r de dimensão n com a restrição:
∑ (x i -
Possui (n - 1) graus de liberdade.
Novamente, é aplicado que o cálculo do número de graus de liberdade é:
graus de liberdade: = n (dimensões) - 1 (restrições) = n-1
Exemplos
Variância e graus de liberdade
A variância s 2 é definida como a média do quadrado dos desvios (ou resíduos) da amostra de n dados:
s 2 = (r • r) / (n-1)
onde r é o vetor dos resíduos r = (x1 -
s 2 = ∑ (x i -
Em qualquer caso, deve-se notar que ao calcular a média do quadrado dos resíduos, ela é dividida por (n-1) e não por n, já que conforme discutido na seção anterior, o número de graus de liberdade do vetor r é (n-1).
Se para o cálculo da variância fosse dividido por n em vez de (n-1), o resultado teria um viés que é muito significativo para valores de n menores que 50.
Na literatura, a fórmula da variância também aparece com o divisor n ao invés de (n-1), quando se trata da variância de uma população.
Já o conjunto da variável aleatória dos resíduos, representado pelo vetor r, embora tenha dimensão n, possui apenas (n-1) graus de liberdade. No entanto, se o número de dados for grande o suficiente (n> 500), as duas fórmulas convergem para o mesmo resultado.
Calculadoras e planilhas fornecem as duas versões da variância e do desvio padrão (que é a raiz quadrada da variância).
Nossa recomendação, diante da análise aqui apresentada, é sempre escolher a versão com (n-1) toda vez que for necessário calcular a variância ou desvio padrão, para evitar resultados enviesados.
Na distribuição de Chi quadrado
Algumas distribuições de probabilidade em variável aleatória contínua dependem de um parâmetro denominado grau de liberdade, este é o caso da distribuição Qui quadrado (χ 2).
O nome desse parâmetro vem precisamente dos graus de liberdade do vetor aleatório subjacente ao qual essa distribuição se aplica.
Suponha que temos g populações, das quais as amostras de tamanho n são retiradas:
X 1 = (x1 1, x1 2,…..x1 n)
X2 = (x2 1, x2 2,…..x2 n)
…
X j = (xj 1, xj 2,…..xj n)
…
Xg = (xg 1, xg 2,…..xg n)
Uma população j que tem média
A variável padronizada ou normalizada zj i é definida como:
zj i = (xj i -
E o vetor Zj é definido assim:
Zj = (zj 1, zj 2,…, zj i,…, zj n) e segue a distribuição normal padronizada N (0,1).
Portanto, a variável:
Q = ((z1 1 ^ 2 + z2 1 ^ 2 +…. + Zg 1 ^ 2),…., (Z1 n ^ 2 + z2 n ^ 2 +…. + Zg n ^ 2))
segue a distribuição χ 2 (g) chamada distribuição qui-quadrado com grau de liberdade g.
No teste de hipótese (com exemplo resolvido)
Quando você deseja testar hipóteses com base em um determinado conjunto de dados aleatórios, você precisa saber o número de graus de liberdade g para aplicar o teste Qui-quadrado.
Figura 2. Existe relação entre a preferência de sorvete SABOR e o GÊNERO do cliente? Fonte: F. Zapata.
A título de exemplo, serão analisados os dados coletados sobre as preferências de sorvete de chocolate ou morango entre homens e mulheres em uma determinada sorveteria. A frequência com que homens e mulheres escolhem morango ou chocolate está resumida na Figura 2.
Primeiro, é calculada a tabela de frequências esperadas, que é preparada multiplicando o total de linhas pelo total de colunas, dividido pelo total de dados. O resultado é mostrado na figura a seguir:
Figura 3. Cálculo das frequências esperadas com base nas frequências observadas (valores em azul na figura 2). Fonte: F. Zapata.
Em seguida, o qui quadrado é calculado (a partir dos dados) usando a seguinte fórmula:
χ 2 = ∑ (F o - F e) 2 / F e
Onde F o são as frequências observadas (Figura 2) e F e são as frequências esperadas (Figura 3). A soma abrange todas as linhas e colunas, que em nosso exemplo fornecem quatro termos.
Depois de fazer as operações, você obtém:
χ 2 = 0,2043.
Agora é necessário comparar com o Chi quadrado teórico, que depende do número de graus de liberdade g.
No nosso caso, esse número é determinado da seguinte forma:
g = (# linhas - 1) (# colunas - 1) = (2 - 1) (2 - 1) = 1 * 1 = 1.
Acontece que o número de graus de liberdade g neste exemplo é 1.
Se você quiser verificar ou rejeitar a hipótese nula (H0: não há correlação entre GOSTO e GÊNERO) com um nível de significância de 1%, o valor do Qui-quadrado teórico é calculado com grau de liberdade g = 1.
Busca-se o valor que faz com que a frequência acumulada (1 - 0,01) = 0,99, ou seja, 99%. Este valor (que pode ser obtido nas tabelas) é 6.636.
À medida que o Chi teórico supera o calculado, a hipótese nula é verificada.
Ou seja, com os dados coletados, não se observa relação entre as variáveis SABOR e GÊNERO.
Referências
- Minitab. Quais são os graus de liberdade? Recuperado de: support.minitab.com.
- Moore, David. (2009) Estatísticas aplicadas básicas. Editor Antoni Bosch.
- Leigh, Jennifer. Como calcular graus de liberdade em modelos estatísticos. Recuperado de: geniolandia.com
- Wikipedia. Grau de liberdade (estatísticas). Recuperado de: es.wikipedia.com
- Wikipedia. Grau de liberdade (físico). Recuperado de: es.wikipedia.com