- Fórmula
- Características da distribuição normal
- Intervalos de confiança
- Aplicações da distribuição normal
- Exemplo
- Exercício resolvido
- Referências
A distribuição normal ou distribuição gaussiana é a distribuição de probabilidade em uma variável contínua, na qual a função densidade de probabilidade é descrita por uma função exponencial de argumento quadrático e negativo, que dá origem a uma forma de sino.
O nome de distribuição normal vem do fato de que essa distribuição é a que se aplica ao maior número de situações em que alguma variável aleatória contínua está envolvida em um determinado grupo ou população.
Figura 1. Distribuição normal N (x; μ, σ) e sua densidade de probabilidade f (s; μ, σ). (Elaboração própria)
Exemplos de aplicação da distribuição normal são: a altura de homens ou mulheres, variações na medida de alguma magnitude física ou em traços psicológicos ou sociológicos mensuráveis, como o quociente intelectual ou os hábitos de consumo de um determinado produto.
Por outro lado, é chamada de distribuição gaussiana ou sino gaussiano, porque é esse gênio matemático alemão que é creditado por sua descoberta pelo uso que ele deu para descrever o erro estatístico de medições astronômicas no ano 1800.
No entanto, afirma-se que esta distribuição estatística foi publicada anteriormente por outro grande matemático de origem francesa, como Abraham de Moivre, em 1733.
Fórmula
A função de distribuição normal na variável contínua x, com parâmetros μ e σ, é denotada por:
N (x; μ, σ)
e é explicitamente escrito assim:
N (x; μ, σ) = ∫ -∞ x f (s; μ, σ) ds
onde f (u; μ, σ) é a função de densidade de probabilidade:
f (s; μ, σ) = (1 / (σ√ (2π)) Exp (- s 2 / (2σ 2))
A constante que multiplica a função exponencial na função de densidade de probabilidade é chamada de constante de normalização e foi escolhida de forma que:
N (+ ∞, μ, σ) = 1
A expressão anterior garante que a probabilidade de que a variável aleatória x esteja entre -∞ e + ∞ seja 1, ou seja, 100% de probabilidade.
O parâmetro μ é a média aritmética da variável aleatória contínua x e σ o desvio padrão ou raiz quadrada da variância dessa mesma variável. No caso em que μ = 0 e σ = 1, então temos a distribuição normal padrão ou distribuição normal típica:
N (x; μ = 0, σ = 1)
Características da distribuição normal
1- Se uma variável estatística aleatória segue uma distribuição normal de densidade de probabilidade f (s; μ, σ), a maioria dos dados são agrupados em torno do valor médio μ e estão espalhados em torno dele de forma que pouco mais de ⅔ dos dados estão entre μ - σ e μ + σ.
2- O desvio padrão σ é sempre positivo.
3- A forma da função densidade f é semelhante à de um sino, razão pela qual esta função é freqüentemente chamada de sino gaussiano ou função gaussiana.
4- Numa distribuição gaussiana a média, a mediana e a moda coincidem.
5- Os pontos de inflexão da função densidade de probabilidade estão precisamente em μ - σ e μ + σ.
6- A função f é simétrica em relação a um eixo que passa pelo seu valor médio μ e tem assintoticamente zero para x ⟶ + ∞ ex ⟶ -∞.
7- Quanto maior o valor de σ, maior a dispersão, ruído ou distância dos dados em torno da média. Em outras palavras, quanto maior σ a forma do sino é mais aberta. Por outro lado, σ pequeno indica que os dados estão próximos da média e o formato do sino é mais fechado ou pontudo.
8- A função de distribuição N (x; μ, σ) indica a probabilidade de que a variável aleatória seja menor ou igual a x. Por exemplo, na Figura 1 (acima) a probabilidade P de que a variável x seja menor ou igual a 1,5 é de 84% e corresponde à área sob a função de densidade de probabilidade f (x; μ, σ) de -∞ a x.
Intervalos de confiança
9- Se os dados seguem uma distribuição normal, então 68,26% deles estão entre μ - σ e μ + σ.
10-95,44% dos dados que seguem uma distribuição normal estão entre μ - 2σ e μ + 2σ.
11- 99,74% dos dados que seguem uma distribuição normal estão entre μ - 3σ e μ + 3σ.
12- Se uma variável aleatória x segue uma distribuição N (x; μ, σ), então a variável
z = (x - μ) / σ segue a distribuição normal padrão N (z; 0,1).
Alterar a variável x para z é chamado de padronização ou tipagem e é muito útil ao aplicar as tabelas da distribuição padrão aos dados que seguem uma distribuição normal não padrão.
Aplicações da distribuição normal
Para aplicar a distribuição normal é necessário passar pelo cálculo da integral da densidade de probabilidade, o que do ponto de vista analítico não é fácil e nem sempre existe um programa de computador que permita o seu cálculo numérico. Para tanto, são utilizadas tabelas de valores normalizados ou padronizados, que nada mais é do que a distribuição normal no caso μ = 0 e σ = 1.
Tabela de distribuição normal padronizada (parte 1/2)
Tabela de distribuição normal padronizada (parte 2/2)
Deve-se observar que essas tabelas não incluem valores negativos. No entanto, usando as propriedades de simetria da função de densidade de probabilidade gaussiana, os valores correspondentes podem ser obtidos. O exercício resolvido mostrado abaixo indica o uso da tabela nestes casos.
Exemplo
Suponha que você tenha um conjunto de dados aleatórios x que segue uma distribuição normal de média 10 e desvio padrão 2. Você deve encontrar a probabilidade de:
a) A variável aleatória x é menor ou igual a 8.
b) É menor ou igual a 10.
c) Que a variável x está abaixo de 12.
d) A probabilidade de um valor x estar entre 8 e 12.
Solução:
a) Para responder à primeira pergunta você simplesmente tem que calcular:
N (x; μ, σ)
Com x = 8, μ = 10 e σ = 2. Percebemos que é uma integral que não possui solução analítica em funções elementares, mas a solução se expressa em função da função de erro erf (x).
Por outro lado, existe a possibilidade de resolver a integral na forma numérica, que é o que muitas calculadoras, planilhas e programas de computador como o GeoGebra fazem. A figura a seguir mostra a solução numérica correspondente ao primeiro caso:
Figura 2. Densidade de probabilidade f (x; μ, σ). A área sombreada representa P (x ≤ 8). (Elaboração própria)
e a resposta é que a probabilidade de x estar abaixo de 8 é:
P (x ≤ 8) = N (x = 8; μ = 10, σ = 2) = 0,1587
b) Neste caso, pretende-se encontrar a probabilidade de a variável aleatória x estar abaixo da média, que neste caso vale 10. A resposta não requer cálculo, pois sabemos que metade dos dados estão abaixo média e a outra metade acima da média. Portanto, a resposta é:
P (x ≤ 10) = N (x = 10; μ = 10, σ = 2) = 0,5
c) Para responder a esta questão, devemos calcular N (x = 12; μ = 10, σ = 2), o que pode ser feito com uma calculadora que possui funções estatísticas ou através de um software como o GeoGebra:
Figura 3. Densidade de probabilidade f (x; μ, σ). A área sombreada representa P (x ≤ 12). (Elaboração própria)
A resposta à parte c pode ser vista na figura 3 e é:
P (x ≤ 12) = N (x = 12; μ = 10, σ = 2) = 0,8413.
d) Para encontrar a probabilidade de que a variável aleatória x esteja entre 8 e 12, podemos usar os resultados das partes a e c da seguinte forma:
P (8 ≤ x ≤ 12) = P (x ≤ 12) - P (x ≤ 8) = 0,8413 - 0,1587 = 0,6826 = 68,26%.
Exercício resolvido
O preço médio das ações de uma empresa é de $ 25 com um desvio padrão de $ 4. Determine a probabilidade de:
a) Uma ação tem um custo inferior a $ 20.
b) Isso tem um custo superior a $ 30.
c) O preço está entre $ 20 e $ 30.
Use as tabelas de distribuição normal padrão para encontrar as respostas.
Solução:
Para fazer uso das tabelas, é necessário passar para a variável z normalizada ou digitada:
$ 20 na variável normalizada é igual a z = ($ 20 - $ 25) / $ 4 = -5/4 = -1,25 e
$ 30 na variável normalizada é igual a z = ($ 30 - $ 25) / $ 4 = +5/4 = +1,25.
a) $ 20 é igual a -1,25 na variável normalizada, mas a tabela não tem valores negativos, então localizamos o valor +1,25 que resulta no valor de 0,8944.
Se 0,5 for subtraído deste valor, o resultado será a área entre 0 e 1,25 que, aliás, é idêntica (por simetria) à área entre -1,25 e 0. O resultado da subtração é 0,8944 - 0,5 = 0,3944 que é a área entre -1,25 e 0.
Mas a área de -∞ a -1,25 é de interesse, que será de 0,5 - 0,3944 = 0,1056. Conclui-se, portanto, que a probabilidade de uma ação estar abaixo de $ 20 é de 10,56%.
b) $ 30 na variável digitada z é 1,25. Para este valor, a tabela mostra o número 0,8944, que corresponde à área de -∞ a +1,25. A área entre +1,25 e + ∞ é (1 - 0,8944) = 0,1056. Em outras palavras, a probabilidade de que uma ação custe mais de $ 30 é de 10,56%.
c) A probabilidade de uma ação ter um custo entre $ 20 e $ 30 será calculada da seguinte forma:
100% -10,56% - 10,56% = 78,88%
Referências
- Estatística e probabilidade. Distribuição normal. Recuperado de: projectdescartes.org
- Geogebra. Geogebra clássica, cálculo de probabilidade. Recuperado de geogebra.org
- MathWorks. Distribuição gaussiana. Recuperado de: es.mathworks.com
- Mendenhall, W. 1981. Statistics for Management and Economics. 3º edição. Grupo Editorial Iberoamérica.
- Stat Trek. Aprenda a Estatística. Distribuição de veneno. Recuperado de: stattrek.com,
- Triola, M. 2012. Elementary Statistics. 11º. Ed. Pearson Education.
- Universidade de Vigo. Principais distribuições contínuas. Recuperado de: anapg.webs.uvigo.es
- Wikipedia. Distribuição normal. Recuperado de: es.wikipedia.org