- Fórmulas e equações
- Variáveis estatísticas importantes
- Modelo e propriedades
- Principais propriedades da distribuição hipergeométrica
- Aproximação usando a distribuição binomial
- Exemplo 2
- Exercícios resolvidos
- Exercício 1
- Solução
- Exercício 2
- Solução
- Exercício 3
- Solução para
- Solução c
- Referências
A distribuição hipergeométrica é uma função estatística discreta, adequada para calcular a probabilidade em experimentos aleatórios com dois resultados possíveis. A condição que se exige para aplicá-lo é que sejam pequenas populações, nas quais as retiradas não sejam repostas e as probabilidades não sejam constantes.
Portanto, quando um elemento da população é escolhido para saber o resultado (verdadeiro ou falso) de uma determinada característica, esse mesmo elemento não pode ser escolhido novamente.
Figura 1. Em uma população de parafusos como essa, certamente existem amostras com defeito. Fonte: Pixabay.
Certamente, o próximo elemento escolhido tem mais probabilidade de obter um resultado verdadeiro, se o elemento anterior tiver um resultado negativo. Isso significa que a probabilidade varia conforme os elementos são extraídos da amostra.
As principais aplicações da distribuição hipergeométrica são: controle de qualidade em processos com pouca população e cálculo de probabilidades em jogos de azar.
Já a função matemática que define a distribuição hipergeométrica é constituída por três parâmetros, a saber:
- Número de elementos da população (N)
- Tamanho da amostra (m)
- Número de eventos em toda a população com resultado favorável (ou desfavorável) da característica estudada (n).
Fórmulas e equações
A fórmula para a distribuição hipergeométrica dá a probabilidade P de que ocorram x casos favoráveis de uma determinada característica. A maneira de escrever matematicamente, com base nos números combinatórios, é:
Na expressão anterior, N, n e m são parâmetros e x é a própria variável.
- A população total é N.
- O número de resultados positivos de uma determinada característica binária em relação à população total é n.
-Quantidade de itens de amostra é m.
Nesse caso, X é uma variável aleatória que assume o valor xe P (x) indica a probabilidade de ocorrência de x casos favoráveis da característica estudada.
Variáveis estatísticas importantes
Outras variáveis estatísticas para a distribuição hipergeométrica são:
- Média μ = m * n / N
- Variância σ ^ 2 = m * (n / N) * (1-n / N) * (Nm) / (N-1)
- Desvio padrão σ que é a raiz quadrada da variância.
Modelo e propriedades
Para chegar ao modelo da distribuição hipergeométrica, partimos da probabilidade de obter x casos favoráveis em uma amostra de tamanho m. Esta amostra contém elementos que estão de acordo com a propriedade em estudo e elementos que não estão.
Lembre-se de que n representa o número de casos favoráveis na população total de N elementos. Então, a probabilidade seria calculada assim:
Expressando o acima na forma de números combinatórios, o seguinte modelo de distribuição de probabilidade é alcançado:
Principais propriedades da distribuição hipergeométrica
São as seguintes:
- A amostra deve ser sempre pequena, mesmo que a população seja grande.
- Os elementos da amostra são extraídos um a um, sem incorporá-los de volta à população.
- A propriedade a ser estudada é binária, ou seja, pode assumir apenas dois valores: 1 ou 0, ou verdadeiro ou falso.
Em cada etapa de extração de elemento, a probabilidade muda dependendo dos resultados anteriores.
Aproximação usando a distribuição binomial
Outra propriedade da distribuição hipergeométrica é que ela pode ser aproximada pela distribuição binomial, denotada como Bi, desde que a população N seja grande e pelo menos 10 vezes maior que a amostra m. Nesse caso, seria assim:
A probabilidade de que x = 3 parafusos na amostra sejam defeituosos é: P (500, 5, 60, 3) = 0,0129.
Por sua vez, a probabilidade de que x = 4 parafusos em sessenta da amostra sejam defeituosos é: P (500, 5, 60; 4) = 0,0008.
Finalmente, a probabilidade de que x = 5 parafusos nessa amostra sejam defeituosos é: P (500, 5, 60; 5) = 0.
Mas se você quiser saber a probabilidade de que nessa amostra haja mais de 3 parafusos com defeito, você deve obter a probabilidade cumulativa, adicionando:
Este exemplo é ilustrado na figura 2, obtido por meio do GeoGebra, um software livre amplamente utilizado em escolas, institutos e universidades.
Figura 2. Exemplo de distribuição hipergeométrica. Preparado por F. Zapata com GeoGebra.
Exemplo 2
Um deck espanhol tem 40 cartas, das quais 10 são douradas e as 30 restantes não. Suponha que 7 cartas sejam tiradas aleatoriamente desse baralho, as quais não são reincorporadas ao baralho.
Se X é o número de ouros presentes nas 7 cartas sorteadas, então a probabilidade de ter x ouros em uma retirada de 7 cartas é dada pela distribuição hipergeométrica P (40,10,7; x).
Vamos ver assim: para calcular a probabilidade de ter 4 ouros em um sorteio de 7 cartas, usamos a fórmula da distribuição hipergeométrica com os seguintes valores:
E o resultado é: 4,57% de probabilidade.
Mas se você quiser saber a probabilidade de obter mais de 4 cartas, então você deve adicionar:
Exercícios resolvidos
O seguinte conjunto de exercícios tem o objetivo de ilustrar e assimilar os conceitos apresentados neste artigo. É importante que o leitor tente resolvê-los sozinho, antes de olhar para a solução.
Exercício 1
Uma fábrica de preservativos descobriu que de cada 1000 preservativos produzidos por uma determinada máquina, 5 estão com defeito. Para controle de qualidade, são retirados 100 preservativos ao acaso e o lote é rejeitado caso haja pelo menos um ou mais com defeito. Responda:
a) Qual é a possibilidade de que um lote de 100 seja descartado?
b) Este critério de controle de qualidade é eficiente?
Solução
Nesse caso, números combinatórios muito grandes aparecerão. O cálculo é difícil, a menos que você tenha um pacote de software adequado.
Mas por ser uma grande população e a amostra ser dez vezes menor que a população total, é possível usar a aproximação da distribuição hipergeométrica pela distribuição binomial:
Na expressão acima, C (100, x) é um número combinatório. Então, a probabilidade de ter mais de um defeito será calculada assim:
É uma excelente aproximação, se comparada ao valor obtido pela aplicação da distribuição hipergeométrica: 0,4102
Pode-se dizer que, com 40% de probabilidade, um lote de 100 profiláticos deve ser descartado, o que não é muito eficiente.
Porém, sendo um pouco menos exigente no processo de controle de qualidade e descartando o lote de 100 apenas se houver dois ou mais defeituosos, a probabilidade de descarte do lote cairia para apenas 8%.
Exercício 2
Uma máquina de blocos de plástico funciona de forma que a cada 10 peças uma sai deformada. Em uma amostra de 5 peças, qual a probabilidade de que apenas uma peça esteja com defeito?
Solução
População: N = 10
Número n de defeituosos para cada N: n = 1
Tamanho da amostra: m = 5
Portanto, existe uma probabilidade de 50% de que em uma amostra de 5, um bloco seja deformado.
Exercício 3
Em uma reunião de jovens recém-formados, há 7 senhoras e 6 senhores. Entre as meninas, 4 estudam humanidades e 3 ciências. No grupo masculino, 1 estuda humanidades e 5 ciências. Calcule o seguinte:
a) Escolher três meninas ao acaso: qual a probabilidade de todas elas estudarem ciências humanas?
b) Se três participantes da reunião de amigos forem escolhidos ao acaso: Qual é a possibilidade de que três deles, independentemente do sexo, estudem ciências nos três, ou ciências humanas também nos três?
c) Agora selecione dois amigos ao acaso e chame x a variável aleatória "número daqueles que estudam humanidades". Entre os dois escolhidos, determine a média ou valor esperado de xe a variância σ ^ 2.
Solução para
Os valores a serem usados agora são:
-População: N = 14
-Quantidade que estuda letras é: n = 6 e o
-Tamanho da amostra: m = 3.
- Número de amigos estudando ciências humanas: x
De acordo com isso, x = 3 significa que todos os três estudam humanidades, mas x = 0 significa que nenhum estuda humanidades. A probabilidade de que todos os três estudem o mesmo é dada pela soma:
P (14, 6, 3, x = 0) + P (14, 6, 3, x = 3) = 0,0560 + 0,1539 = 0,2099
Então, temos uma probabilidade de 21% de que três participantes da reunião, escolhidos aleatoriamente, estudem a mesma coisa.
Solução c
Aqui temos os seguintes valores:
N = 14 população total de amigos, n = 6 número total na população estudando humanidades, o tamanho da amostra é m = 2.
A esperança é:
E (x) = m * (n / N) = 2 * (6/14) = 0,8572
E a variação:
σ (x) ^ 2 = m * (n / N) * (1-n / N) * (Nm) / (N-1) = 2 * (6/14) * (1-6 / 14) * (14-2) / (14-1) =
= 2 * (6/14) * (1-6 / 14) * (14-2) / (14-1) = 2 * (3/7) * (1-3 / 7) * (12) / (13) = 0,4521
Referências
- Distribuições discretas de probabilidade. Recuperado de: biplot.usal.es
- Estatística e probabilidade. Distribuição hipergeométrica. Recuperado de: projectdescartes.org
- CDPYE-UGR. Distribuição hipergeométrica. Recuperado de: ugr.es
- Geogebra. Geogebra clássica, cálculo de probabilidade. Recuperado de geogebra.org
- Tente fácil. Resolvidos problemas de distribuição hipergeométrica. Recuperado de: probafacil.com
- Minitab. Distribuição hipergeométrica. Recuperado de: support.minitab.com
- Universidade de Vigo. Principais distribuições discretas. Recuperado de: anapg.webs.uvigo.es
- Vitutor. Estatística e combinatória. Recuperado de: vitutor.net
- Weisstein, Eric W. Hypergeometric Distribution. Recuperado de: mathworld.wolfram.com
- Wikipedia. Distribuição hipergeométrica. Recuperado de: es.wikipedia.com