- Como calcular o coeficiente de correlação?
- Covariância e variância
- Caso ilustrativo
- Covariância Sxy
- Desvio padrão Sx
- Desvio padrão Sy
- Coeficiente de correlação r
- Interpretação
- Regressão linear
- Exemplo
- Referências
O coeficiente de correlação nas estatísticas é um indicador que mede a tendência de duas variáveis quantitativas X e Y terem uma relação linear ou proporcional entre si.
Geralmente, os pares de variáveis X e Y são duas características da mesma população. Por exemplo, X pode ser a altura de uma pessoa e Y seu peso.
Figura 1. Coeficiente de correlação para quatro pares de dados (X, Y). Fonte: F. Zapata.
Nesse caso, o coeficiente de correlação indicaria se há ou não tendência de relação proporcional entre altura e peso em uma determinada população.
O coeficiente de correlação linear de Pearson é denotado pela letra r minúscula e seus valores mínimo e máximo são -1 e +1, respectivamente.
Um valor r = +1 indicaria que o conjunto de pares (X, Y) está perfeitamente alinhado e que quando X crescer, Y crescerá na mesma proporção. Por outro lado, se r = -1, o conjunto de pares também ficaria perfeitamente alinhado, mas neste caso quando X aumenta, Y diminui na mesma proporção.
Figura 2. Diferentes valores do coeficiente de correlação linear. Fonte: Wikimedia Commons.
Por outro lado, um valor r = 0 indicaria que não há correlação linear entre as variáveis X e Y. Enquanto um valor de r = +0,8 indicaria que os pares (X, Y) tendem a se agrupar em um lado e outro de uma certa linha.
A fórmula para calcular o coeficiente de correlação r é a seguinte:
Como calcular o coeficiente de correlação?
O coeficiente de correlação linear é uma quantidade estatística incluída em calculadoras científicas, na maioria das planilhas e em programas estatísticos.
Porém, é conveniente saber como se aplica a fórmula que a define, e para isso será mostrado um cálculo detalhado, realizado em um pequeno conjunto de dados.
E como foi dito na seção anterior, o coeficiente de correlação é a covariância Sxy dividida pelo produto do desvio padrão Sx para as variáveis X e Sy para a variável Y.
Covariância e variância
A covariância Sxy é:
Sxy = / (N-1)
Onde a soma vai de 1 a N pares de dados (Xi, Yi).
Por sua vez, o desvio padrão da variável X é a raiz quadrada da variância do conjunto de dados Xi, com i de 1 a N:
Sx = √
Da mesma forma, o desvio padrão para a variável Y é a raiz quadrada da variância do conjunto de dados Yi, com i de 1 a N:
Sy = √
Caso ilustrativo
A fim de mostrar em detalhes como calcular o coeficiente de correlação, tomaremos o seguinte conjunto de quatro pares de dados
(X, Y): {(1, 1); (2,3); (3, 6) e (4, 7)}.
Primeiro, calculamos a média aritmética para X e Y, da seguinte forma:
Em seguida, os parâmetros restantes são calculados:
Covariância Sxy
Sxy = / (4-1)
Sxy = / (3) = 10,5 / 3 = 3,5
Desvio padrão Sx
Sx = √ = √ = 1,29
Desvio padrão Sy
Sx = √ =
√ = 2,75
Coeficiente de correlação r
r = 3,5 / (1,29 * 2,75) = 0,98
Interpretação
No conjunto de dados do caso anterior, uma forte correlação linear entre as variáveis X e Y é observada, que se manifesta tanto no gráfico de dispersão (mostrado na Figura 1) quanto no coeficiente de correlação, que produziu um valor muito próximo da unidade.
Na medida em que o coeficiente de correlação é mais próximo de 1 ou -1, mais sentido faz o ajuste dos dados a uma linha, o resultado da regressão linear.
Regressão linear
A linha de regressão linear é obtida a partir do método dos mínimos quadrados. em que os parâmetros da reta de regressão são obtidos a partir da minimização da soma do quadrado da diferença entre o valor estimado de Y e o Yi dos N dados.
Por outro lado, os parâmetros aeb da linha de regressão y = a + bx, obtidos pelo método dos mínimos quadrados, são:
* b = Sxy / (Sx 2) para a inclinação
* a =
Lembre-se de que Sxy é a covariância definida acima e Sx 2 é a variância ou quadrado do desvio padrão definido acima.
Exemplo
O coeficiente de correlação é usado para determinar se existe uma correlação linear entre duas variáveis. É aplicável quando as variáveis a serem estudadas são quantitativas e, além disso, assume-se que seguem uma distribuição de tipo normal.
Temos um exemplo ilustrativo a seguir: uma medida do grau de obesidade é o índice de massa corporal, que é obtido dividindo o peso de uma pessoa em quilogramas pelo quadrado da altura da pessoa em unidades de metros ao quadrado.
Você quer saber se existe uma forte correlação entre o índice de massa corporal e a concentração de colesterol HDL no sangue, medida em milimoles por litro. Para tanto, foi realizado um estudo com 533 pessoas, que se resume no gráfico a seguir, em que cada ponto representa os dados de uma pessoa.
Figura 3. Estudo do IMC e colesterol HDL em 533 pacientes. Fonte: Instituto Aragonês de Ciências da Saúde (IACS).
A observação cuidadosa do gráfico mostra que existe uma certa tendência linear (não muito acentuada) entre a concentração de colesterol HDL e o índice de massa corporal. A medida quantitativa dessa tendência é o coeficiente de correlação, que neste caso acabou sendo r = -0,276.
Referências
- González C. Estatísticas Gerais. Recuperado de: tarwi.lamolina.edu.pe
- IACS. Instituto Aragonês de Ciências da Saúde. Recuperado de: ics-aragon.com
- Salazar C. e Castillo S. Princípios básicos de estatística. (2018). Recuperado de: dspace.uce.edu.ec
- Superprof. Coeficiente de correlação. Recuperado de: superprof.es
- USAC. Manual de estatísticas descritivas. (2011). Recuperado de: statistics.ingenieria.usac.edu.gt
- Wikipedia. Coeficiente de correlação de Pearson. Recuperado de: es.wikipedia.com.