- Como calcular o coeficiente de determinação?
- Caso ilustrativo
- Interpretação
- Exemplos
- - Exemplo 1
- Solução
- - Exemplo 2
- Solução
- - Exemplo 3
- Solução
- Comparação de ajuste
- Conclusões
- Referências
O coeficiente de determinação é um número entre 0 e 1 que representa a fração de pontos (X, Y) que segue a linha de regressão de ajuste de um conjunto de dados com duas variáveis.
Também é conhecido como ajuste perfeito e é denotado por R 2. Para calculá-lo, é considerado o quociente entre a variância dos dados estimatedi estimados pelo modelo de regressão e a variância dos dados Yi correspondentes a cada Xi dos dados.
R 2 = Sŷ / Sy
Figura 1. Coeficiente de correlação para quatro pares de dados. Fonte: F. Zapata.
Se 100% dos dados estiverem na linha da função de regressão, o coeficiente de determinação será 1.
Pelo contrário, se para um conjunto de dados e uma determinada função de ajuste o coeficiente R 2 for igual a 0,5, então pode-se dizer que o ajuste é 50% satisfatório ou bom.
Da mesma forma, quando o modelo de regressão fornece valores de R 2 menores que 0,5, isso indica que a função de ajuste escolhida não se adapta satisfatoriamente aos dados, portanto é necessário buscar outra função de ajuste.
E quando a covariância ou o coeficiente de correlação tende a zero, então as variáveis X e Y nos dados não estão relacionadas e, portanto, R 2 também tenderá a zero.
Como calcular o coeficiente de determinação?
Na seção anterior foi dito que o coeficiente de determinação é calculado encontrando o quociente entre as variâncias:
-Estimado pela função de regressão da variável Y
-A da variável Yi correspondente a cada uma das variáveis Xi dos N pares de dados.
Expresso matematicamente, é assim:
R 2 = Sŷ / Sy
Dessa fórmula, segue-se que R 2 representa a proporção da variância explicada pelo modelo de regressão. Alternativamente, R 2 pode ser calculado usando a seguinte fórmula, totalmente equivalente à anterior:
R 2 = 1 - (Sε / Sy)
Onde Sε representa a variância dos resíduos εi = Ŷi - Yi, enquanto Sy é a variância do conjunto de valores Yi dos dados. Para determinar Ŷi é aplicada a função de regressão, o que significa afirmar que Ŷi = f (Xi).
A variância do conjunto de dados Yi, com i de 1 a N é calculada desta forma:
Sy =
E então proceda de forma semelhante para Sŷ ou Sε.
Caso ilustrativo
Para mostrar os detalhes de como é feito o cálculo do coeficiente de determinação, tomaremos o seguinte conjunto de quatro pares de dados:
(X, Y): {(1, 1); (2,3); (3, 6) e (4, 7)}.
Um ajuste de regressão linear é proposto para este conjunto de dados, que é obtido usando o método dos mínimos quadrados:
f (x) = 2,1 x - 1
Aplicando esta função de ajuste, os torques são obtidos:
(X, Ŷ): {(1, 1,1); (2, 3,2); (3, 5.3) e (4, 7.4)}.
Em seguida, calculamos a média aritmética para X e Y:
Variance Sy
Sy = / (4-1) =
= = 7.583
Variância Sŷ
Sŷ = / (4-1) =
= = 7,35
Coeficiente de determinação R 2
R 2 = SY / Sy = 7,35 / 7,58 = 0,97
Interpretação
O coeficiente de determinação para o caso ilustrativo considerado no segmento anterior resultou em 0,98. Em outras palavras, o ajuste linear por meio da função:
f (x) = 2,1x - 1
É 98% confiável para explicar os dados com os quais foi obtido pelo método dos mínimos quadrados.
Além do coeficiente de determinação, existe o coeficiente de correlação linear ou também conhecido como coeficiente de Pearson. Este coeficiente, denotado como r, é calculado pela seguinte relação:
r = Sxy / (Sx Sy)
Aqui, o numerador representa a covariância entre as variáveis X e Y, enquanto o denominador é o produto do desvio padrão da variável X e do desvio padrão da variável Y.
O coeficiente de Pearson pode assumir valores entre -1 e +1. Quando esse coeficiente tende a +1, há uma correlação linear direta entre X e Y. Se, em vez disso, tende a -1, há uma correlação linear, mas quando X cresce, Y diminui. Por fim, está próximo de 0, não há correlação entre as duas variáveis.
Deve-se notar que o coeficiente de determinação coincide com o quadrado do coeficiente de Pearson, apenas quando o primeiro foi calculado com base em um ajuste linear, mas essa igualdade não é válida para outros ajustes não lineares.
Exemplos
- Exemplo 1
Um grupo de alunos do ensino médio decidiu determinar uma lei empírica para o período de um pêndulo em função de seu comprimento. Para atingir este objetivo, realizam uma série de medições em que medem o tempo de oscilação de um pêndulo para diferentes comprimentos obtendo os seguintes valores:
Comprimento (m) | Período (s) |
---|---|
0,1 | 0,6 |
0,4 | 1,31 |
0,7 | 1,78 |
1 | 1,93 |
1,3 | 2,19 |
1,6 | 2,66 |
1,9 | 2,77 |
3 | 3,62 |
É solicitado fazer um gráfico de dispersão dos dados e executar um ajuste linear por meio de regressão. Além disso, mostre a equação de regressão e seu coeficiente de determinação.
Solução
Figura 2. Gráfico de solução para o exercício 1. Fonte: F. Zapata.
Um coeficiente de determinação bastante alto (95%) pode ser observado, então pode-se pensar que o ajuste linear é ótimo. No entanto, se os pontos forem vistos juntos, eles parecem ter uma tendência a se curvar para baixo. Este detalhe não está contemplado no modelo linear.
- Exemplo 2
Para os mesmos dados do Exemplo 1, faça um gráfico de dispersão dos dados. Nesta ocasião, ao contrário do exemplo 1, um ajuste de regressão é solicitado usando uma função potencial.
Figura 3. Gráfico de solução do exercício 2. Fonte: F. Zapata.
Mostre também a função de ajuste e seu coeficiente de determinação R 2.
Solução
A função potencial tem a forma f (x) = Ax B, onde A e B são constantes determinadas pelo método dos mínimos quadrados.
A figura anterior mostra a função potencial e seus parâmetros, bem como o coeficiente de determinação com um valor muito alto de 99%. Observe que os dados seguem a curvatura da linha de tendência.
- Exemplo 3
Usando os mesmos dados do exemplo 1 e do exemplo 2, execute um ajuste polinomial de segundo grau. Mostre o gráfico, o polinômio de ajuste e o coeficiente de determinação correspondente R 2.
Solução
Figura 4. Gráfico de solução para o exercício 3. Fonte: F. Zapata.
Com o ajuste polinomial de segundo grau, você pode ver uma linha de tendência que se ajusta bem à curvatura dos dados. Além disso, o coeficiente de determinação está acima do ajuste linear e abaixo do ajuste potencial.
Comparação de ajuste
Dos três ajustes mostrados, aquele com o maior coeficiente de determinação é o ajuste potencial (exemplo 2).
O ajuste potencial coincide com a teoria física do pêndulo, que, como se sabe, estabelece que o período de um pêndulo é proporcional à raiz quadrada de seu comprimento, sendo a constante de proporcionalidade 2π / √g onde g é a aceleração da gravidade.
Esse tipo de ajuste de potencial não apenas possui o maior coeficiente de determinação, mas o expoente e a constante de proporcionalidade correspondem ao modelo físico.
Conclusões
-O ajuste de regressão determina os parâmetros da função que visa explicar os dados usando o método dos mínimos quadrados. Este método consiste em minimizar a soma da diferença quadrática entre o valor de ajuste Y e o valor Yi dos dados para os valores Xi dos dados. Isso determina os parâmetros da função de ajuste.
-Como vimos, a função de ajuste mais comum é a linha, mas não é a única, pois os ajustes também podem ser polinomiais, potenciais, exponenciais, logarítmicos e outros.
- Em qualquer caso, o coeficiente de determinação depende dos dados e do tipo de ajuste e é uma indicação da bondade do ajuste aplicado.
-Finalmente, o coeficiente de determinação indica a porcentagem da variabilidade total entre o valor Y dos dados em relação ao valor Ŷ do ajuste para o X dado.
Referências
- González C. Estatísticas Gerais. Recuperado de: tarwi.lamolina.edu.pe
- IACS. Instituto Aragonês de Ciências da Saúde. Recuperado de: ics-aragon.com
- Salazar C. e Castillo S. Princípios básicos de estatística. (2018). Recuperado de: dspace.uce.edu.ec
- Superprof. Coeficiente de determinação. Recuperado de: superprof.es
- USAC. Manual de estatísticas descritivas. (2011). Recuperado de: statistics.ingenieria.usac.edu.gt.
- Wikipedia. Coeficiente de determinação. Recuperado de: es.wikipedia.com.