Corrélation statistique

Séparateur: espace(s). Séparateur décimal: point


Cet outil calcule en ligne les différent types de corrélation de deux séries statistiques. Calculez la covariance (échantillon), la covariance (population), le coefficient de corrélation (ro), le coefficient de détermination (R²), la corrélation de Kendall, la corrélation de Spearman.

Saisir les éléments des séries statistiques séparés par un espace.

Covariance

La covariance de deux séries statistiques est une mesure statistique qui permet de quantifier leur indépendance.

Calcul de la covariance à partir de la population entière
Soit deux séries X et Y,

`X = {x_1, x_2, ..., x_N}`
`Y = {y_1, y_2, ..., y_N}`
On note `bar x` la moyenne arithmétique de la série X soit, `bar x = 1/N.sum_{i=1}^{i=N}x_i`

On note `bar y` la moyenne arithmétique de la série Y soit, `bar y = 1/N.sum_{i=1}^{i=N}y_i`

La covariance des séries X et Y peut être calculée comme suit :

`\sigma _{xy} = \frac{1}{N}sum_{i=1}^{i=N} (x_i - bar x) (y_i - bar y)`

Calcul de la covariance à partir d'un échantillon de la population
Dans ce cas, on ne dispose pas des valeurs pour la population entière mais seulement pour un échantillon (une partie de la population). On utilise l'estimateur suivant afin d'extrapoler la covariance 'échantillon' à la population: Soit deux séries X et Y représentant les données sur un échantillon de la population,

`X={x_1,x_2,...,x_n}`
`Y={y_1,y_2,...,y_n}`

On note `bar x` et `bar y` les moyennes des deux échantillons soit,

`bar x = 1/n.sum_{i=1}^{i=n}x_i`

`bar y = 1/n.sum_{i=1}^{i=n}y_i`

L'estimateur sans biais de la covariance sur la population entière est :

`\sigma _{xy} = \frac{1}{n-1}sum_{i=1}^{i=n} (x_i - bar x) (y_i - bar y)`

Coefficient de corrélation de Pearson

Ce qu'on appelle 'corrélation' en statistiques est en réalité un coefficient de corrélation linéaire qui est égal au quotient de leur covariance par le produit de leurs écarts types.

Soit deux séries X et Y,

`X = {x_1, x_2, ..., x_N}`
`Y = {y_1, y_2, ..., y_N}`
On note `bar x` la moyenne arithmétique de la série X soit, `bar x = 1/N.sum_{i=1}^{i=N}x_i`

On note `bar y` la moyenne arithmétique de la série Y soit, `bar y = 1/N.sum_{i=1}^{i=N}y_i`

Le coefficient de corrélation des séries X et Y peut être calculée comme suit :

`r = \frac{sum_{i=1}^{i=N} (x_i - bar x) (y_i - bar y)}{sqrt(sum_{i=1}^{i=N} (x_i - bar x)^2) . sqrt(sum_{i=1}^{i=N} (y_i - bar y)^2)}`

Coefficient de détermination R²

Le coefficient de détermination est une indication sur la qualité de la prédiction d'une régression linéaire.

Comment calculer le coefficient de détermination ?

Soit une série `X = {x_1, x_2, ..., x_N}`

On note `bar x` la moyenne arithmétique de la série X soit, `bar x = 1/N.sum_{i=1}^{i=N}x_i`

Le coefficient de détermination de la série X peut être calculée comme suit :

`R^2 = 1 - \frac{sum_{i=1}^{i=N} (x_i - hat x_i)^2}{sum_{i=1}^{i=N} (x_i - bar x)^2}`

`{hat x_1, hat x_2,..., hat x_N}` étant les valeurs prédites par la régression linéaire de la série X.

Voir aussi

Ecart type
Moyenne arithmétique
Régression linéaire