Régression linéaire

Séparateur: espace(s). Séparateur décimal: point
utilisé si choix 'Estimer y0 pour x0'


Cet outil calcule en ligne une régression linéaire statistique. Les éléments suivants sont calculés : la droite de régression linéaire, la somme des carrés totale (SCT), la somme des carrés expliquée (SCE), la somme des carrés résiduelle (SCR), la moyenne des carrés des résidus, les degrés de liberté, l'écart type des résidus, le coefficient de corrélation, le coefficient de détermination, la variance de regression, l'intervalle de confiance à 95% et enfin l'intervalle de prévision à 95%.

Saisir les éléments des deux séries statistiques séparés par un espace.

Droite de régression linéaire simple

Le but de la régression linéaire simple est d'établir une relation linéaire entre d'une part une variable Y dite dépendante (ou expliquée ou endogène ou réponse) et d'autre part, une variable X dite indépendante (ou explicative ou exogène ou prédicteur).

Représentation graphique d'une régression linéaire:

Variable `X = {x_1, x_2,...,x_n}` en axe des abcisses (x)
Variable `Y = {y_1, y_2,...,y_n}` en axe des ordonnées (y)

regression-lineaire

Faire une régression linéaire revient à estimer les deux paramètres `beta_0` et `beta_1` qui définissent la droite de régression :

`y = beta_1 . x + beta_0`

La méthode la plus utilisée pour estimer `beta_0` et `beta_1` est la méthode des moindres carrés.

Estimateurs pour `beta_0` et `beta_1`:

On note `bar x` la moyenne arithmétique de la série X soit, `bar x = 1/N.sum_{i=1}^{i=N}x_i`

On note `bar y` la moyenne arithmétique de la série Y soit, `bar y = 1/N.sum_{i=1}^{i=N}y_i`

`hat beta_1 = \frac{\text{cov}(X,Y)}{\text{var}(X)} = \frac{sum_{i=1}^{i=n} (x_i - bar x) (y_i - bar y)}{sum_{i=1}^{i=n} (x_i - bar x)^2}`

`hat beta_0 = bar y - hat beta_1 . bar x`

Estimer y0 pour x0

Une fois la droite de régession définie comme expliqué ci-dessus, on peut alors estimer la variable Y pour n'importe quel valeur de la variable X en utilisant l'équation de la droite et les estimateurs de `beta_1` et `beta_0` :

`hat y_0 = hat beta_1 . x_0 + hat beta_0`

SCT, SCE, SCR et coefficient de détermination (R²)

Pour qualifier la qualité de la régression linéaire c'est à dire sa capacité à prédire la variable dépendante (Y), on utilise plusieurs paramètres dont,

- SCE ou Somme des Carrés Expliqués : c'est la variation expliquée par la régression. Elle est calculée comme suit,

`SCE = sum_{i=1}^{i=n} (hat y_i - bar y)^2`

- SCR ou Somme des Carrés Résiduelle : c'est la variation non expliquée par la régression. Elle est calculée comme suit,

`SCR = sum_{i=1}^{i=n} (y_i - hat y_i)^2`

- SCT ou Somme des Carrés Totale : c'est la variation totale. Elle est calculée comme suit,

`SCT = SCE + SCR = sum_{i=1}^{i=n} (y_i - bar y)^2`

- R² ou coefficient de détermination défini par,

`R^2 = \frac{SCE}{SCT} = 1 - \frac{SCR}{SCT}`

On constate que `0 <= R^2 <= 1`.

Plus R² est proche de 1, plus la qualité de la prédiction par le modèle de régression linéaire est bonne : le nuage de points est resserré autour de la droite . A l'inverse, plus R² est proche de 0, plus la qualité de la prédiction est mauvaise. un R² égal à 1 est synonymme de prédiction parfaite.

Voir aussi

Ecart type
Moyenne arithmétique