Séance 5 - Régression multiples

En 2 séances

Principes de base

y = variable dépendante (qu'on veut évaluer)

  • variable continue ex.:
  • revenu

variables indépendantes (qui explique dépendante, prédicteurs)

  • âge
  • scolarité
  • emploi

démarche pour notre thématique de recherche

  1. quelles observations
    • valeurs des (partie de) propriétés
    • superficie des propriétés
    • localisation des propriétés
  2. quelles var dépendante
  3. quelles var indépendantes
    • Problème d'endogénéité : on explique une variable par une de ses composantes (ex.: expliquer faible revenu par revenu... tautologie)

caractérisques

  • environnement physique
  • environnement social

idéalement, faire revue de littérature pour construire notre modèle

Interprétation des sorties


In [1]:
#from statsmodels.formula.api import ols

#results = ols('num_rx ~ ridageyr', demoq).fit()
#results.summary()

Constante

b dans y = mx + b

Coefficients

$\beta$ : Coefficients expliquent impact de variable sur y pour chaque augmentation d' une unité de y, citeris paribus (toutes choses étant égal par ailleurs).

Erreur type du coefficient sert au calcul de T.

Coefficients standardisés

$\beta$ standardisé : quel est l'impact de variable quand on ajoute une unité d'écart type de y.

Permet de comparer les coefficients, regarder coefficients standardisés.

Valeur de T

T de Student

  • $\beta$ / erreur type
  • table T
    • degré de liberté (n - p - 1) : 506 -6 -1 = 499
      • méthode pour calculer degré de liberté dépend de table : table T ≠ table F
    • précision : ex. 95%

Interprétation

  • Seuil de signification : ex.: 0,05
  • Comparer valeur absolue de T (valeur observée) au seuil du % voulu (valeur théorique provenant de la table)
    • apprendre par coeur les valeurs théoriques (pour df infini)

Permet de conclure si variable a un impact significatif ou pas

Facteur d'inflation de la variance (VIF)

ex.: si on a homme et femme pour chômage... sont fortement reliées (0.8 presque pareil) Identifier quelles variables, problèmes de multicolinéarité

seuil à 2 (jusqu'à 5 ça va... à 10 on a un probl.)

Coefficient de corrélation multiple ($R^2$)

Modèle suffisant ou pas? $R^2$ varie de 0 à 1 : % d'explication

Data mining, on connaît pas les variables à la base, itère pour identifier...

  • si on n'a pas d' hypothèses fortes à la base possible qu'introduise biais, variable n'ayant aucun rapport (de causalité)

Stepwise : permet de construire modèle pour différents secteurs géo et tester $R^2$

Coefficient de corrélation multiple ajusté

Pas tout le monde d'accord sur $R^2$

  • varie fonction du nombre d'observation
  • varie fonction du nombre de variables indépendantes

Significativité du coefficient de corrélation

Si $R^2$ pas significatif (F de Fisher), rejeter le modèle. Si significatif, on garde le modèle et on l'analyse.

Conditions d'application

Si conditions pas respecter, réessayer avec un modèle modifié.

Nombre d'observations

Ratio : 2 ratios à respecter

  • $R^2$ : corrélation multiple
  • $\beta$ : variable indépendante

Bootstrap

  • quand observations proches de ratios (peu d'observations)
    • bootstrap = tirer au hasard échantillon et vérifier $R^2$ pour voir si varie

Normalité

Normalité

  • kurtosis, skewness
  • test k-s
  • histogramme + normalité

Transformation quasiment tout le temps

  • revenus : log
  • densité de pop : log

En science social, on observe en général tendance générale... vérifier si transformation impacte résultat.

Analyse des résidus

Normalité des résidus

Résidus devraient être normalement distribués.

Non-linéarité résidus avec les valeus prédites

Homoscédasticité

Absences de multicolinéarité excessive

Absence de valeurs aberrantes

Supprimer valeurs aberrantes

  • calculer distance de Cook
  • critère 4/n ou 8/nn est nombre d'observations

Ex.: modèle de la "classe créative" de Florida expliquant croissance économique, objection : modèle tiré par valeurs aberrantes de NY, SF, LA...