y = variable dépendante (qu'on veut évaluer)
variables indépendantes (qui explique dépendante, prédicteurs)
démarche pour notre thématique de recherche
caractérisques
idéalement, faire revue de littérature pour construire notre modèle
In [1]:
#from statsmodels.formula.api import ols
#results = ols('num_rx ~ ridageyr', demoq).fit()
#results.summary()
b dans y = mx + b
$\beta$ : Coefficients expliquent impact de variable sur y pour chaque augmentation d' une unité de y, citeris paribus (toutes choses étant égal par ailleurs).
Erreur type du coefficient sert au calcul de T.
$\beta$ standardisé : quel est l'impact de variable quand on ajoute une unité d'écart type de y.
Permet de comparer les coefficients, regarder coefficients standardisés.
T de Student
Interprétation
Permet de conclure si variable a un impact significatif ou pas
ex.: si on a homme et femme pour chômage... sont fortement reliées (0.8 presque pareil) Identifier quelles variables, problèmes de multicolinéarité
seuil à 2 (jusqu'à 5 ça va... à 10 on a un probl.)
Modèle suffisant ou pas? $R^2$ varie de 0 à 1 : % d'explication
Data mining, on connaît pas les variables à la base, itère pour identifier...
Stepwise : permet de construire modèle pour différents secteurs géo et tester $R^2$
Pas tout le monde d'accord sur $R^2$
Si $R^2$ pas significatif (F de Fisher), rejeter le modèle. Si significatif, on garde le modèle et on l'analyse.
Si conditions pas respecter, réessayer avec un modèle modifié.
Ratio : 2 ratios à respecter
Bootstrap
Normalité
Transformation quasiment tout le temps
En science social, on observe en général tendance générale... vérifier si transformation impacte résultat.
Résidus devraient être normalement distribués.
Supprimer valeurs aberrantes
4/n ou 8/n où n est nombre d'observationsEx.: modèle de la "classe créative" de Florida expliquant croissance économique, objection : modèle tiré par valeurs aberrantes de NY, SF, LA...