Séance 2 - Analyse univariée

Tendance centrale

  • mode
  • moyenne
  • médiane

Position

  • quantiles

Dispersion

  • intervalle interquartile
  • variance
  • écart-type
  • coefficient de variation
    • standardise l'écart type (on peut comparer la variance de variable indépendamment des valeurs)

Forme

  • distribution normale
    • skweness=0, kurtosis=0
    • approche pour tester si distribution normale
      • histogramme
      • check skewness + kurtosis
      • test Kolmogorov-Smirnov (K-Smirnov)
    • on peut normaliser en transformant la variable pour appliquer des méthodes qui exigent distribution normale
  • coeff dissymétrie : skewness
    • asymétrie négative (à droite)
    • asymétrie positive (à gauche)
  • coeff aplatissement : kurtosis
  • test K-Smirnov
    • donne 2 outputs : K-S, P
    • P est un % (d'erreur) disant si la valeur K-S est significative ou pas

Transformation de variable

Variables anormalement distribuées

  • normaliser, remède à
    • outliers
    • probl normalité
    • probl linéarité
    • probl homoscedasticity
  • vérifier normalité après transformation
  • méthode pour normaliser
    • log ou sqrt
    • 2 = asymétrie modérée
    • 5 = asymétrie importante

Variables centrées et réduites (z-score)

  • centrage
  • réduction