H1: Hipótesis alternativa que desean demostrar. [5 puntos]
ML: Técnica a aplicar. Realizarla sobre el dataset teniendo en cuenta que no es posible obtener nuevos datos. En los casos de métodos predictivos o de clasificación, dar un idea del error que se comente con el modelo elegido sobre el dataset. Deberá interpretar los resultados de manera extensa. [5 puntos]

Justificar todos los pasos realizados.

msleep

  • Name Common name
  • Genus
  • Vore Carnivore, omnivore or herbivore?
  • Order
  • Conservation The conservation status of the animal
  • SleepTotal Total amount of sleep, in hours
  • SleepRem REM sleep, in hours
  • SleepCycle Length of sleep cycle, in hours
  • Awake Amount of time spent awake, in hours
  • BrainWt Brain weight in kilograms
  • BodyWt Body weight in kilograms

In [1]:
using RDatasets
msleep = dataset("ggplot2","msleep")
head(msleep)


Out[1]:
NameGenusVoreOrderConservationSleepTotalSleepRemSleepCycleAwakeBrainWtBodyWt
1CheetahAcinonyxcarniCarnivoralc12.1NANA11.9NA50.0
2Owl monkeyAotusomniPrimatesNA17.01.8NA7.00.01550.48
3Mountain beaverAplodontiaherbiRodentiant14.42.4NA9.6NA1.35
4Greater short-tailed shrewBlarinaomniSoricomorphalc14.92.30.1333333339.10.000290.019
5CowBosherbiArtiodactyladomesticated4.00.70.66666666720.00.423600.0
6Three-toed slothBradypusherbiPilosaNA14.42.20.7666666679.6NA3.85

Javier Corvi

H1: La cantidad de hora de sueño totales del animal depende de su peso corporal.
ML: Regresión logística para lograr un clasificador de la dieta del animal dependiendo de las variables cuantitativas del dataset.

Ricardo Bayona Grimaldo

H1: La cantidad de horas de sueño de un animal está relacionado con su estado de conservación.
ML: Lograr un modelo que permita predecir la cantidad de horas de sueño REM dependiendo de la cantidad de sueño total, del peso del animal y del peso de su cerebro.

Oscar Santapá

H1: La dieta del animal diferencia a su cantidad de horas de sueño.
ML: Regresión logística para lograr un clasificador de la dieta del animal dependiendo de las variables cuantitativas del dataset.

Rodrigo Bogado

H1: Los animales con un mayor tamaño corporal duermen más horas.
ML: Lograr un modelo que permita predecir la cantidad de horas de sueño REM dependiendo de la cantidad de sueño total, del peso del animal y del peso de su cerebro.

Cesar Danerí

H1: La cantidad de horas de sueño de un animal está relacionado con su estado de conservación.
ML: Lograr un modelo que permita predecir la cantidad de horas de sueño REM dependiendo de la cantidad de sueño total, del peso del animal y del peso de su cerebro.

Rosa Amarilla

H1: La cantidad de horas de sueño de un animal está relacionado con su dieta.
ML: Regresión logística para lograr un clasificador de la dieta del animal dependiendo de las variables cuantitativas del dataset.

Ulises Mancini

H1: Los animales con cerebros más grandes pasan más horas en sueño REM.
ML: Lograr un modelo que permita predecir la cantidad de horas de sueño REM dependiendo de la cantidad de sueño total, del peso del animal y del peso de su cerebro.

Bonus [2 punto]:


In [5]:
using Plots, StatPlots

subset = msleep[:,[:BodyWt, :BrainWt]]

subset[isnan(subset[:BodyWt]), :BodyWt] = NA
subset[isnan(subset[:BrainWt]), :BrainWt] = NA
complete_cases!(subset)

scatter(subset, :BodyWt, :BrainWt, scale=:log10, legend=:none)


Out[5]:

El coeficiente de correlación lineal de Pearson entre el logaritmo del peso de un animal y el logaritmo del peso de su cerebro es (la relación entre las variables es lineal en escala logarítmica):


In [6]:
r = cor(log(subset[:BodyWt]), log(subset[:BrainWt]))


Out[6]:
0.9653246165758778

Dado que la hipótesis nula es la ausencia de correlación (r == 0.0), y que el siguiente estadístico sigue una distribución T de Student con n-2 grados de libertdad (siendo n el número de puntos) bajo esa H0, determinar el P value asociado a la H1: r != 0.0

$$ t = r\sqrt{\frac{n-2}{1-r^{2}}} $$