H1: Hipótesis alternativa que desean demostrar. [5 puntos]
ML: Técnica a aplicar. Realizarla sobre el dataset teniendo en cuenta que no es posible obtener nuevos datos. En los casos de métodos predictivos o de clasificación, dar un idea del error que se comente con el modelo elegido sobre el dataset. Deberá interpretar los resultados de manera extensa. [5 puntos]Justificar todos los pasos realizados.
msleep
In [1]:
using RDatasets
msleep = dataset("ggplot2","msleep")
head(msleep)
Out[1]:
Javier Corvi
H1: La cantidad de hora de sueño totales del animal depende de su peso corporal.
ML: Regresión logística para lograr un clasificador de la dieta del animal dependiendo de las variables cuantitativas del dataset.
Ricardo Bayona Grimaldo
H1: La cantidad de horas de sueño de un animal está relacionado con su estado de conservación.
ML: Lograr un modelo que permita predecir la cantidad de horas de sueño REM dependiendo de la cantidad de sueño total, del peso del animal y del peso de su cerebro.
Oscar Santapá
H1: La dieta del animal diferencia a su cantidad de horas de sueño.
ML: Regresión logística para lograr un clasificador de la dieta del animal dependiendo de las variables cuantitativas del dataset.
Rodrigo Bogado
H1: Los animales con un mayor tamaño corporal duermen más horas.
ML: Lograr un modelo que permita predecir la cantidad de horas de sueño REM dependiendo de la cantidad de sueño total, del peso del animal y del peso de su cerebro.
Cesar Danerí
H1: La cantidad de horas de sueño de un animal está relacionado con su estado de conservación.
ML: Lograr un modelo que permita predecir la cantidad de horas de sueño REM dependiendo de la cantidad de sueño total, del peso del animal y del peso de su cerebro.
Rosa Amarilla
H1: La cantidad de horas de sueño de un animal está relacionado con su dieta.
ML: Regresión logística para lograr un clasificador de la dieta del animal dependiendo de las variables cuantitativas del dataset.
Ulises Mancini
H1: Los animales con cerebros más grandes pasan más horas en sueño REM.
ML: Lograr un modelo que permita predecir la cantidad de horas de sueño REM dependiendo de la cantidad de sueño total, del peso del animal y del peso de su cerebro.
In [5]:
using Plots, StatPlots
subset = msleep[:,[:BodyWt, :BrainWt]]
subset[isnan(subset[:BodyWt]), :BodyWt] = NA
subset[isnan(subset[:BrainWt]), :BrainWt] = NA
complete_cases!(subset)
scatter(subset, :BodyWt, :BrainWt, scale=:log10, legend=:none)
Out[5]:
El coeficiente de correlación lineal de Pearson entre el logaritmo del peso de un animal y el logaritmo del peso de su cerebro es (la relación entre las variables es lineal en escala logarítmica):
In [6]:
r = cor(log(subset[:BodyWt]), log(subset[:BrainWt]))
Out[6]:
Dado que la hipótesis nula es la ausencia de correlación (r == 0.0
), y que el siguiente estadístico sigue una distribución T de Student con n-2
grados de libertdad (siendo n
el número de puntos) bajo esa H0, determinar el P value asociado a la H1: r != 0.0