Predicción de gastos médicos

Juan David Velásquez Henao
jdvelasq@unal.edu.co
Universidad Nacional de Colombia, Sede Medellín
Facultad de Minas
Medellín, Colombia


Haga click aquí para acceder a la última versión online.

Haga click aquí para ver la última versión online en nbviewer.


Licencia
Readme

Definición del problema real

Definición del problema en términos de los datos

 Exploración


In [ ]:
# carga de los datos
wine <- read.csv("data/whitewines.csv")
str(wine)

In [ ]:
hist(wine$quality)

Metodología

Entrenamiento del modelo


In [ ]:
wine_train <- wine[1:3750, ]
wine_test <- wine[3751:4898, ]

In [1]:
install.packages("rpart")
library(rpart)


The downloaded binary packages are in
	/var/folders/yq/svn60mh123z6dzr3d4rjk_740000gn/T//RtmpFMB3pf/downloaded_packages

In [ ]:
m.rpart <- rpart(quality ~ ., data = wine_train)
m.rpart

In [ ]:
summary(m.rpart)

In [ ]:
install.packages("rpart.plot")
library(rpart.plot)
rpart.plot(m.rpart, digits = 3)

In [ ]:
rpart.plot(m.rpart, 
           digits = 4, 
           fallen.leaves = TRUE,
           type = 3, 
           extra = 101)

Evaluación del modelo


In [ ]:
p.rpart <- predict(m.rpart, wine_test)
summary(p.rpart)

In [ ]:
summary(wine_test$quality)

In [ ]:
MAE <- function(actual, predicted) {
    mean(abs(actual - predicted))
}

In [ ]:
MAE(p.rpart, wine_test$quality)

In [ ]:
mean(wine_train$quality)

In [ ]:
MAE(5.87, wine_test$quality)

In [ ]:

Mejora del modelo


In [ ]:
library(RWeka)
m.m5p <- M5P(quality ~ ., data = wine_train)
m.m5p

In [ ]:
summary(m.m5p)

In [ ]:
ins_model2 <- lm(expenses ~ age + age2 + children + bmi + sex + bmi30*smoker + region, 
                 data = insurance)
summary(ins_model2)

In [ ]:


In [ ]: