Predicción de gastos médicos

Juan David Velásquez Henao
jdvelasq@unal.edu.co
Universidad Nacional de Colombia, Sede Medellín
Facultad de Minas
Medellín, Colombia


Haga click aquí para acceder a la última versión online.

Haga click aquí para ver la última versión online en nbviewer.


Licencia
Readme

Definición del problema real

Definición del problema en términos de los datos

 Exploración


In [ ]:
# carga de los datos
insurance <- read.csv("insurance.csv", stringsAsFactors = TRUE)
str(insurance)

In [ ]:
summary(insurance$expenses)

In [ ]:
hist(insurance$expenses)

In [ ]:
table(insurance$region)

In [ ]:
cor(insurance[c("age", "bmi", "children", "expenses")])

In [ ]:
pairs(insurance[c("age", "bmi", "children", "expenses")])

In [ ]:
pairs.panels(insurance[c("age", "bmi", "children", "expenses")])

Metodología

Entrenamiento del modelo


In [ ]:
ins_model <- lm(expenses ~ age + children + bmi + sex + smoker + region, 
                data = insurance)

In [ ]:
ins_model <- lm(expenses ~ ., data = insurance)

In [ ]:
ins_model

In [ ]:


In [ ]:

Evaluación del modelo


In [ ]:
summary(ins_model)

Mejora del modelo


In [ ]:
insurance$age2 <- insurance$age^2

In [ ]:
insurance$bmi30 <- ifelse(insurance$bmi >= 30, 1, 0)

In [ ]:
ins_model2 <- lm(expenses ~ age + age2 + children + bmi + sex + bmi30*smoker + region, 
                 data = insurance)
summary(ins_model2)

In [ ]:


In [ ]: