Esse exercício é composto de duas atividades como descritas a seguir.
Vamos treinar um modelo de regressão linear para a base de dados a seguir:
A base de dados coleta dados de diferentes tipos de aerofólios em testes do túnel de vento da NASA. O objetivo é estimar o nível de pressão sonora dado características do aerofólio, do seu posicionamente e demais características dos testes realizados.
Tarefas:
Todos os testes devem ser feito utilizando validação cruzada de 10 folds.
In [4]:
# Carregando a base de dados
import pandas as pd
from sklearn.linear_model import LinearRegression
data = pd.read_csv('http://archive.ics.uci.edu/ml/machine-learning-databases/00291/airfoil_self_noise.dat',
sep="\t",
header=None,
names=["Frequency","Angle","Chord","Velocity","Suction","Sound"])
data.head()
Out[4]:
In [15]:
feature_columns = ["Frequency","Angle","Chord","Velocity","Suction"]
X = data[feature_columns]
y = data.Sound
In [ ]:
# Insira a partir daqui o código da atividade 1
Nesta atividade vamos utilizar a base de dados disponível em: https://archive.ics.uci.edu/ml/datasets/Pima+Indians+Diabetes
A base coleta diversas informações dos pacientes e busca inferir se o teste de diabetes daria positivo ou negativo para o paciente.
Tarefas
In [19]:
import pandas as pd
data = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/pima-indians-diabetes/pima-indians-diabetes.data',
sep=",",
header=None,
names=["TimesPregnant","GlucoseConcentration","BloodPressure","TricepsSkin","SerumInsulin","MassIndex",
"DiabetesFunction","Age","Class"])
features_cols = ["TimesPregnant","GlucoseConcentration","BloodPressure","TricepsSkin","SerumInsulin","MassIndex",
"DiabetesFunction","Age"]
In [20]:
X = data[features_cols]
y = data.Class
In [ ]:
# Insira a partir daqui o código da atividade 1