In [1]:
import numpy as np
In [2]:
pesos = np.array([50.,55.5,53.4,60.10,70.1,81.,65.3])
print('Média:',pesos.mean())
print('Máximo:',pesos.max())
print('Mínimo:',pesos.min())
In [3]:
pesos = np.linspace(50,60,num=20)
print(pesos)
In [4]:
valores = np.linspace(1,30,num=20)
print(valores)
In [5]:
print(pesos - valores)
In [6]:
print(pesos * valores)
In [7]:
pesos -= valores
print(pesos)
In [8]:
np.sum(pesos)
Out[8]:
In [9]:
np.std(pesos)
Out[9]:
In [12]:
print('variância populacional',np.var(pesos))
print('variância amostral',np.var(pesos,ddof=1))
print('desvio padrão populacional',np.std(pesos))
print('desvio padrão amostral',np.std(pesos,ddof=1))
In [20]:
np.random.rand()
Out[20]:
In [37]:
vetor = np.random.rand(2,2)
print('Tipo:',type(vetor))
print(vetor)
In [58]:
print('Primeiro elemento, segunda linha:',vetor[1,0])
# Navegando pela primeira linha
print('Primeira linha:',[vetor[0,x] for x in range(vetor.shape[0])])
# Navegando pela segund coluna
print('Segunda coluna:',[vetor[x,1] for x in range(vetor.shape[1])])
In [61]:
print(vetor.shape)
print(vetor.shape[0])
print(vetor.shape[1])
In [34]:
np.random.rand()
Out[34]:
In [36]:
np.random.seed(101)
print('Primeiro:',np.random.rand())
print('Segundo:',np.random.rand())
print('Terceiro:',np.random.rand())
In [3]:
seq = np.random.randn(20)
print(seq)
In [4]:
import scipy.stats as stats
import numpy as np
seq = np.random.randn(20)
stats.describe(seq)
Out[4]:
In [6]:
print('Moda',stats.mode(seq))
print('Normal',stats.normaltest(seq))
In [7]:
nseq = np.random.randn(1000)
print('Normal',stats.normaltest(nseq))
In [13]:
import pandas as pd
serie = pd.Series([np.random.randn(50)])
print('Série',serie,'Tipo',type(serie))
In [14]:
df = pd.DataFrame({'Idade': np.random.randint(20,high=60,size=100),
'Altura': 1 + np.random.rand(100)})
In [15]:
df.head()
Out[15]:
In [16]:
df.describe()
Out[16]:
In [20]:
# Atenção para variância e desvio padrão
print('variância',df.var()) # O ddof default é 1, então é o contrário do numpy!
print('variância pupulacional',df.var(ddof=0))
print('variância',df.std()) # O ddof default é 1, então é o contrário do numpy!
print('variância pupulacional',df.std(ddof=0))
In [16]:
df.columns
Out[16]:
In [24]:
df.values
Out[24]:
In [23]:
df.index
Out[23]:
In [22]:
print(df)
In [27]:
serie = df['Altura']
print(type(serie))
serie.head()
Out[27]:
In [28]:
df.T
Out[28]:
In [31]:
print(type(df))
In [37]:
df[(df.Idade > 35) & (df.Idade <= 40)]
Out[37]:
In [38]:
modelo_df = pd.read_csv('mod-preditivo.csv')
modelo_df.head()
Out[38]:
In [41]:
mod2_df = pd.read_csv('mod-preditivo-original.csv',decimal=',')
In [42]:
mod2_df.info()
In [43]:
mod2_df.head()
Out[43]:
In [54]:
import pandas as pd
import matplotlib.pyplot as plt
from sklearn import datasets, linear_model
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.model_selection import train_test_split
%matplotlib inline
In [49]:
dados_df = pd.read_csv('pesos-alturas.csv',decimal=',')
In [50]:
dados_df.head()
Out[50]:
In [51]:
dados_df.describe()
Out[51]:
In [52]:
dados_df.hist()
Out[52]:
In [87]:
X_train, X_test, y_train, y_test = train_test_split(dados_df[['Alturas']],dados_df[['Pesos']],
test_size=0.33)
In [67]:
modelo = linear_model.LinearRegression()
modelo.fit(X_train, y_train)
Out[67]:
In [88]:
print(modelo.score(X_train,y_train))
In [74]:
predicoes = modelo.predict(X_test)
In [76]:
print(r2_score(y_test,predicoes))
In [84]:
plt.scatter(X_train, y_train, color='blue',s=10)
plt.plot(X_test, predicoes, color='red', linewidth=3)
Out[84]:
In [ ]: