In [ ]:
%matplotlib inline
import numpy as np
import pandas as pd
In [ ]:
a = pd.Series([20, 50, 190, 11, 76])
print(a)
In [ ]:
dados = [20, 50, 190, 11, 76]
rotulos = ['a', 'b', 'c', 'd', 'e']
b = pd.Series(dados, index=rotulos)
print(b)
In [ ]:
print(a[2])
print(b['c'])
In [ ]:
a.plot(marker='o', grid=True);
In [ ]:
matriz = np.array([[1, 2, 3], [4, 5, 6]])
nomes_linhas = ['L1', 'L2']
nomes_cols = ['C1', 'C2', 'C3']
df = pd.DataFrame(matriz, index=nomes_linhas, columns=nomes_cols)
df
In [ ]:
print(df)
In [ ]:
print(df.to_latex())
In [ ]:
df['C4'] = [4, 7]
df
In [ ]:
df.plot(kind='bar', grid=True, title=u'Título');
In [ ]:
df2 = df.transpose()
df2
In [ ]:
df2.plot(kind='bar', grid=True);
In [ ]:
df.sort_values(by='C4', ascending=False)
Plataforma Kaggle - Competições de Ciências de Dados
Titanic: Machine Learning from Disaster
Nela, são providenciadas diversas informações sobre os passageiros em um Dataset de treino e um Dataset de teste, como idade, sexo, cabine, valor do tíquete pago, entre outros.
Além disso, no Dataset de treino é fornecida a variável alvo, que diz se um passageiro sobreviveu (valor = 1) ou não (valor = 0) ao naufrágio.
Já no Dataset de teste, são dadas as mesmas informações sobre outros passageiros, com exceção da variável alvo (a sobrevivência). Para os passageiros do Dataset de teste, você deverá prever se eles sobreviveram ou não, a partir das suas características, em comparação com as informações fornecidas no Dataset de treino.
In [ ]:
train = pd.read_csv('train.csv')
print(train.head()) # 5 primeiras linhas
In [ ]:
print(train['Age'])
In [ ]:
print(train.Sex)
In [ ]:
print(train[['Sex','Age','Fare']])
In [ ]:
print(train.ix[2])
In [ ]:
print(train.ix[[0,10,50]])
In [ ]:
print(train.tail()) # últimas 5 linhas
In [ ]:
print(train.columns)
In [ ]:
print(train.shape)
In [ ]:
print(train.describe()) # calcula estatísticas para cada coluna numérica do DataFrame
In [ ]:
print(train[train.Sex == "female", train.Age])
In [ ]: