[1-1] NumPy, matplotlibに加えて、pandasをインポートします。


In [1]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

[1-2] タイタニック号のデータを読み込んで、データフレームに格納します。


In [2]:
data = pd.read_csv('http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic3.csv')

[1-3] 先頭の3行分を表示します。


In [3]:
data[:3]


Out[3]:
pclass survived name sex age sibsp parch ticket fare cabin embarked boat body home.dest
0 1 1 Allen, Miss. Elisabeth Walton female 29.00 0 0 24160 211.3375 B5 S 2 NaN St Louis, MO
1 1 1 Allison, Master. Hudson Trevor male 0.92 1 2 113781 151.5500 C22 C26 S 11 NaN Montreal, PQ / Chesterville, ON
2 1 0 Allison, Miss. Helen Loraine female 2.00 1 2 113781 151.5500 C22 C26 S NaN NaN Montreal, PQ / Chesterville, ON

[1-4] 性別(sex)と生存(survived)の列だけを取り出したデータフレームを作成する例です。


In [4]:
df = data[['sex','survived']]
df[:3]


Out[4]:
sex survived
0 female 1
1 male 1
2 female 0