[2-1] NumPy, matplotlibに加えて、pandasをインポートします。


In [1]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

[2-2] タイタニック号のデータを読み込んで、データフレーム data に格納します。


In [2]:
data = pd.read_csv('http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic3.csv')

[2-3] 年齢(age)だけを含むデータフレームを作成して欠損値を削除した後、ヒストグラムを描きます。


In [3]:
df = data[['age']].dropna()
df.plot(kind='hist', bins=20)


Out[3]:
<matplotlib.axes._subplots.AxesSubplot at 0x46aead0>

[2-4] 乗船チケットの価格(fare)だけを含むデータフレームを作成して欠損値を削除した後、ヒストグラムを描きます。


In [4]:
df = data[['fare']].dropna()
df.plot(kind='hist', bins=20)


Out[4]:
<matplotlib.axes._subplots.AxesSubplot at 0x46b5d10>

[2-5] 乗船チケットの価格(fare)について、平均値と中央値を計算します。


In [5]:
df.mean()


Out[5]:
fare    33.295479
dtype: float64

In [6]:
df.median()


Out[6]:
fare    14.4542
dtype: float64