[2-1] NumPy, matplotlibに加えて、pandasをインポートします。
In [1]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
[2-2] タイタニック号のデータを読み込んで、データフレーム data に格納します。
In [2]:
data = pd.read_csv('http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic3.csv')
[2-3] 年齢(age)だけを含むデータフレームを作成して欠損値を削除した後、ヒストグラムを描きます。
In [3]:
df = data[['age']].dropna()
df.plot(kind='hist', bins=20)
Out[3]:
[2-4] 乗船チケットの価格(fare)だけを含むデータフレームを作成して欠損値を削除した後、ヒストグラムを描きます。
In [4]:
df = data[['fare']].dropna()
df.plot(kind='hist', bins=20)
Out[4]:
[2-5] 乗船チケットの価格(fare)について、平均値と中央値を計算します。
In [5]:
df.mean()
Out[5]:
In [6]:
df.median()
Out[6]: