このノートブックでは、第4章で説明した GoogLeNet による一般物体認識の再現を行います。
このノートブックの内容をお手元のコンピュータ上で再現するには、Caffe の実行環境を構築し、IPython のインストールも必要です。IPython は第2章用の環境構築によってインストールされるので、第2章のノートブックをご覧になってください。
まず、Caffe を GitHub からクローンします。Caffe のリポジトリ BVLC/caffe は本リポジトリにサブモジュールとして追加してあります。ですから、次のコマンドでクローンし、caffe
ディレクトリに入ってください。
$ git submodule update --init caffe
$ cd caffe
次に、Caffe のインストールです。インストール方法は "Installation" に記載されています。このページを参照して環境を構築してください。
本ノートブックは pycaffe を使用しています。Caffe の Installation ページではオプショナル扱いになっていますが、pycaffe のインストールも忘れずに行ってください。pycaffe のインストール手順をまとめると以下のとおりです。
$ for req in $(cat python/requirements.txt); do pip install $req; done
$ make pycaffe
ノートブックの環境を準備します。
まずは matplotlib の設定です。
In [1]:
%matplotlib inline
import numpy as np
import matplotlib as mpl
import matplotlib.pyplot as plt
以下の設定で pyplot.imshow
で表示される画像のサイズを大きくします。
In [2]:
plt.rcParams['figure.figsize'] = (10, 10)
plt.rcParams['image.interpolation'] = 'nearest'
plt.rcParams['image.cmap'] = 'gray'
次に pycaffe をロードします。
In [3]:
import os
import sys
caffe_root = os.path.expanduser("caffe")
sys.path.insert(0, caffe_root + '/python')
import caffe
In [4]:
caffe.set_device(0)
caffe.set_mode_gpu()
In [5]:
googlenet_dir = os.path.expanduser(caffe_root + '/models/bvlc_googlenet/')
if not os.path.isfile(googlenet_dir + 'bvlc_googlenet.caffemodel'):
print("Downloading pre-trained CaffeNet model...")
!caffe/scripts/download_model_binary.py caffe/models/bvlc_googlenet
ラベルファイルも同様に存在しない場合はダウンロードします
In [6]:
# ラベルを読み込む
imagenet_labels_filename = caffe_root + '/data/ilsvrc12/synset_words.txt'
if not os.path.isfile(imagenet_labels_filename):
print("Downloading ImageNet labels...")
!caffe/data/ilsvrc12/get_ilsvrc_aux.sh
ダウンロードしたモデルとラベルをロードします。
In [7]:
# モデルファイルのロード
net = caffe.Net(googlenet_dir + 'deploy.prototxt',
googlenet_dir + 'bvlc_googlenet.caffemodel',
caffe.TEST)
# ラベルファイルのロード
imagenet_labels = np.loadtxt(imagenet_labels_filename, str, delimiter='\t')
In [8]:
transformer = caffe.io.Transformer({'data': net.blobs['data'].data.shape})
transformer.set_transpose('data', (2,0,1))
transformer.set_mean('data', np.load(caffe_root + '/python/caffe/imagenet/ilsvrc_2012_mean.npy').mean(1).mean(1))
transformer.set_raw_scale('data', 255)
transformer.set_channel_swap('data', (2,1,0))
In [9]:
image_file = 'momosan.jpg'
image = caffe.io.load_image(image_file)
net.blobs['data'].data[...] = transformer.preprocess('data', image)
In [10]:
plt.imshow(transformer.deprocess('data', net.blobs['data'].data[0]))
plt.axis('off')
Out[10]:
In [13]:
# ソフトマックス出力からトップ k 予測を取り出す
out = net.forward()
print("Predicted class is #{}.".format(out['prob'].argmax()))
prob = net.blobs['prob'].data[0].flatten()
top_k = prob.argsort()[-1:-10:-1]
for i, label in enumerate(imagenet_labels[top_k], start=1):
print("{}: {}".format(i, label))
In [14]:
# ネットワークの各層の形
[(k, v.data.shape) for k, v in net.blobs.items()]
Out[14]:
In [15]:
# ネットワークの結合パラメタの形
[(k, v[0].data.shape) for k, v in net.params.items()]
Out[15]:
以下の関数で、フィルタと隠れ層の可視化を行います。
In [16]:
# take an array of shape (n, height, width) or (n, height, width, channels)
# and visualize each (height, width) thing in a grid of size approx. sqrt(n) by sqrt(n)
def vis_square(data, padsize=1, padval=0, gamma=1):
data -= data.min()
data /= data.max()
data = np.power(data, gamma)
# force the number of filters to be square
n = int(np.ceil(np.sqrt(data.shape[0])))
padding = ((0, n ** 2 - data.shape[0]), (0, padsize), (0, padsize)) + ((0, 0),) * (data.ndim - 3)
data = np.pad(data, padding, mode='constant', constant_values=(padval, padval))
# tile the filters into an image
data = data.reshape((n, n) + data.shape[1:]).transpose((0, 2, 1, 3) + tuple(range(4, data.ndim + 1)))
data = data.reshape((n * data.shape[1], n * data.shape[3]) + data.shape[4:])
plt.imshow(data)
plt.axis('off')
In [17]:
# the parameters are a list of [weights, biases]
filters = net.params['conv1/7x7_s2'][0].data
vis_square(filters.transpose(0, 2, 3, 1), padsize=1)
C1 層の出力の一部をガンマ補正したもの (図9) は以下のとおりです。
In [18]:
feat = net.blobs['conv1/7x7_s2'].data[0]
print(feat.shape)
vis_square(feat[28:64], padval=1, padsize=2, gamma=0.2)
In [19]:
filters = net.params['conv2/3x3'][0].data
print(filters.shape)
vis_square(filters[:64].reshape(64**2, 3, 3), padval=0, padsize=1)
In [20]:
feat = net.blobs['conv2/3x3'].data[0]
print(feat.shape)
vis_square(feat[28:64], padval=1, padsize=1, gamma=0.2)
In [21]:
filters = net.params['inception_3a/5x5'][0].data
print(filters.shape)
vis_square(filters.reshape(32*16, 5, 5), padval=0, padsize=1)
インセプション層 I3a の出力の一部 (図11) は以下のようになっています。
In [22]:
feat = net.blobs['inception_3a/output'].data[0]
print(feat.shape)
vis_square(feat[:64], padval=1, padsize=1, gamma=0.2)
In [23]:
filters = net.params['inception_3b/5x5'][0].data
print(filters.shape)
vis_square(filters.reshape(96*32, 5, 5), padval=0, padsize=1)
In [24]:
feat = net.blobs['inception_3b/output'].data[0]
print(feat.shape)
vis_square(feat[:256], padval=1, padsize=1, gamma=0.2)
In [25]:
filters = net.params['inception_4a/5x5'][0].data
print(filters.shape)
vis_square(filters.reshape(48*16, 5, 5), padval=0, padsize=1)
In [26]:
feat = net.blobs['inception_4a/output'].data[0]
print(feat.shape)
vis_square(feat[:256], padval=0.5, gamma=0.2)
In [27]:
filters = net.params['inception_4b/5x5'][0].data
print(filters.shape)
vis_square(filters.reshape(64*24, 5, 5), padval=0, padsize=1)
In [28]:
feat = net.blobs['inception_4b/output'].data[0]
print(feat.shape)
vis_square(feat[:100], padval=1, gamma=0.2)
In [29]:
filters = net.params['inception_4c/5x5'][0].data
print(filters.shape)
vis_square(filters.reshape(64*24, 5, 5), padval=0, padsize=1)
In [30]:
feat = net.blobs['inception_4c/output'].data[0, :100]
vis_square(feat, padval=1, gamma=0.2)
In [36]:
filters = net.params['inception_4d/5x5'][0].data
print(filters.shape)
vis_square(filters.reshape(64*32, 5, 5), padval=0, padsize=1)
In [37]:
feat = net.blobs['inception_4d/output'].data[0, :100]
vis_square(feat, padval=1, gamma=0.2)
In [38]:
filters = net.params['inception_4e/5x5'][0].data
print(filters.shape)
vis_square(filters.reshape(128*32, 5, 5), padval=0, padsize=1)
In [39]:
feat = net.blobs['inception_4e/output'].data[0, :100]
vis_square(feat, padval=1, gamma=0.2)
In [40]:
filters = net.params['inception_5a/5x5'][0].data
print(filters.shape)
vis_square(filters.reshape(128*32, 5, 5), padval=0, padsize=1)
In [41]:
feat = net.blobs['inception_5a/output'].data[0, :100]
vis_square(feat, padval=1, gamma=0.2)
In [42]:
filters = net.params['inception_5b/5x5'][0].data
print(filters.shape)
vis_square(filters.reshape(128*48, 5, 5), padval=0, padsize=1)
In [43]:
feat = net.blobs['inception_5b/output'].data[0, :100]
vis_square(feat, padval=1, gamma=0.2)
In [44]:
feat = net.blobs['pool5/7x7_s1'].data[0]
vis_square(feat, padval=0.5, padsize=0)
In [45]:
feat = net.blobs['prob'].data[0]
plt.plot(feat.flat)
Out[45]:
確率が大きな順に9個のインデックスを表示すると以下のようになります。
In [46]:
top_k = net.blobs['prob'].data[0].flatten().argsort()[-1:-10:-1]
for i, k in enumerate(top_k, start=1):
print("{}: {}".format(i, k))