第5章の Chainer 版

本ノートブックは、waifu2x を Chainer で再現したものです。 Torch7 で実装されたオリジナルの waifu2x は CUDA の実行環境が必須でしたが、本ノートブックは GPU が無い環境でも実行できます。

準備

ノートブックの実行環境を準備します。準備している内容は第2章のノートブックと同じです。


In [1]:
%matplotlib inline
import matplotlib as mpl
import matplotlib.pyplot as plt

In [2]:
mpl.rcParams['font.family'] = [u'Osaka']
plt.rcParams['image.interpolation'] = 'nearest'
plt.rcParams['image.cmap'] = 'gray'

In [3]:
import sys
import numpy as np
import pandas as pd
from PIL import Image
import chainer
import chainer.functions as F
import chainer.optimizers
from chainer import cuda
import json
import six
import math

In [4]:
gpu_device_id = 0
try:
    cuda.init(gpu_device_id)
    use_gpu = True
    print "GPU %d is available." % (gpu_device_id)
except:
    use_gpu = False
    print "GPU %d is not available." % (gpu_device_id)
    print "Error: ", sys.exc_info()[0], sys.exc_info()[1]


GPU 0 is available.

モデルのロードとニューラルネットワークの作成

waifu2x のモデルファイルを利用し、Chainer で waifu2x のニューラルネットワークを生成します。 モデルファイルは waifu2x のリポジトリに含まれている JSON 形式のものを利用します。


In [5]:
with open('waifu2x/models/anime_style_art_rgb/scale2.0x_model.json') as fp:
    model_params = json.load(fp)

ロードしたモデルを解釈して、ニューラルネットワークを作成します。 以下で定義している make_Convolution2D 関数は、waifu2x のモデルの畳み込み層のパラメータから Chainer の Convolution2D を作成します。


In [6]:
def make_Convolution2D(params):
    func = F.Convolution2D(
        params['nInputPlane'],
        params['nOutputPlane'],
        (params['kW'], params['kH'])
    )
    func.b = np.float32(params['bias'])
    func.W = np.float32(params['weight'])
    return func

model = chainer.FunctionSet()
for i, layer_params in enumerate(model_params):
    function = make_Convolution2D(layer_params)
    setattr(model, "conv{}".format(i + 1), function)

if use_gpu:
    model.to_gpu()

steps = len(model_params)
pad_size = steps*2

以下の forward 関数は、引数で与えた入力データをニューラルネットワークに通して出力データを生成し、出力データと隠れ層の出力が記録された辞書を返します。


In [7]:
def forward(x):
    h = x
    hidden_layers = {}
    for i in range(1, steps):
        key = 'conv{}'.format(i)
        h = F.leaky_relu(getattr(model, key)(h), 0.1)
        hidden_layers[key] = cuda.to_cpu(h.data)
    key = 'conv{}'.format(steps)
    y = getattr(model, key)(h)
    hidden_layers[key] = cuda.to_cpu(y.data)
    return y, hidden_layers

waifu2x の再現

Chainer を使って作成した waifu2x のニューラルネットワークを用いて、waifu2x の処理全体をステップ・バイ・ステップで再現します。

まずは画像をロードします。


In [8]:
image = Image.open("vimlogo-141x141.png").convert("RGB")
image


Out[8]:

次に、画像を最近傍補間で縦横2倍に拡大します。


In [9]:
image2x = image.resize((2*image.size[0], 2*image.size[1]), resample=Image.NEAREST)
image2x


Out[9]:

次は、2倍画像を NumPy のベクトルに変換し、ブロックサイズを128としてパディングを挿入します。 パディングを挿入する際は、画像がブロックサイズで丁度良く分割できるよう調整するため、右辺と下辺が、左辺と上辺よりも広いパディングが挿入されます。


In [10]:
x_data = np.asarray(image2x).transpose(2, 0, 1).astype("float32")
x_data /= 255

# ブロックサイズ
block_size = 128
# ブロックを重ねるピクセル数 (== 畳み込み層の数)
block_offset = steps
# 出力サイズ
output_size = block_size - block_offset*2

# 垂直方向のブロック数
h_blocks = int(math.floor(x_data.shape[1] / output_size)) + (0 if x_data.shape[1] % output_size == 0 else 1)
# 水平方向のブロック数
w_blocks = int(math.floor(x_data.shape[2] / output_size)) + (0 if x_data.shape[2] % output_size == 0 else 1)

# パディングを含めた場合の高さ h と幅 w
h = block_offset + h_blocks * output_size + block_offset
w = block_offset + w_blocks * output_size + block_offset

# パディングのサイズ (上: pad_h1, 左: pad_w1, 下: pad_h2, 右: pad_w2)
pad_h1 = block_offset
pad_w1 = block_offset
pad_h2 = (h - block_offset) - x_data.shape[1]
pad_w2 = (w - block_offset) - x_data.shape[2]

# パディングの挿入
x_data = np.pad(x_data, ((0, 0), (pad_h1, pad_h2), (pad_w1, pad_w2)), "edge")

# パディング挿入後の状態を画像へ変換 (可視化のため)
Image.fromarray(np.uint8(x_data * 255).transpose(1, 2, 0))


Out[10]:

誌面に掲載した部分をブロックとして使用するために、x_data から対象領域を抽出し、変数 block に入れます。


In [11]:
# ブロックを取り出す
block = x_data[:, 114:(114 + block_size), 114:(114 + block_size)]
# ミニバッチのインデックスとなる次元を追加する
block = np.reshape(block, (1,) + block.shape)

# 可視化のため、ブロックを画像へ変換
block_image = Image.fromarray(np.uint8(block[0] * 255).transpose(1, 2, 0))

# GPU が使用できる場合は block を GPU へ対応させる
if use_gpu:
    block  = cuda.to_gpu(block)

# 画像の可視化のため
block_image


Out[11]:

変数 blockchainer.Variable へ変換し、ニューラルネットワークに通して出力データを生成します。


In [12]:
x = chainer.Variable(block)
y, hidden_layers = forward(x)
y_data = cuda.to_cpu(y.data)[0]

出力データに対する後処理として、0未満の値を0に、1を越える値を1に制限します。


In [13]:
y_data[y_data < 0] = 0
y_data[y_data > 1] = 1

y_data には超解像の結果が入っています。


In [14]:
Image.fromarray(np.uint8(y_data * 255).transpose(1, 2, 0))


Out[14]:

また、hidden_layers には隠れ層の出力が入っています。隠れ層の出力は、以下の visualize_hidden_layer 関数を使って可視化します。


In [15]:
# 隠れ層を可視化するための関数
def visualize_hidden_layer(data, padsize=1, padval=0, shape=None, gamma=1.0):
    if shape:
        nrows, ncols = shape
    else:
        ncols = int(np.ceil(np.sqrt(data.shape[0])))
        nrows = int(np.ceil(float(data.shape[0]) / ncols))

    image_width  = ncols * data.shape[2] + padsize * (ncols - 1)
    image_height = nrows * data.shape[1] + padsize * (nrows - 1)
    image = Image.new('L', (image_width, image_height), padval*255)

    for i in range(0, nrows):
        for j in range(0, ncols):
            k = i * ncols + j
            if k < data.shape[0]:
                patch = data[k].reshape(data.shape[1:3])
                patch -= patch.min()
                patch /= patch.max()
                patch = np.power(patch, gamma)
                patch = np.uint8(patch * 255)
                image.paste(Image.fromarray(patch), (j*(data.shape[2] + padsize), i*(data.shape[1] + padsize)))

    return image

1つ目の隠れ層の出力


In [16]:
visualize_hidden_layer(hidden_layers['conv1'][0], shape=(4, 8), gamma=0.5)


Out[16]:

2つ目の隠れ層の出力


In [17]:
visualize_hidden_layer(hidden_layers['conv2'][0], shape=(4, 8), gamma=0.5)


Out[17]:

3つ目の隠れ層の出力


In [18]:
visualize_hidden_layer(hidden_layers['conv3'][0], gamma=0.5)


Out[18]: