notebook.community

Edit and run



In [1]:

    
# Data: time-serie data from smartwatch or smartwatch data
# %matplotlib inline # for plt.show()
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# Data reading
# The smartwatch historical/time-seris data to visualize
# data_path = 'data/smartwatch_data/experimental_data_analysis/Basis_Watch_Data.csv'
# data_path = 'data/financial_data/USD_INR.csv'
data_path = 'data/bike_data/hour.csv'
data = pd.read_csv(data_path)

# Data: cleaning
# Getting rid of NaN
data = data.fillna(value=0.0)

# Showing the data file csv or comma separated value
data[:10]



In [2]:

    
# # Plotting the smartwatch data before scaling/batch normalization
# data[:10000]['Price'].plot()
data[: 10].plot()
plt.legend()
plt.show()



In [3]:

    
data_array = np.array(data)
data_array.shape, data_array.dtype
data_main = np.array(data_array[:, -1:], dtype=float)
data_main.shape, data_main.dtype

plt.plot(data_main[:100])
plt.show()



In [4]:

    
mean = np.mean(data_main, axis=0)
std = np.std(data_main, axis=0)
std.shape, mean.shape, std.dtype, mean.dtype

data_norm = (data_main - mean) / std
plt.plot(data_norm[:100])
plt.show()
data_norm.mean(), data_norm.std(), data_norm.var(), data_norm.shape, data_norm.dtype









    












    Out[4]:





(-1.0548364452851478e-16, 1.0, 1.0, (17379, 1), dtype('float64'))



In [5]:

    
train_data = data_norm[:16000] # the last dim/variable/feature
test_data = data_norm[16000:] # the last dim/variable/feature
train_data.shape, test_data.shape
X_train = train_data[0:15999]
Y_train = train_data[1:16000]
X_train.shape, Y_train.shape

plt.plot(X_train[:100])
plt.plot(Y_train[:100])
plt.show()



In [6]:

    
X_valid = test_data[0:1378] 
Y_valid = test_data[1:1379]
X_valid.shape, Y_valid.shape
plt.plot(X_valid[:100])
plt.plot(Y_valid[:100])
plt.show()



In [7]:

    
# Model or Network
import impl.layer as l
from impl.loss import *

class GRU:
    def __init__(self, D, H, L, p_dropout):
        self.D = D
        self.H = H
        self.L = L
        self.p_dropout = p_dropout
        self.losses = {'train':[], 'smooth train':[], 'valid': []}
        
        # Model params
        Z = H + D
        m = dict(
            Wz=np.random.randn(Z, H) / np.sqrt(Z / 2.),
            Wr=np.random.randn(Z, H) / np.sqrt(Z / 2.),
            Wh=np.random.randn(Z, H) / np.sqrt(Z / 2.),
            Wy=np.random.randn(H, D) / np.sqrt(H / 2.),
            bz=np.zeros((1, H)),
            br=np.zeros((1, H)),
            bh=np.zeros((1, H)),
            by=np.zeros((1, D))
        )
        self.model = []
        for _ in range(self.L):
            self.model.append(m)
        
    def initial_state(self):
        return np.zeros((1, self.H))

    def forward(self, X, h, m):
        Wz, Wr, Wh, Wy = m['Wz'], m['Wr'], m['Wh'], m['Wy']
        bz, br, bh, by = m['bz'], m['br'], m['bh'], m['by']

        X_in = X.copy()
        h_in = h.copy()

        X = np.column_stack((h_in, X_in))

        hz, hz_cache = l.fc_forward(X, Wz, bz)
        hz, hz_sigm_cache = l.sigmoid_forward(hz)

        hr, hr_cache = l.fc_forward(X, Wr, br)
        hr, hr_sigm_cache = l.sigmoid_forward(hr)

        X = np.column_stack((hr * h_in, X_in))
        
        hh, hh_cache = l.fc_forward(X, Wh, bh)
        hh, hh_tanh_cache = l.tanh_forward(hh)

        # h = (1. - hz) * h_old + hz * hh
        # or
        h = ((1. - hz) * h_in) + (hz * hh)
        # or
        # h = h_in + hz (hh - h_in)

        y, y_cache = l.fc_forward(h, Wy, by)
        
        cache = (h_in, hz, hz_cache, hz_sigm_cache, hr, hr_cache, hr_sigm_cache, hh, hh_cache, hh_tanh_cache, 
                 y_cache)

        return y, h, cache

    def backward(self, dy, dh, cache):
        h_in, hz, hz_cache, hz_sigm_cache, hr, hr_cache, hr_sigm_cache, hh, hh_cache, hh_tanh_cache, y_cache = cache
        
        dh_out = dh.copy()

        dh, dWy, dby = l.fc_backward(dy, y_cache)
        dh += dh_out

        dh_in1 = (1. - hz) * dh
        dhh = hz * dh
        dhz = (hh * dh) - (h_in * dh)
        # or
        # dhz = (hh - h_in) * dh

        dhh = l.tanh_backward(dhh, hh_tanh_cache)
        dXh, dWh, dbh = l.fc_backward(dhh, hh_cache)

        dh = dXh[:, :self.H]
        dX_in2 = dXh[:, self.H:]
        dh_in2 = hr * dh

        dhr = h_in * dh
        dhr = l.sigmoid_backward(dhr, hr_sigm_cache)
        dXr, dWr, dbr = l.fc_backward(dhr, hr_cache)

        dhz = l.sigmoid_backward(dhz, hz_sigm_cache)
        dXz, dWz, dbz = l.fc_backward(dhz, hz_cache)

        dX = dXr + dXz
        dh_in3 = dX[:, :self.H]
        dX_in1 = dX[:, self.H:]

        dh = dh_in1 + dh_in2 + dh_in3
        dX = dX_in1 + dX_in2

        grad = dict(Wz=dWz, Wr=dWr, Wh=dWh, Wy=dWy, bz=dbz, br=dbr, bh=dbh, by=dby)
        
        return dX, dh, grad

    def train_forward(self, X_train, h):
        ys, fc_caches, do_caches = [], [], []

        for X in X_train:
            X = X.reshape(1, -1) # X_1xn
            for layer in range(self.L):
                y, h, fc_cache = self.forward(X, h, self.model[layer])
                y, do_cache = l.dropout_forward(y, self.p_dropout)
                X = y.copy()
            fc_caches.append(fc_cache)
            do_caches.append(do_cache)
            ys.append(y)
        
        ys = np.array(ys, dtype=float).reshape(len(ys), -1) # ys_txn instead of ys_tx1xn
        caches = (fc_caches, do_caches)
        
        return ys, caches
                                
    def loss_function(self, y_pred, y_train): # , alpha alpha: learning rate
        loss, dys = 0.0, []

        for y, Y in zip(y_pred, y_train):
            loss += l2_regression(y_pred=y, y_train=Y)
            dy = dl2_regression(y_pred=y, y_train=Y)
            dys.append(dy)
            
        return loss, dys
    
    def train_backward(self, dys, caches):
        fc_caches, do_caches = caches
        
        dh = np.zeros((1, self.H)) 
        grad = {key: np.zeros_like(val) for key, val in self.model[0].items()}
        grads = [] #{key: np.zeros_like(val) for key, val in self.model.items()}
        for _ in range(self.L):
            grads.append(grad)

        for t in reversed(range(len(dys))):
            dy = dys[t].reshape(1, -1) # dy_1xn
            for layer in reversed(range(self.L)):
                dy = l.dropout_backward(dy, do_caches[t])
                dX, dh, grad = self.backward(dy, dh, fc_caches[t])
                dy = dX.copy() # for the previous layer
                for key in grad.keys():
                    grads[layer][key] += grad[key]
                
        return dX, grads
    
    def test(self, X_seed, h, size):
        ys = []
        X = X_seed.reshape(1, -1)
        for _ in range(size):
            for layer in range(self.L):
                y, h, _ = self.forward(X, h, self.model[layer])
                X = y.copy() # previous out for the next input for prediction
            ys.append(y) # list array
        
        ys = np.array(ys, dtype=float).reshape(len(ys), -1) # ys_txn instead of ys_tx1xn
        return ys



In [8]:

    
def get_minibatch(X, y, minibatch_size, shuffle):
    minibatches = []

    for i in range(0, X.shape[0], minibatch_size):
        X_mini = X[i:i + minibatch_size]
        y_mini = y[i:i + minibatch_size]
        minibatches.append((X_mini, y_mini))

    return minibatches

def adam_rnn(nn, XY_train, XY_valid, alpha, mb_size, n_iter, print_after):
    X_train, y_train = XY_train
    X_valid, y_valid = XY_valid

    # Momentum
    M = [] # {key: np.zeros_like(val) for key, val in nn.model.items()}
    R = [] # {key: np.zeros_like(val) for key, val in nn.model.items()}
    for _ in range(nn.L):
        M.append({key: np.zeros_like(val) for key, val in nn.model[0].items()})
        R.append({key: np.zeros_like(val) for key, val in nn.model[0].items()})
    
    # Learning decay: suggested by Justin Jhonson in Standford
    beta1 = .9
    beta2 = .99
    state = nn.initial_state()
    smooth_loss = 1.
    minibatches = get_minibatch(X_train, y_train, mb_size, shuffle=False)
    
    # Epochs: iterating through the whole data
    for iter in range(1, n_iter + 1):
        
        # Minibatches
        for idx in range(len(minibatches)):
            
            # Train the model
            X_mini, y_mini = minibatches[idx]
            ys, caches = nn.train_forward(X_mini, state)
            loss, dys = nn.loss_function(y_pred=ys, y_train=y_mini) #, alpha=alpha
            _, grads = nn.train_backward(dys, caches)
            nn.losses['train'].append(loss)
            smooth_loss = (0.999 * smooth_loss) + (0.001 * loss)
            nn.losses['smooth train'].append(smooth_loss)
            
            # Update the model
            for layer in range(nn.L):
                for key in grads[0].keys(): # key, value, items
                    M[layer][key] = l.exp_running_avg(M[layer][key], grads[layer][key], beta1)
                    R[layer][key] = l.exp_running_avg(R[layer][key], grads[layer][key]**2, beta2)
                    m_k_hat = M[layer][key] / (1. - (beta1** iter))
                    r_k_hat = R[layer][key] / (1. - (beta2** iter))
                    nn.model[layer][key] -= alpha * m_k_hat / (np.sqrt(r_k_hat) + l.eps)

            # Validate the model (by testing)
            ys = nn.test(X_seed=X_valid[0], h=state, size=X_valid.shape[0]) # ys_tx1xn
            valid_loss, _ = nn.loss_function(y_pred=ys, y_train=Y_valid) #, alpha=alpha
            nn.losses['valid'].append(valid_loss)

        # Print the model loss/ error
        if iter % print_after == 0:
            print('Iter-{}, train loss: {:.8f}, valid loss: {:.8f}'.format(iter, loss, valid_loss))

    return nn



In [ ]:

    
# Hyper-parameters
time_step = 64 # minibatch size: 32, 64, 128, or 256 Cache
n_iter = 1000 # epochs
alpha = 1e-4 # learning_rate: 1e-3, 5e-4, 1e-4 - default choices
print_after = 1 # print training loss, valid, and test
num_hidden_units = 64 # num_hidden_units in hidden layer
num_input_units = X_train.shape[1] # X_txn: noise given by using all possible channels/ features
num_hidden_layers = 5 # number of hidden layers
keep_prob = 0.95 # p_dropout == keep_prob

# Build the network and learning it or optimizing it using SGD
# def adam_rnn(nn, X_train, y_train, alpha=0.001, mb_size=256, n_iter=2000, print_after=100):
net = GRU(D=num_input_units, H=num_hidden_units, p_dropout=keep_prob, L=num_hidden_layers) # , lam=lam, L=num_layers, p_dropout=p_dropout

# Start learning using BP-SGD-ADAM
adam_rnn(nn=net, XY_train=(X_train, Y_train), XY_valid=(X_valid, Y_valid), alpha=alpha, mb_size=time_step,
         n_iter=n_iter, print_after=print_after)









    



Iter-1, train loss: 30.14540019, valid loss: 14222.87672564
Iter-2, train loss: 30.01232977, valid loss: 8594.06048203
Iter-3, train loss: 30.33214892, valid loss: 9534.61443354
Iter-4, train loss: 28.47764944, valid loss: 4146.46100224
Iter-5, train loss: 30.33610752, valid loss: 4757.19405331
Iter-6, train loss: 30.84428182, valid loss: 3973.89311649
Iter-7, train loss: 30.90340317, valid loss: 2703.61701137
Iter-8, train loss: 31.92625262, valid loss: 2758.46191408
Iter-9, train loss: 28.92992034, valid loss: 1885.06560807
Iter-10, train loss: 33.05841742, valid loss: 1297.95199768
Iter-11, train loss: 30.78931562, valid loss: 1877.41125925
Iter-12, train loss: 29.10888440, valid loss: 1465.94700312
Iter-13, train loss: 30.77713759, valid loss: 6335.98132373
Iter-14, train loss: 28.62077730, valid loss: 7295.16143062
Iter-15, train loss: 29.71180952, valid loss: 6090.80215947
Iter-16, train loss: 30.50636534, valid loss: 2971.33818172
Iter-17, train loss: 30.52707555, valid loss: 4675.27267154
Iter-18, train loss: 33.54055525, valid loss: 2986.26241460
Iter-19, train loss: 30.77854719, valid loss: 4645.55774536
Iter-20, train loss: 30.78931562, valid loss: 3315.29585508
Iter-21, train loss: 30.87160024, valid loss: 5473.78867304
Iter-22, train loss: 29.56118862, valid loss: 7292.90108277
Iter-23, train loss: 32.51189563, valid loss: 3144.06542164
Iter-24, train loss: 29.59658017, valid loss: 3064.87807344
Iter-25, train loss: 35.79097212, valid loss: 3145.37747195
Iter-26, train loss: 32.48049058, valid loss: 3017.92840212
Iter-27, train loss: 35.39493310, valid loss: 3209.85715612
Iter-28, train loss: 31.85349408, valid loss: 3290.12664653
Iter-29, train loss: 26.34408175, valid loss: 1983.27567224
Iter-30, train loss: 31.12997703, valid loss: 1762.52960478
Iter-31, train loss: 30.80292970, valid loss: 1732.20203760
Iter-32, train loss: 30.39429496, valid loss: 1597.57611739
Iter-33, train loss: 38.94930680, valid loss: 1880.73402189
Iter-34, train loss: 32.35183113, valid loss: 1712.50461500
Iter-35, train loss: 29.85225522, valid loss: 643.80618104
Iter-36, train loss: 31.14046046, valid loss: 707.61746844
Iter-37, train loss: 28.49047793, valid loss: 808.16426289
Iter-38, train loss: 31.40924430, valid loss: 710.61362830
Iter-39, train loss: 32.90742739, valid loss: 1202.63403794
Iter-40, train loss: 30.56827988, valid loss: 2382.69517603
Iter-41, train loss: 31.92636404, valid loss: 1239.28891895
Iter-42, train loss: 31.67532715, valid loss: 843.55243357
Iter-43, train loss: 29.88179671, valid loss: 681.77863545
Iter-44, train loss: 31.52258107, valid loss: 1106.76810439
Iter-45, train loss: 31.75885796, valid loss: 824.86341219
Iter-46, train loss: 29.43776255, valid loss: 926.53838371
Iter-47, train loss: 32.74981247, valid loss: 1417.03883934
Iter-48, train loss: 31.96945322, valid loss: 724.43615161
Iter-49, train loss: 33.72785963, valid loss: 970.75150997
Iter-50, train loss: 31.80663524, valid loss: 992.60121910
Iter-51, train loss: 30.28401559, valid loss: 893.80929535
Iter-52, train loss: 29.67325315, valid loss: 853.11757029
Iter-53, train loss: 31.21773549, valid loss: 869.33417153
Iter-54, train loss: 31.03594679, valid loss: 839.74788678
Iter-55, train loss: 30.96162729, valid loss: 816.09930005
Iter-56, train loss: 30.95672366, valid loss: 714.27952102
Iter-57, train loss: 30.57837406, valid loss: 784.36084384
Iter-58, train loss: 31.03990381, valid loss: 785.65322406
Iter-59, train loss: 29.77685886, valid loss: 850.45615876
Iter-60, train loss: 30.28451567, valid loss: 1025.57194180
Iter-61, train loss: 31.03093997, valid loss: 781.20434455
Iter-62, train loss: 30.77961050, valid loss: 719.22934824
Iter-63, train loss: 30.80472632, valid loss: 756.64760324
Iter-64, train loss: 30.40122313, valid loss: 1044.74708607
Iter-65, train loss: 28.65430489, valid loss: 1321.54556458
Iter-66, train loss: 31.28128532, valid loss: 1076.13658265
Iter-67, train loss: 30.40030182, valid loss: 972.22434757
Iter-68, train loss: 31.15756862, valid loss: 1416.44176169
Iter-69, train loss: 31.61229428, valid loss: 671.70974790
Iter-70, train loss: 31.66306151, valid loss: 1785.06857601
Iter-71, train loss: 30.68855776, valid loss: 919.15568497
Iter-72, train loss: 31.36578293, valid loss: 920.47745808
Iter-73, train loss: 30.93915957, valid loss: 1046.58855455
Iter-74, train loss: 31.10342188, valid loss: 2310.14893412
Iter-75, train loss: 33.08713323, valid loss: 5925.78985926
Iter-76, train loss: 31.60835362, valid loss: 5096.16922987
Iter-77, train loss: 29.59996070, valid loss: 5347.65484259
Iter-78, train loss: 30.63123619, valid loss: 6670.55616523
Iter-79, train loss: 30.49855713, valid loss: 4415.31947138
Iter-80, train loss: 30.38344977, valid loss: 6896.66736338
Iter-81, train loss: 30.50049969, valid loss: 7474.79928542
Iter-82, train loss: 27.89474783, valid loss: 7671.88454566
Iter-83, train loss: 30.67436518, valid loss: 7737.39383367
Iter-84, train loss: 30.85848803, valid loss: 9023.71419309
Iter-85, train loss: 29.48534860, valid loss: 10498.94696437
Iter-86, train loss: 30.79478368, valid loss: 11054.09447904
Iter-87, train loss: 31.12548947, valid loss: 1060.14403778
Iter-88, train loss: 30.68631063, valid loss: 1485.95535872
Iter-89, train loss: 31.14183583, valid loss: 1017.74138835
Iter-90, train loss: 31.13352833, valid loss: 11298.15375963
Iter-91, train loss: 28.97201875, valid loss: 1058.82096520
Iter-92, train loss: 30.55108325, valid loss: 674.65108773
Iter-93, train loss: 31.81420239, valid loss: 2789.03724867
Iter-94, train loss: 30.78931562, valid loss: 1986.05933696
Iter-95, train loss: 29.64243956, valid loss: 1835.39385421
Iter-96, train loss: 31.99777007, valid loss: 1139.44704301
Iter-97, train loss: 31.08419629, valid loss: 738.15392689
Iter-98, train loss: 33.33148071, valid loss: 910.63989057
Iter-99, train loss: 30.64729646, valid loss: 709.90223975
Iter-100, train loss: 31.03505675, valid loss: 874.70523682
Iter-101, train loss: 31.45672882, valid loss: 944.91545768
Iter-102, train loss: 31.22531111, valid loss: 852.96271299
Iter-103, train loss: 30.34510745, valid loss: 842.77345772
Iter-104, train loss: 30.89645005, valid loss: 794.22745717
Iter-105, train loss: 31.61389846, valid loss: 964.40359069
Iter-106, train loss: 31.40149715, valid loss: 975.37085817
Iter-107, train loss: 30.37291893, valid loss: 658.46770992
Iter-108, train loss: 32.58306877, valid loss: 906.03171708
Iter-109, train loss: 31.06881152, valid loss: 672.82064688
Iter-110, train loss: 30.41702408, valid loss: 709.41610882
Iter-111, train loss: 30.90896526, valid loss: 687.85414514
Iter-112, train loss: 31.38790227, valid loss: 696.35647075
Iter-113, train loss: 32.55967428, valid loss: 918.13998692
Iter-114, train loss: 28.85025701, valid loss: 1009.15572389
Iter-115, train loss: 30.89534665, valid loss: 773.38783075
Iter-116, train loss: 30.73803485, valid loss: 894.41966254
Iter-117, train loss: 33.35470332, valid loss: 929.97480730



In [ ]:

    
import matplotlib.pyplot as plt

plt.plot(net.losses['train'], label='Train loss')
plt.plot(net.losses['smooth train'], label='Train smooth loss')
plt.legend()
plt.show()



In [ ]:

    
import matplotlib.pyplot as plt

plt.plot(net.losses['valid'], label='Validation loss')
plt.legend()
plt.show()



In [ ]:

    
import matplotlib.pyplot as plt

y_pred = net.test(X_seed=X_valid[0], h=net.initial_state(), size=X_valid.shape[0]) # ys_tx1xn
y_pred.shape, Y_valid.shape

plt.plot(y_pred[:100, 1], label='y_pred')
plt.plot(Y_valid[:100, 1], label='Y_valid')
# plt.plot(X_valid[:100], label='X_valid')
plt.legend()
plt.show()



In [ ]:



In [ ]:

	instant	dteday	season	mnth	hr	weekday	weathersit	temp	atemp	hum	windspeed	casual	registered	cnt
0	1	2011-01-01	1	1	0	6	1	0.24	0.2879	0.81	0.0000	3	13	16
1	2	2011-01-01	1	1	1	6	1	0.22	0.2727	0.80	0.0000	8	32	40
2	3	2011-01-01	1	1	2	6	1	0.22	0.2727	0.80	0.0000	5	27	32
3	4	2011-01-01	1	1	3	6	1	0.24	0.2879	0.75	0.0000	3	10	13
4	5	2011-01-01	1	1	4	6	1	0.24	0.2879	0.75	0.0000	0	1	1
5	6	2011-01-01	1	1	5	6	2	0.24	0.2576	0.75	0.0896	0	1	1
6	7	2011-01-01	1	1	6	6	1	0.22	0.2727	0.80	0.0000	2	0	2
7	8	2011-01-01	1	1	7	6	1	0.20	0.2576	0.86	0.0000	1	2	3
8	9	2011-01-01	1	1	8	6	1	0.24	0.2879	0.75	0.0000	1	7	8
9	10	2011-01-01	1	1	9	6	1	0.32	0.3485	0.76	0.0000	8	6	14