notebook.community

Edit and run



In [12]:

    
# As usual, a bit of setup

import time, os, json
import numpy as np
import matplotlib.pyplot as plt
import pickle

from gradient_check import eval_numerical_gradient, eval_numerical_gradient_array
from layers import *
from approach1 import *
from solver import *

%matplotlib inline
plt.rcParams['figure.figsize'] = (10.0, 8.0) # set default size of plots
plt.rcParams['image.interpolation'] = 'nearest'
plt.rcParams['image.cmap'] = 'gray'

%load_ext autoreload
%autoreload 2

def rel_error(x, y):
  """ returns relative error """
  return np.max(np.abs(x - y) / (np.maximum(1e-8, np.abs(x) + np.abs(y))))









    



The autoreload extension is already loaded. To reload it, use:
  %reload_ext autoreload



In [9]:

    
raw = pickle.load(open("stories.pck", "rb"))
print len(raw), "examples"
print max([len(x) for x in raw]), "supporting facts and questions at most"
print max([len(y.split(' ')) for y in x for x in raw]), "words per sentence at most"

_null, _start, _query, _end = "<NULL>", "<Start>", "<Query>", "<End>"

words = [_null, _start, _query, _end] + [q for ex in raw for sent in ex for w in sent.split(' ') for q in w.split(',')]
words = sorted(set(words))
word_to_idx = {w:i for i,w in enumerate(words)}

print len(words), "total words"

T = 70 # longest story, 35 words unfolding
T2= 7

data = []
for ex in raw:
    sLen = 0
    while ex[sLen].find(',')==-1:
        sLen+=1
    supports = word_to_idx[_null] * np.ones(T, dtype=int)
    queries = word_to_idx[_null] * np.ones((len(ex)-sLen, 5), dtype=int)
    
    pos=0
    for idx, sent in enumerate(ex):
        if idx<sLen:
            sent = [word_to_idx[_start]] + [word_to_idx[x] for x in sent.split(' ')] + [word_to_idx[_end]]
            supports[pos:pos+T2] = sent +  [word_to_idx[_null]]*(T2-len(sent))
            pos += T2
        else:
            sent = sent.split(',')[0]
            sent = [word_to_idx[_query]] + [word_to_idx[x] for x in sent.split(' ')] + [word_to_idx[_end]]
            sent = sent + [word_to_idx[_null]]*(5-len(sent)) #null pad the sentence
            queries[idx-sLen, :] = sent
    
    answers = np.asarray([word_to_idx[x.split(',')[1]] for x in ex[sLen:]]).reshape(len(ex)-sLen, 1)
    for i in xrange(queries.shape[0]):
        data.append(np.hstack((supports, queries[i,:], answers[i,:])))

data = np.asarray(data)
data_train = data[:-1000,:]
data_test = data[-1000:,:]
print data_train.shape









    



1000 examples
14 supporting facts and questions at most
5 words per sentence at most
159 total words
(3275, 76)



In [21]:

    
model = SeqNN(word_to_idx, cell_type='rnn', hidden_dim=256, wordvec_dim=512, sentlen=T2, storylen=T, qlen=5)
solver = SeqNNSolver(model, data_train[:50],
           update_rule='adam',
           num_epochs=200,
           batch_size=25,
           optim_config={
             'learning_rate': 1e-3,
           },
           lr_decay=.995,
           verbose=True, print_every=10,
         )
solver.train()

# Plot the training losses
plt.plot(solver.loss_history)
plt.xlabel('Iteration')
plt.ylabel('Loss')
plt.title('Training loss history')
plt.show()









    



(Iteration 1 / 400) loss: 128.258598
(Iteration 11 / 400) loss: 83.101524
(Iteration 21 / 400) loss: 75.585288
(Iteration 31 / 400) loss: 60.214240
(Iteration 41 / 400) loss: 51.096577
(Iteration 51 / 400) loss: 39.321050
(Iteration 61 / 400) loss: 33.096001
(Iteration 71 / 400) loss: 36.949717
(Iteration 81 / 400) loss: 34.117601
(Iteration 91 / 400) loss: 20.690696
(Iteration 101 / 400) loss: 27.330980
(Iteration 111 / 400) loss: 25.262987
(Iteration 121 / 400) loss: 19.611419
(Iteration 131 / 400) loss: 17.353488
(Iteration 141 / 400) loss: 15.824165
(Iteration 151 / 400) loss: 10.340389
(Iteration 161 / 400) loss: 7.727202
(Iteration 171 / 400) loss: 4.228136
(Iteration 181 / 400) loss: 3.295185
(Iteration 191 / 400) loss: 2.525980
(Iteration 201 / 400) loss: 3.267241
(Iteration 211 / 400) loss: 1.748517
(Iteration 221 / 400) loss: 1.858967
(Iteration 231 / 400) loss: 2.187652
(Iteration 241 / 400) loss: 2.311466
(Iteration 251 / 400) loss: 1.437305
(Iteration 261 / 400) loss: 1.282803
(Iteration 271 / 400) loss: 2.314823
(Iteration 281 / 400) loss: 1.214467
(Iteration 291 / 400) loss: 1.186774
(Iteration 301 / 400) loss: 1.414138
(Iteration 311 / 400) loss: 1.082849
(Iteration 321 / 400) loss: 1.013441
(Iteration 331 / 400) loss: 1.049750
(Iteration 341 / 400) loss: 0.622629
(Iteration 351 / 400) loss: 0.968325
(Iteration 361 / 400) loss: 0.775650
(Iteration 371 / 400) loss: 0.779028
(Iteration 381 / 400) loss: 0.600774
(Iteration 391 / 400) loss: 0.807630



In [36]:

    
minibatch = data_train[:50]
print "Train:",
answ=model.loss(minibatch, sample=True)
print (answ==minibatch[:,-1]).mean()

story=" ".join([words[x] for x in data_train[0,:T]]).split(_null)
for x in story:
  if len(x.split(' '))>2:
    print x.strip()
i=0
while np.all(data_train[0,:T]==data_train[i,:T]):
  print " ".join([words[x] for x in data_train[i,T:T+6]])
  i=i+1

print
print "Other answers:"
print "\n".join([words[x]+" "+words[y] for x,y in zip(model.loss(minibatch, sample=True), minibatch[:,-1])])









    



Train: 1.0
<Start> hasan parka gitti . <End>
<Start> sinan eva gitti . <End>
<Start> hasan servisa gitti . <End>
<Start> emre tershanea gitti . <End>
<Start> ali boluma gitti . <End>
<Query> hasan nerede ? <End> servis
<Query> sinan nerede ? <End> ev
<Query> emre nerede ? <End> tershane
<Query> ali nerede ? <End> bolum

Other answers:
servis servis
ev ev
tershane tershane
bolum bolum
kantin kantin
kantin kantin
kamyon kamyon
ev ev
araba araba
labaratuvar labaratuvar
araba araba
kantin kantin
masa masa
sira sira
masa masa
lastikci lastikci
lastikci lastikci
otobus otobus
otobus otobus
okul okul
hastane hastane
tamirhane tamirhane
tamirhane tamirhane
sandalye sandalye
hastane hastane
servis servis
hastane hastane
tuvalet tuvalet
tuvalet tuvalet
tuvalet tuvalet
tuvalet tuvalet
masa masa
oda oda
servis servis
kamyon kamyon
dersane dersane
sinif sinif
sinif sinif
sinif sinif
dersane dersane
oda oda
banyo banyo
oda oda
oda oda
oda oda
duvar duvar
dersane dersane
ev ev
ev ev
bahce bahce



In [39]:

    
model = SeqNN(word_to_idx, cell_type='rnn', hidden_dim=256, wordvec_dim=512, sentlen=T2, storylen=T, qlen=5)
solver = SeqNNSolver(model, data_train,
           update_rule='adam',
           num_epochs=200,
           batch_size=25,
           optim_config={
             'learning_rate': 5e-4,
           },
           lr_decay=.995,
           verbose=True, print_every=10,
         )
solver.train()

# Plot the training losses
plt.plot(solver.loss_history)
plt.xlabel('Iteration')
plt.ylabel('Loss')
plt.title('Training loss history')
plt.show()









    



(Iteration 1 / 26200) loss: 126.616328
(Iteration 11 / 26200) loss: 108.763675
(Iteration 21 / 26200) loss: 114.036976
(Iteration 31 / 26200) loss: 94.892302
(Iteration 41 / 26200) loss: 88.620096
(Iteration 51 / 26200) loss: 87.276733
(Iteration 61 / 26200) loss: 94.296062
(Iteration 71 / 26200) loss: 86.945463
(Iteration 81 / 26200) loss: 88.694498
(Iteration 91 / 26200) loss: 88.445670
(Iteration 101 / 26200) loss: 88.684612
(Iteration 111 / 26200) loss: 83.706617
(Iteration 121 / 26200) loss: 89.479181
(Iteration 131 / 26200) loss: 88.169860
(Iteration 141 / 26200) loss: 85.719050
(Iteration 151 / 26200) loss: 83.767701
(Iteration 161 / 26200) loss: 86.055981
(Iteration 171 / 26200) loss: 83.677506
(Iteration 181 / 26200) loss: 84.988204
(Iteration 191 / 26200) loss: 86.173574
(Iteration 201 / 26200) loss: 88.236262
(Iteration 211 / 26200) loss: 84.856608
(Iteration 221 / 26200) loss: 84.126475
(Iteration 231 / 26200) loss: 83.761531
(Iteration 241 / 26200) loss: 83.311384
(Iteration 251 / 26200) loss: 81.622235
(Iteration 261 / 26200) loss: 86.162872
(Iteration 271 / 26200) loss: 88.562687
(Iteration 281 / 26200) loss: 82.753036
(Iteration 291 / 26200) loss: 87.193804
(Iteration 301 / 26200) loss: 83.344676
(Iteration 311 / 26200) loss: 85.032893
(Iteration 321 / 26200) loss: 85.856101
(Iteration 331 / 26200) loss: 86.497266
(Iteration 341 / 26200) loss: 82.720618
(Iteration 351 / 26200) loss: 82.219337
(Iteration 361 / 26200) loss: 84.755346
(Iteration 371 / 26200) loss: 81.942326
(Iteration 381 / 26200) loss: 85.558323
(Iteration 391 / 26200) loss: 85.293972
(Iteration 401 / 26200) loss: 83.417163
(Iteration 411 / 26200) loss: 81.624023
(Iteration 421 / 26200) loss: 83.899959
(Iteration 431 / 26200) loss: 85.002366
(Iteration 441 / 26200) loss: 82.407616
(Iteration 451 / 26200) loss: 78.953508
(Iteration 461 / 26200) loss: 79.234879
(Iteration 471 / 26200) loss: 83.878361
(Iteration 481 / 26200) loss: 85.053909
(Iteration 491 / 26200) loss: 73.773758
(Iteration 501 / 26200) loss: 88.979410
(Iteration 511 / 26200) loss: 80.507027
(Iteration 521 / 26200) loss: 84.152142
(Iteration 531 / 26200) loss: 83.064429
(Iteration 541 / 26200) loss: 74.799859
(Iteration 551 / 26200) loss: 71.604032
(Iteration 561 / 26200) loss: 73.916109
(Iteration 571 / 26200) loss: 74.965385
(Iteration 581 / 26200) loss: 70.861254
(Iteration 591 / 26200) loss: 70.570595
(Iteration 601 / 26200) loss: 66.988349
(Iteration 611 / 26200) loss: 58.245638
(Iteration 621 / 26200) loss: 63.881130
(Iteration 631 / 26200) loss: 63.738363
(Iteration 641 / 26200) loss: 61.015896
(Iteration 651 / 26200) loss: 56.968098
(Iteration 661 / 26200) loss: 64.105998
(Iteration 671 / 26200) loss: 59.640458
(Iteration 681 / 26200) loss: 54.453225
(Iteration 691 / 26200) loss: 52.143330
(Iteration 701 / 26200) loss: 61.991041
(Iteration 711 / 26200) loss: 60.971153
(Iteration 721 / 26200) loss: 55.757916
(Iteration 731 / 26200) loss: 57.593503
(Iteration 741 / 26200) loss: 63.025485
(Iteration 751 / 26200) loss: 50.002991
(Iteration 761 / 26200) loss: 54.624563
(Iteration 771 / 26200) loss: 60.330549
(Iteration 781 / 26200) loss: 66.414099
(Iteration 791 / 26200) loss: 54.175645
(Iteration 801 / 26200) loss: 56.338882
(Iteration 811 / 26200) loss: 43.180775
(Iteration 821 / 26200) loss: 51.960073
(Iteration 831 / 26200) loss: 55.453755
(Iteration 841 / 26200) loss: 64.571873
(Iteration 851 / 26200) loss: 49.404707
(Iteration 861 / 26200) loss: 50.079639
(Iteration 871 / 26200) loss: 50.285446
(Iteration 881 / 26200) loss: 41.063170
(Iteration 891 / 26200) loss: 47.419615
(Iteration 901 / 26200) loss: 50.322903
(Iteration 911 / 26200) loss: 42.103329
(Iteration 921 / 26200) loss: 51.156716
(Iteration 931 / 26200) loss: 52.538922
(Iteration 941 / 26200) loss: 49.564314
(Iteration 951 / 26200) loss: 47.971157
(Iteration 961 / 26200) loss: 48.335861
(Iteration 971 / 26200) loss: 45.147315
(Iteration 981 / 26200) loss: 49.986250
(Iteration 991 / 26200) loss: 52.911874
(Iteration 1001 / 26200) loss: 57.735423
(Iteration 1011 / 26200) loss: 39.328250
(Iteration 1021 / 26200) loss: 41.629968
(Iteration 1031 / 26200) loss: 50.150285
(Iteration 1041 / 26200) loss: 52.725989
(Iteration 1051 / 26200) loss: 55.427037
(Iteration 1061 / 26200) loss: 49.395836
(Iteration 1071 / 26200) loss: 43.187689
(Iteration 1081 / 26200) loss: 54.023725
(Iteration 1091 / 26200) loss: 42.773999
(Iteration 1101 / 26200) loss: 35.425389
(Iteration 1111 / 26200) loss: 44.134052
(Iteration 1121 / 26200) loss: 45.432451
(Iteration 1131 / 26200) loss: 28.793630
(Iteration 1141 / 26200) loss: 48.635327
(Iteration 1151 / 26200) loss: 43.827361
(Iteration 1161 / 26200) loss: 39.236529
(Iteration 1171 / 26200) loss: 35.297829
(Iteration 1181 / 26200) loss: 42.281501
(Iteration 1191 / 26200) loss: 39.322437
(Iteration 1201 / 26200) loss: 38.375813
(Iteration 1211 / 26200) loss: 42.094239
(Iteration 1221 / 26200) loss: 49.081314
(Iteration 1231 / 26200) loss: 39.149990
(Iteration 1241 / 26200) loss: 40.483104
(Iteration 1251 / 26200) loss: 40.589779
(Iteration 1261 / 26200) loss: 29.586692
(Iteration 1271 / 26200) loss: 42.028252
(Iteration 1281 / 26200) loss: 36.659263
(Iteration 1291 / 26200) loss: 27.963913
(Iteration 1301 / 26200) loss: 40.383772
(Iteration 1311 / 26200) loss: 43.186782
(Iteration 1321 / 26200) loss: 31.515655
(Iteration 1331 / 26200) loss: 43.722836
(Iteration 1341 / 26200) loss: 39.419476
(Iteration 1351 / 26200) loss: 31.254168
(Iteration 1361 / 26200) loss: 31.079687
(Iteration 1371 / 26200) loss: 37.053453
(Iteration 1381 / 26200) loss: 41.930790
(Iteration 1391 / 26200) loss: 45.231998
(Iteration 1401 / 26200) loss: 36.082692
(Iteration 1411 / 26200) loss: 37.775605
(Iteration 1421 / 26200) loss: 36.141674
(Iteration 1431 / 26200) loss: 33.318797
(Iteration 1441 / 26200) loss: 34.614832
(Iteration 1451 / 26200) loss: 34.643541
(Iteration 1461 / 26200) loss: 31.477308
(Iteration 1471 / 26200) loss: 27.874107
(Iteration 1481 / 26200) loss: 35.863663
(Iteration 1491 / 26200) loss: 48.074821
(Iteration 1501 / 26200) loss: 39.496545
(Iteration 1511 / 26200) loss: 31.364735
(Iteration 1521 / 26200) loss: 39.305264
(Iteration 1531 / 26200) loss: 41.545768
(Iteration 1541 / 26200) loss: 26.656815
(Iteration 1551 / 26200) loss: 28.179822
(Iteration 1561 / 26200) loss: 40.049759
(Iteration 1571 / 26200) loss: 41.419345
(Iteration 1581 / 26200) loss: 42.054178
(Iteration 1591 / 26200) loss: 28.877681
(Iteration 1601 / 26200) loss: 33.714411
(Iteration 1611 / 26200) loss: 35.119770
(Iteration 1621 / 26200) loss: 36.575974
(Iteration 1631 / 26200) loss: 36.772522
(Iteration 1641 / 26200) loss: 28.936645
(Iteration 1651 / 26200) loss: 27.973163
(Iteration 1661 / 26200) loss: 47.212924
(Iteration 1671 / 26200) loss: 41.384821
(Iteration 1681 / 26200) loss: 33.258876
(Iteration 1691 / 26200) loss: 33.211732
(Iteration 1701 / 26200) loss: 36.095120
(Iteration 1711 / 26200) loss: 36.498307
(Iteration 1721 / 26200) loss: 35.796654
(Iteration 1731 / 26200) loss: 33.296400
(Iteration 1741 / 26200) loss: 28.356342
(Iteration 1751 / 26200) loss: 37.601271
(Iteration 1761 / 26200) loss: 37.059273
(Iteration 1771 / 26200) loss: 33.694307
(Iteration 1781 / 26200) loss: 34.799625
(Iteration 1791 / 26200) loss: 38.425774
(Iteration 1801 / 26200) loss: 32.475425
(Iteration 1811 / 26200) loss: 32.739001
(Iteration 1821 / 26200) loss: 36.520104
(Iteration 1831 / 26200) loss: 38.387975
(Iteration 1841 / 26200) loss: 31.269764
(Iteration 1851 / 26200) loss: 31.857233
(Iteration 1861 / 26200) loss: 33.097647
(Iteration 1871 / 26200) loss: 37.676830
(Iteration 1881 / 26200) loss: 34.960110
(Iteration 1891 / 26200) loss: 34.950160
(Iteration 1901 / 26200) loss: 34.932559
(Iteration 1911 / 26200) loss: 39.115433
(Iteration 1921 / 26200) loss: 34.090056
(Iteration 1931 / 26200) loss: 32.448809
(Iteration 1941 / 26200) loss: 36.701145
(Iteration 1951 / 26200) loss: 29.582484
(Iteration 1961 / 26200) loss: 36.556533
(Iteration 1971 / 26200) loss: 37.710005
(Iteration 1981 / 26200) loss: 25.651852
(Iteration 1991 / 26200) loss: 40.061469
(Iteration 2001 / 26200) loss: 30.557719
(Iteration 2011 / 26200) loss: 34.670625
(Iteration 2021 / 26200) loss: 31.874088
(Iteration 2031 / 26200) loss: 27.817183
(Iteration 2041 / 26200) loss: 34.135466
(Iteration 2051 / 26200) loss: 29.398999
(Iteration 2061 / 26200) loss: 30.083262
(Iteration 2071 / 26200) loss: 24.443106
(Iteration 2081 / 26200) loss: 30.350723
(Iteration 2091 / 26200) loss: 25.504182
(Iteration 2101 / 26200) loss: 31.780518
(Iteration 2111 / 26200) loss: 32.744480
(Iteration 2121 / 26200) loss: 36.257414
(Iteration 2131 / 26200) loss: 28.555508
(Iteration 2141 / 26200) loss: 30.181966
(Iteration 2151 / 26200) loss: 36.976379
(Iteration 2161 / 26200) loss: 30.604407
(Iteration 2171 / 26200) loss: 28.181526
(Iteration 2181 / 26200) loss: 30.423182
(Iteration 2191 / 26200) loss: 26.138973
(Iteration 2201 / 26200) loss: 28.784773
(Iteration 2211 / 26200) loss: 25.150039
(Iteration 2221 / 26200) loss: 27.504381
(Iteration 2231 / 26200) loss: 27.732160
(Iteration 2241 / 26200) loss: 30.204853
(Iteration 2251 / 26200) loss: 30.561388
(Iteration 2261 / 26200) loss: 32.185794
(Iteration 2271 / 26200) loss: 31.409735
(Iteration 2281 / 26200) loss: 38.523318
(Iteration 2291 / 26200) loss: 27.525305
(Iteration 2301 / 26200) loss: 29.095237
(Iteration 2311 / 26200) loss: 30.723694
(Iteration 2321 / 26200) loss: 27.293071
(Iteration 2331 / 26200) loss: 34.992586
(Iteration 2341 / 26200) loss: 27.791445
(Iteration 2351 / 26200) loss: 27.917021
(Iteration 2361 / 26200) loss: 29.576047
(Iteration 2371 / 26200) loss: 27.192113
(Iteration 2381 / 26200) loss: 25.464857
(Iteration 2391 / 26200) loss: 24.116478
(Iteration 2401 / 26200) loss: 31.588884
(Iteration 2411 / 26200) loss: 34.547868
(Iteration 2421 / 26200) loss: 29.983691
(Iteration 2431 / 26200) loss: 22.621570
(Iteration 2441 / 26200) loss: 21.492020
(Iteration 2451 / 26200) loss: 22.842440
(Iteration 2461 / 26200) loss: 22.926895
(Iteration 2471 / 26200) loss: 27.344953
(Iteration 2481 / 26200) loss: 25.846984
(Iteration 2491 / 26200) loss: 32.619621
(Iteration 2501 / 26200) loss: 34.663518
(Iteration 2511 / 26200) loss: 21.030919
(Iteration 2521 / 26200) loss: 24.978169
(Iteration 2531 / 26200) loss: 33.702043
(Iteration 2541 / 26200) loss: 33.192913
(Iteration 2551 / 26200) loss: 30.050957
(Iteration 2561 / 26200) loss: 30.225382
(Iteration 2571 / 26200) loss: 20.939890
(Iteration 2581 / 26200) loss: 21.348299
(Iteration 2591 / 26200) loss: 26.003284
(Iteration 2601 / 26200) loss: 31.736941
(Iteration 2611 / 26200) loss: 23.977078
(Iteration 2621 / 26200) loss: 27.464166
(Iteration 2631 / 26200) loss: 26.471613
(Iteration 2641 / 26200) loss: 30.489522
(Iteration 2651 / 26200) loss: 22.846763
(Iteration 2661 / 26200) loss: 20.295743
(Iteration 2671 / 26200) loss: 25.840592
(Iteration 2681 / 26200) loss: 23.777605
(Iteration 2691 / 26200) loss: 19.838144
(Iteration 2701 / 26200) loss: 26.927247
(Iteration 2711 / 26200) loss: 29.693727
(Iteration 2721 / 26200) loss: 26.298725
(Iteration 2731 / 26200) loss: 22.719394
(Iteration 2741 / 26200) loss: 28.113515
(Iteration 2751 / 26200) loss: 20.950662
(Iteration 2761 / 26200) loss: 17.705869
(Iteration 2771 / 26200) loss: 18.813965
(Iteration 2781 / 26200) loss: 20.710283
(Iteration 2791 / 26200) loss: 31.205057
(Iteration 2801 / 26200) loss: 20.206250
(Iteration 2811 / 26200) loss: 17.876546
(Iteration 2821 / 26200) loss: 22.266368
(Iteration 2831 / 26200) loss: 24.569235
(Iteration 2841 / 26200) loss: 20.993207
(Iteration 2851 / 26200) loss: 31.682604
(Iteration 2861 / 26200) loss: 23.296351
(Iteration 2871 / 26200) loss: 30.662372
(Iteration 2881 / 26200) loss: 28.485033
(Iteration 2891 / 26200) loss: 18.963873
(Iteration 2901 / 26200) loss: 37.730987
(Iteration 2911 / 26200) loss: 28.806650
(Iteration 2921 / 26200) loss: 23.526395
(Iteration 2931 / 26200) loss: 25.323866
(Iteration 2941 / 26200) loss: 17.084205
(Iteration 2951 / 26200) loss: 29.581016
(Iteration 2961 / 26200) loss: 17.127457
(Iteration 2971 / 26200) loss: 25.224211
(Iteration 2981 / 26200) loss: 26.150228
(Iteration 2991 / 26200) loss: 26.200263
(Iteration 3001 / 26200) loss: 15.033421
(Iteration 3011 / 26200) loss: 24.650265
(Iteration 3021 / 26200) loss: 21.705203
(Iteration 3031 / 26200) loss: 23.475334
(Iteration 3041 / 26200) loss: 20.378211
(Iteration 3051 / 26200) loss: 21.007159
(Iteration 3061 / 26200) loss: 18.294120
(Iteration 3071 / 26200) loss: 17.660905
(Iteration 3081 / 26200) loss: 22.405179
(Iteration 3091 / 26200) loss: 21.211227
(Iteration 3101 / 26200) loss: 24.907132
(Iteration 3111 / 26200) loss: 32.216388
(Iteration 3121 / 26200) loss: 26.512134
(Iteration 3131 / 26200) loss: 21.827346
(Iteration 3141 / 26200) loss: 29.027101
(Iteration 3151 / 26200) loss: 21.710190
(Iteration 3161 / 26200) loss: 23.589501
(Iteration 3171 / 26200) loss: 20.962455
(Iteration 3181 / 26200) loss: 17.278545
(Iteration 3191 / 26200) loss: 22.388973
(Iteration 3201 / 26200) loss: 17.181597
(Iteration 3211 / 26200) loss: 18.107490
(Iteration 3221 / 26200) loss: 13.479511
(Iteration 3231 / 26200) loss: 20.794867
(Iteration 3241 / 26200) loss: 21.717627
(Iteration 3251 / 26200) loss: 22.535712
(Iteration 3261 / 26200) loss: 21.361420
(Iteration 3271 / 26200) loss: 19.522429
(Iteration 3281 / 26200) loss: 21.923779
(Iteration 3291 / 26200) loss: 26.734479
(Iteration 3301 / 26200) loss: 21.246532
(Iteration 3311 / 26200) loss: 20.378908
(Iteration 3321 / 26200) loss: 23.679659
(Iteration 3331 / 26200) loss: 14.484422
(Iteration 3341 / 26200) loss: 23.894210
(Iteration 3351 / 26200) loss: 27.608864
(Iteration 3361 / 26200) loss: 28.177502
(Iteration 3371 / 26200) loss: 29.498427
(Iteration 3381 / 26200) loss: 19.952012
(Iteration 3391 / 26200) loss: 27.466600
(Iteration 3401 / 26200) loss: 15.568120
(Iteration 3411 / 26200) loss: 24.386896
(Iteration 3421 / 26200) loss: 19.725910
(Iteration 3431 / 26200) loss: 22.443110
(Iteration 3441 / 26200) loss: 19.668321
(Iteration 3451 / 26200) loss: 22.353740
(Iteration 3461 / 26200) loss: 23.080797
(Iteration 3471 / 26200) loss: 18.089179
(Iteration 3481 / 26200) loss: 18.149281
(Iteration 3491 / 26200) loss: 15.545364
(Iteration 3501 / 26200) loss: 21.492969
(Iteration 3511 / 26200) loss: 17.896906
(Iteration 3521 / 26200) loss: 15.548452
(Iteration 3531 / 26200) loss: 20.025540
(Iteration 3541 / 26200) loss: 16.178953
(Iteration 3551 / 26200) loss: 14.415095
(Iteration 3561 / 26200) loss: 19.430548
(Iteration 3571 / 26200) loss: 20.482762
(Iteration 3581 / 26200) loss: 24.158933
(Iteration 3591 / 26200) loss: 26.691347
(Iteration 3601 / 26200) loss: 17.948192
(Iteration 3611 / 26200) loss: 23.124573
(Iteration 3621 / 26200) loss: 18.039681
(Iteration 3631 / 26200) loss: 20.153910
(Iteration 3641 / 26200) loss: 19.245832
(Iteration 3651 / 26200) loss: 18.891417
(Iteration 3661 / 26200) loss: 21.292363
(Iteration 3671 / 26200) loss: 16.516590
(Iteration 3681 / 26200) loss: 12.688963
(Iteration 3691 / 26200) loss: 18.246902
(Iteration 3701 / 26200) loss: 18.946485
(Iteration 3711 / 26200) loss: 20.602102
(Iteration 3721 / 26200) loss: 17.517661
(Iteration 3731 / 26200) loss: 13.470883
(Iteration 3741 / 26200) loss: 20.581190
(Iteration 3751 / 26200) loss: 21.604046
(Iteration 3761 / 26200) loss: 17.846724
(Iteration 3771 / 26200) loss: 16.788488
(Iteration 3781 / 26200) loss: 15.960245
(Iteration 3791 / 26200) loss: 17.000230
(Iteration 3801 / 26200) loss: 13.943610
(Iteration 3811 / 26200) loss: 13.716915
(Iteration 3821 / 26200) loss: 13.471210
(Iteration 3831 / 26200) loss: 16.680750
(Iteration 3841 / 26200) loss: 17.081893
(Iteration 3851 / 26200) loss: 18.125625
(Iteration 3861 / 26200) loss: 19.770091
(Iteration 3871 / 26200) loss: 19.757729
(Iteration 3881 / 26200) loss: 15.563616
(Iteration 3891 / 26200) loss: 19.171108
(Iteration 3901 / 26200) loss: 15.134755
(Iteration 3911 / 26200) loss: 18.389640
(Iteration 3921 / 26200) loss: 17.819007
(Iteration 3931 / 26200) loss: 13.936483
(Iteration 3941 / 26200) loss: 21.649359
(Iteration 3951 / 26200) loss: 18.273774
(Iteration 3961 / 26200) loss: 18.614070
(Iteration 3971 / 26200) loss: 12.925136
(Iteration 3981 / 26200) loss: 16.883180
(Iteration 3991 / 26200) loss: 15.412760
(Iteration 4001 / 26200) loss: 20.759377
(Iteration 4011 / 26200) loss: 10.521968
(Iteration 4021 / 26200) loss: 13.309173
(Iteration 4031 / 26200) loss: 12.771969
(Iteration 4041 / 26200) loss: 13.780694
(Iteration 4051 / 26200) loss: 22.886476
(Iteration 4061 / 26200) loss: 15.875862
(Iteration 4071 / 26200) loss: 13.953902
(Iteration 4081 / 26200) loss: 12.452398
(Iteration 4091 / 26200) loss: 11.023160
(Iteration 4101 / 26200) loss: 18.962941
(Iteration 4111 / 26200) loss: 17.738695
(Iteration 4121 / 26200) loss: 12.746423
(Iteration 4131 / 26200) loss: 14.373978
(Iteration 4141 / 26200) loss: 19.067699
(Iteration 4151 / 26200) loss: 9.996589
(Iteration 4161 / 26200) loss: 10.555586
(Iteration 4171 / 26200) loss: 11.696163
(Iteration 4181 / 26200) loss: 13.994869
(Iteration 4191 / 26200) loss: 13.847983
(Iteration 4201 / 26200) loss: 13.536066
(Iteration 4211 / 26200) loss: 14.169267
(Iteration 4221 / 26200) loss: 11.473825
(Iteration 4231 / 26200) loss: 12.795037
(Iteration 4241 / 26200) loss: 17.185159
(Iteration 4251 / 26200) loss: 12.266169
(Iteration 4261 / 26200) loss: 14.061187
(Iteration 4271 / 26200) loss: 8.798089
(Iteration 4281 / 26200) loss: 9.742094
(Iteration 4291 / 26200) loss: 15.034741
(Iteration 4301 / 26200) loss: 11.607437
(Iteration 4311 / 26200) loss: 9.324351






    



---------------------------------------------------------------------------
KeyboardInterrupt                         Traceback (most recent call last)
<ipython-input-39-471fe74ee4dc> in <module>()
     10            verbose=True, print_every=10,
     11          )
---> 12 solver.train()
     13 
     14 # Plot the training losses

/home/kadircet/repos/ceng/783/project/solver.pyc in train(self)
    145 
    146     for t in xrange(num_iterations):
--> 147       self._step()
    148 
    149       # Maybe print training loss

/home/kadircet/repos/ceng/783/project/solver.pyc in _step(self)
     53     minibatch = self.data[idx,:]
     54     # Compute loss and gradient
---> 55     loss, grads = self.model.loss(minibatch)
     56     self.loss_history.append(loss)#/self.batch_size)
     57 

/home/kadircet/repos/ceng/783/project/approach1.py in loss(self, stories, sample)
     90       if self.cell_type=='lstm':
     91           func = lstm_forward
---> 92       h, cache_fwd = func(X_in, h0, Wx1, Wh1, b1)
     93       h = h[:, -1, :] # get only the last output
     94 

/home/kadircet/repos/ceng/783/project/layers.pyc in rnn_forward(x, h0, Wx, Wh, b)
    410   h = np.zeros((x.shape[0], x.shape[1], Wx.shape[1]))
    411   for i in xrange(x.shape[1]):
--> 412       h[:,i,:], _cache = rnn_step_forward(x[:,i,:], h0 if i==0 else h[:,i-1,:], Wx, Wh, b)
    413       cache.append(_cache)
    414   ##############################################################################

/home/kadircet/repos/ceng/783/project/layers.pyc in rnn_step_forward(x, prev_h, Wx, Wh, b)
    340   # and cache variables respectively.                                          #
    341   ##############################################################################
--> 342   next_h = np.tanh(x.dot(Wx)+prev_h.dot(Wh)+b)
    343   cache = (x, prev_h, Wx, Wh, next_h)
    344   ##############################################################################

KeyboardInterrupt:



In [40]:

    
# Plot the training losses
plt.plot(solver.loss_history)
plt.xlabel('Iteration')
plt.ylabel('Loss')
plt.title('Training loss history')
plt.show()

print "Train:",
answ=model.loss(data_train[:1000,:], sample=True)
print (answ==data_train[:1000,-1]).mean()
minibatch = data_train[:10]
print "\n".join([words[x]+" "+words[y] for x,y in zip(model.loss(minibatch, sample=True), minibatch[:,-1])])

print
print "Test:",
answ=model.loss(data_test, sample=True)
print (answ==data_test[:,-1]).mean()
minibatch = data_test[:10]
print "\n".join([words[x]+" "+words[y] for x,y in zip(model.loss(minibatch, sample=True), minibatch[:,-1])])









    












    



Train: 0.869
servis servis
servis ev
bolum tershane
bolum bolum
kantin kantin
kantin kantin
otobus kamyon
kantin ev
araba araba
labaratuvar labaratuvar

Test: 0.379
tamirhane bolum
tamirhane tamirhane
bolum tamirhane
araba tuvalet
araba servis
araba banyo
araba labaratuvar
araba araba
araba araba
ev servis



In [ ]:



In [ ]:



In [ ]:



In [ ]: