In [1]:
import gym
import numpy as np

In [2]:
env = gym.make('FrozenLake8x8-v0')


[2017-08-01 00:09:23,990] Making new env: FrozenLake8x8-v0

In [3]:
#Initialize table with all zeros
#Q = np.zeros([env.observation_space.n,env.action_space.n])
Q= np.random.rand(env.observation_space.n, env.action_space.n) * 0.1 - 0.05
# Set learning p-arameters
lr = 0.03
y = 0.9
num_episodes = 1000
#create lists to contain total rewards and steps per episode
#jList = []
rList = []
for i in range(num_episodes):
    #Reset environment and get first new observation
    s = env.reset()
    rAll = 0
    d = False
    j = 0
    #The Q-Table learning algorithm
    while j < 99:
        j+=1
        #Choose an action by greedily (with noise) picking from Q table
        if np.random.rand() < 0.001:
            a = np.random.randint(env.action_space.n)
        else:
            a = np.argmax(Q[s,:] )
        #Get new state and reward from environment
        s1,reward,done,_ = env.step(a)
        if done:
            reward = 1.0 if reward > 0.0 else -1.0
        else:
            reward = 0.0
        #Update Q-Table with new knowledge
        Q[s,a] = Q[s,a] + lr*(reward + y*np.max(Q[s1,:]) - Q[s,a])
        rAll += reward
        s = s1
        if d == True:
            break
    #jList.append(j)
    rList.append(rAll)

In [4]:
print "Score over time: " +  str(sum(rList)/num_episodes)


Score over time: -13.045

In [5]:
print "Final Q-Table Values"
print Q


Final Q-Table Values
[[ -2.27523804e-02  -6.58172051e-03  -6.01378524e-03  -9.09607754e-03]
 [ -2.89690713e-02  -3.64924713e-02  -2.67823564e-02  -3.24368292e-03]
 [ -1.96455229e-03  -1.73811503e-03  -9.22579799e-03  -1.95688272e-03]
 [ -1.46140248e-03  -2.79849354e-02  -2.44369903e-02  -9.42630214e-04]
 [ -1.19831650e-02  -2.23949574e-03  -3.49668859e-02  -2.98275118e-04]
 [  1.03550219e-04  -1.97582333e-02  -7.75989518e-03  -4.16321556e-02]
 [ -4.12629133e-02  -1.43521627e-02   1.61633172e-03  -1.79601768e-02]
 [ -1.26595552e-02   1.94237816e-03  -1.79049911e-02   1.94880143e-03]
 [ -1.35062121e-02  -1.33665420e-02  -1.04740832e-02  -2.14298373e-02]
 [ -1.89546094e-02  -5.34890997e-03  -1.74705220e-02  -4.00944707e-03]
 [ -4.16279191e-03  -1.51927341e-02  -3.56440712e-02  -1.79924526e-03]
 [ -1.04827271e-01  -8.58018655e-02  -5.51852008e-02  -7.70676127e-04]
 [ -3.28309358e-02  -3.10157062e-02  -3.27924032e-02  -1.29141100e-04]
 [ -8.69106835e-03  -8.76807083e-03  -8.67815218e-03   3.65888285e-04]
 [  1.39822524e-03  -4.51179553e-02  -2.23209294e-02   1.43795755e-03]
 [ -2.92645844e-02   2.48624209e-03   2.50969962e-03  -4.02969051e-02]
 [ -3.85077985e-02  -3.69170468e-02  -4.81091934e-02  -2.39384507e-02]
 [ -5.25091129e-02  -5.59133886e-02  -5.53676433e-02  -5.64546054e-02]
 [ -1.58181620e-01  -3.85623850e-01  -3.05337192e-01  -3.40405211e-01]
 [ -8.23697971e+00  -8.23304008e+00  -8.23449913e+00  -8.23633296e+00]
 [ -3.07657044e-01  -2.58024821e-01  -8.60105294e-02  -3.07296425e-01]
 [ -3.72138539e-02  -9.73596832e-02  -1.25662549e-01  -2.26688285e-02]
 [  2.80522143e-03  -4.68122667e-03   2.97610774e-03   2.76146854e-03]
 [  3.43235940e-03  -3.80692641e-03  -1.30503249e-02   3.46090328e-03]
 [ -4.07603274e-03  -2.96869110e-02  -6.68992806e-03  -4.19323244e-03]
 [ -1.40651575e-01  -1.43859295e-01  -1.42171562e-01  -1.26823837e-01]
 [ -3.55136106e-01  -4.85741413e-01  -4.94681095e-01  -5.04481809e-01]
 [ -2.09078977e+00  -1.88033813e+00  -2.14990053e+00  -2.03621258e+00]
 [ -4.94503607e-01  -5.60765670e-01  -6.20954039e-01  -5.89589505e-01]
 [ -4.70663268e+00  -4.70662203e+00  -4.71333225e+00  -4.70428479e+00]
 [ -6.77592415e-03  -5.00572113e-02   3.03911396e-03   4.73308884e-04]
 [  4.87806716e-03   4.80604812e-03  -1.03701033e-02   5.01364354e-03]
 [  3.90314015e-03  -2.79839927e-02   3.10038481e-03  -7.19019349e-03]
 [ -6.21851492e-01  -5.24555094e-01  -6.39346809e-01  -4.87998126e-01]
 [ -2.23465506e+00  -2.09610464e+00  -2.10804922e+00  -2.06755810e+00]
 [ -9.21249958e+00  -9.21266207e+00  -9.21205468e+00  -9.21286993e+00]
 [ -2.48960035e-01  -2.52749236e-01  -1.12319792e-01  -2.73146307e-01]
 [ -6.83436898e-02  -1.78075669e-02  -1.50967052e-01  -1.63488414e-01]
 [ -9.12626973e-02  -4.13690127e-02  -8.22589883e-02  -1.30354234e-03]
 [ -3.29774670e-03  -3.78938719e-02  -3.55370634e-03  -3.68195950e-02]
 [  1.17474639e-02  -4.64523236e-02  -3.95367472e-02  -2.36213807e-02]
 [ -5.43986550e+00  -5.43795140e+00  -5.44039078e+00  -5.43521971e+00]
 [ -8.51209209e+00  -8.51236425e+00  -8.51203733e+00  -8.51041024e+00]
 [ -5.56335440e-01  -6.99206161e-01  -4.70771227e-01  -6.66622051e-01]
 [ -1.07887485e-01  -1.15215564e-01  -9.14788503e-02  -4.40982914e-02]
 [ -1.81036158e-02  -5.37784181e-02  -2.82531516e-02  -4.64429551e-02]
 [ -2.81816107e+00  -2.81262813e+00  -2.81385144e+00  -2.81967604e+00]
 [ -1.07610386e-01  -9.43445994e-02  -3.56026486e-02  -1.24854970e-01]
 [  1.83127055e-02   6.12180492e-04  -2.21366068e-02  -1.07606689e-02]
 [ -2.29672250e+00  -2.28744065e+00  -2.27495135e+00  -2.27618959e+00]
 [ -1.62170841e-01  -1.33666997e-01  -2.40159376e-01  -1.84467887e-01]
 [ -2.28029357e-01  -2.23648398e-01  -1.69178567e-01  -2.27027582e-01]
 [ -3.14035097e+00  -3.12759749e+00  -3.14192589e+00  -3.14151743e+00]
 [ -2.01576541e-01  -1.62502489e-01  -1.60307453e-01  -2.42107346e-01]
 [ -2.56394659e+00  -2.58250954e+00  -2.56660567e+00  -2.58220716e+00]
 [ -2.60270675e-01  -1.94063922e-01  -2.42110758e-01  -2.08776575e-01]
 [  2.26540022e-02   2.57124355e-02   2.54476959e-02   1.51565322e-02]
 [ -3.24914012e-02   1.75010746e-02  -1.07130341e-02  -4.55587727e-02]
 [ -8.21003967e-03  -6.31008924e-02  -4.96957585e-02  -1.54150322e-02]
 [ -2.64097249e+00  -2.64738502e+00  -2.63372995e+00  -2.65094987e+00]
 [ -1.06260363e-01  -1.01718337e-01  -4.99152659e-02  -3.78365457e-02]
 [ -2.07434892e-03  -3.30126193e-02  -6.71178372e-03  -6.07853965e-04]
 [  1.04309269e-02  -1.91922234e-02  -2.58667763e-02   1.02735346e-02]
 [ -3.63415381e+00  -3.64396276e+00  -3.64149412e+00  -3.63327207e+00]]

In [6]:
s = env.reset()
d=False
while d==False:
    a = np.argmax(Q[s,:])
    s,r,d,x = env.step(a)
    print("%s %s %s %s"%(s,r,d,x))
    env.render()


1 0.0 False {'prob': 0.3333333333333333}
  (Right)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
2 0.0 False {'prob': 0.3333333333333333}
  (Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
10 0.0 False {'prob': 0.3333333333333333}
  (Down)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
9 0.0 False {'prob': 0.3333333333333333}
  (Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
8 0.0 False {'prob': 0.3333333333333333}
  (Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
9 0.0 False {'prob': 0.3333333333333333}
  (Right)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
1 0.0 False {'prob': 0.3333333333333333}
  (Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
0 0.0 False {'prob': 0.3333333333333333}
  (Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
8 0.0 False {'prob': 0.3333333333333333}
  (Right)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
16 0.0 False {'prob': 0.3333333333333333}
  (Right)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
16 0.0 False {'prob': 0.3333333333333333}
  (Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
8 0.0 False {'prob': 0.3333333333333333}
  (Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
0 0.0 False {'prob': 0.3333333333333333}
  (Right)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
1 0.0 False {'prob': 0.3333333333333333}
  (Right)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
2 0.0 False {'prob': 0.3333333333333333}
  (Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
1 0.0 False {'prob': 0.3333333333333333}
  (Down)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
0 0.0 False {'prob': 0.3333333333333333}
  (Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
8 0.0 False {'prob': 0.3333333333333333}
  (Right)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
9 0.0 False {'prob': 0.3333333333333333}
  (Right)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
8 0.0 False {'prob': 0.3333333333333333}
  (Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
16 0.0 False {'prob': 0.3333333333333333}
  (Right)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
8 0.0 False {'prob': 0.3333333333333333}
  (Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
9 0.0 False {'prob': 0.3333333333333333}
  (Right)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
10 0.0 False {'prob': 0.3333333333333333}
  (Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
9 0.0 False {'prob': 0.3333333333333333}
  (Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
10 0.0 False {'prob': 0.3333333333333333}
  (Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
2 0.0 False {'prob': 0.3333333333333333}
  (Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
10 0.0 False {'prob': 0.3333333333333333}
  (Down)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
11 0.0 False {'prob': 0.3333333333333333}
  (Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
12 0.0 False {'prob': 0.3333333333333333}
  (Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
4 0.0 False {'prob': 0.3333333333333333}
  (Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
5 0.0 False {'prob': 0.3333333333333333}
  (Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
13 0.0 False {'prob': 0.3333333333333333}
  (Left)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
5 0.0 False {'prob': 0.3333333333333333}
  (Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
13 0.0 False {'prob': 0.3333333333333333}
  (Left)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
14 0.0 False {'prob': 0.3333333333333333}
  (Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
13 0.0 False {'prob': 0.3333333333333333}
  (Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
12 0.0 False {'prob': 0.3333333333333333}
  (Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
11 0.0 False {'prob': 0.3333333333333333}
  (Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
10 0.0 False {'prob': 0.3333333333333333}
  (Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
2 0.0 False {'prob': 0.3333333333333333}
  (Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
1 0.0 False {'prob': 0.3333333333333333}
  (Down)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
0 0.0 False {'prob': 0.3333333333333333}
  (Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
8 0.0 False {'prob': 0.3333333333333333}
  (Right)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
0 0.0 False {'prob': 0.3333333333333333}
  (Right)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
1 0.0 False {'prob': 0.3333333333333333}
  (Right)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
0 0.0 False {'prob': 0.3333333333333333}
  (Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
0 0.0 False {'prob': 0.3333333333333333}
  (Right)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
1 0.0 False {'prob': 0.3333333333333333}
  (Right)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
0 0.0 False {'prob': 0.3333333333333333}
  (Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
1 0.0 False {'prob': 0.3333333333333333}
  (Right)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
0 0.0 False {'prob': 0.3333333333333333}
  (Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
8 0.0 False {'prob': 0.3333333333333333}
  (Right)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
9 0.0 False {'prob': 0.3333333333333333}
  (Right)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
10 0.0 False {'prob': 0.3333333333333333}
  (Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
11 0.0 False {'prob': 0.3333333333333333}
  (Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
10 0.0 False {'prob': 0.3333333333333333}
  (Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
9 0.0 False {'prob': 0.3333333333333333}
  (Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
10 0.0 False {'prob': 0.3333333333333333}
  (Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
9 0.0 False {'prob': 0.3333333333333333}
  (Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
10 0.0 False {'prob': 0.3333333333333333}
  (Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
9 0.0 False {'prob': 0.3333333333333333}
  (Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
1 0.0 False {'prob': 0.3333333333333333}
  (Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
1 0.0 False {'prob': 0.3333333333333333}
  (Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
1 0.0 False {'prob': 0.3333333333333333}
  (Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
1 0.0 False {'prob': 0.3333333333333333}
  (Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
1 0.0 False {'prob': 0.3333333333333333}
  (Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
1 0.0 False {'prob': 0.3333333333333333}
  (Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
1 0.0 False {'prob': 0.3333333333333333}
  (Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
2 0.0 False {'prob': 0.3333333333333333}
  (Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
1 0.0 False {'prob': 0.3333333333333333}
  (Down)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
1 0.0 False {'prob': 0.3333333333333333}
  (Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
1 0.0 False {'prob': 0.3333333333333333}
  (Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
1 0.0 False {'prob': 0.3333333333333333}
  (Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
0 0.0 False {'prob': 0.3333333333333333}
  (Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
8 0.0 False {'prob': 0.3333333333333333}
  (Right)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
16 0.0 False {'prob': 0.3333333333333333}
  (Right)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
16 0.0 False {'prob': 0.3333333333333333}
  (Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
17 0.0 False {'prob': 0.3333333333333333}
  (Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
25 0.0 False {'prob': 0.3333333333333333}
  (Left)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
26 0.0 False {'prob': 0.3333333333333333}
  (Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
18 0.0 False {'prob': 0.3333333333333333}
  (Left)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
26 0.0 False {'prob': 0.3333333333333333}
  (Left)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
18 0.0 False {'prob': 0.3333333333333333}
  (Left)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
26 0.0 False {'prob': 0.3333333333333333}
  (Left)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
34 0.0 False {'prob': 0.3333333333333333}
  (Left)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
35 0.0 True {'prob': 0.3333333333333333}
  (Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG

In [62]:
s = env.reset()

In [63]:
s,r,d,p = env.step(1)
print("s:%s, r:%s, d:%s, p:%s"%(s,r,d,p))
env.render()


s:1, r:0.0, d:False, p:{'prob': 0.3333333333333333}
  (Down)
SFFF
FHFH
FFFH
HFFG

In [21]:
#left 
#down


  (Down)
SFFF
FHFH
FFFH
HFFG

In [ ]: