In [1]:
import gym
import numpy as np
In [2]:
env = gym.make('FrozenLake8x8-v0')
[2017-08-01 00:09:23,990] Making new env: FrozenLake8x8-v0
In [3]:
#Initialize table with all zeros
#Q = np.zeros([env.observation_space.n,env.action_space.n])
Q= np.random.rand(env.observation_space.n, env.action_space.n) * 0.1 - 0.05
# Set learning p-arameters
lr = 0.03
y = 0.9
num_episodes = 1000
#create lists to contain total rewards and steps per episode
#jList = []
rList = []
for i in range(num_episodes):
#Reset environment and get first new observation
s = env.reset()
rAll = 0
d = False
j = 0
#The Q-Table learning algorithm
while j < 99:
j+=1
#Choose an action by greedily (with noise) picking from Q table
if np.random.rand() < 0.001:
a = np.random.randint(env.action_space.n)
else:
a = np.argmax(Q[s,:] )
#Get new state and reward from environment
s1,reward,done,_ = env.step(a)
if done:
reward = 1.0 if reward > 0.0 else -1.0
else:
reward = 0.0
#Update Q-Table with new knowledge
Q[s,a] = Q[s,a] + lr*(reward + y*np.max(Q[s1,:]) - Q[s,a])
rAll += reward
s = s1
if d == True:
break
#jList.append(j)
rList.append(rAll)
In [4]:
print "Score over time: " + str(sum(rList)/num_episodes)
Score over time: -13.045
In [5]:
print "Final Q-Table Values"
print Q
Final Q-Table Values
[[ -2.27523804e-02 -6.58172051e-03 -6.01378524e-03 -9.09607754e-03]
[ -2.89690713e-02 -3.64924713e-02 -2.67823564e-02 -3.24368292e-03]
[ -1.96455229e-03 -1.73811503e-03 -9.22579799e-03 -1.95688272e-03]
[ -1.46140248e-03 -2.79849354e-02 -2.44369903e-02 -9.42630214e-04]
[ -1.19831650e-02 -2.23949574e-03 -3.49668859e-02 -2.98275118e-04]
[ 1.03550219e-04 -1.97582333e-02 -7.75989518e-03 -4.16321556e-02]
[ -4.12629133e-02 -1.43521627e-02 1.61633172e-03 -1.79601768e-02]
[ -1.26595552e-02 1.94237816e-03 -1.79049911e-02 1.94880143e-03]
[ -1.35062121e-02 -1.33665420e-02 -1.04740832e-02 -2.14298373e-02]
[ -1.89546094e-02 -5.34890997e-03 -1.74705220e-02 -4.00944707e-03]
[ -4.16279191e-03 -1.51927341e-02 -3.56440712e-02 -1.79924526e-03]
[ -1.04827271e-01 -8.58018655e-02 -5.51852008e-02 -7.70676127e-04]
[ -3.28309358e-02 -3.10157062e-02 -3.27924032e-02 -1.29141100e-04]
[ -8.69106835e-03 -8.76807083e-03 -8.67815218e-03 3.65888285e-04]
[ 1.39822524e-03 -4.51179553e-02 -2.23209294e-02 1.43795755e-03]
[ -2.92645844e-02 2.48624209e-03 2.50969962e-03 -4.02969051e-02]
[ -3.85077985e-02 -3.69170468e-02 -4.81091934e-02 -2.39384507e-02]
[ -5.25091129e-02 -5.59133886e-02 -5.53676433e-02 -5.64546054e-02]
[ -1.58181620e-01 -3.85623850e-01 -3.05337192e-01 -3.40405211e-01]
[ -8.23697971e+00 -8.23304008e+00 -8.23449913e+00 -8.23633296e+00]
[ -3.07657044e-01 -2.58024821e-01 -8.60105294e-02 -3.07296425e-01]
[ -3.72138539e-02 -9.73596832e-02 -1.25662549e-01 -2.26688285e-02]
[ 2.80522143e-03 -4.68122667e-03 2.97610774e-03 2.76146854e-03]
[ 3.43235940e-03 -3.80692641e-03 -1.30503249e-02 3.46090328e-03]
[ -4.07603274e-03 -2.96869110e-02 -6.68992806e-03 -4.19323244e-03]
[ -1.40651575e-01 -1.43859295e-01 -1.42171562e-01 -1.26823837e-01]
[ -3.55136106e-01 -4.85741413e-01 -4.94681095e-01 -5.04481809e-01]
[ -2.09078977e+00 -1.88033813e+00 -2.14990053e+00 -2.03621258e+00]
[ -4.94503607e-01 -5.60765670e-01 -6.20954039e-01 -5.89589505e-01]
[ -4.70663268e+00 -4.70662203e+00 -4.71333225e+00 -4.70428479e+00]
[ -6.77592415e-03 -5.00572113e-02 3.03911396e-03 4.73308884e-04]
[ 4.87806716e-03 4.80604812e-03 -1.03701033e-02 5.01364354e-03]
[ 3.90314015e-03 -2.79839927e-02 3.10038481e-03 -7.19019349e-03]
[ -6.21851492e-01 -5.24555094e-01 -6.39346809e-01 -4.87998126e-01]
[ -2.23465506e+00 -2.09610464e+00 -2.10804922e+00 -2.06755810e+00]
[ -9.21249958e+00 -9.21266207e+00 -9.21205468e+00 -9.21286993e+00]
[ -2.48960035e-01 -2.52749236e-01 -1.12319792e-01 -2.73146307e-01]
[ -6.83436898e-02 -1.78075669e-02 -1.50967052e-01 -1.63488414e-01]
[ -9.12626973e-02 -4.13690127e-02 -8.22589883e-02 -1.30354234e-03]
[ -3.29774670e-03 -3.78938719e-02 -3.55370634e-03 -3.68195950e-02]
[ 1.17474639e-02 -4.64523236e-02 -3.95367472e-02 -2.36213807e-02]
[ -5.43986550e+00 -5.43795140e+00 -5.44039078e+00 -5.43521971e+00]
[ -8.51209209e+00 -8.51236425e+00 -8.51203733e+00 -8.51041024e+00]
[ -5.56335440e-01 -6.99206161e-01 -4.70771227e-01 -6.66622051e-01]
[ -1.07887485e-01 -1.15215564e-01 -9.14788503e-02 -4.40982914e-02]
[ -1.81036158e-02 -5.37784181e-02 -2.82531516e-02 -4.64429551e-02]
[ -2.81816107e+00 -2.81262813e+00 -2.81385144e+00 -2.81967604e+00]
[ -1.07610386e-01 -9.43445994e-02 -3.56026486e-02 -1.24854970e-01]
[ 1.83127055e-02 6.12180492e-04 -2.21366068e-02 -1.07606689e-02]
[ -2.29672250e+00 -2.28744065e+00 -2.27495135e+00 -2.27618959e+00]
[ -1.62170841e-01 -1.33666997e-01 -2.40159376e-01 -1.84467887e-01]
[ -2.28029357e-01 -2.23648398e-01 -1.69178567e-01 -2.27027582e-01]
[ -3.14035097e+00 -3.12759749e+00 -3.14192589e+00 -3.14151743e+00]
[ -2.01576541e-01 -1.62502489e-01 -1.60307453e-01 -2.42107346e-01]
[ -2.56394659e+00 -2.58250954e+00 -2.56660567e+00 -2.58220716e+00]
[ -2.60270675e-01 -1.94063922e-01 -2.42110758e-01 -2.08776575e-01]
[ 2.26540022e-02 2.57124355e-02 2.54476959e-02 1.51565322e-02]
[ -3.24914012e-02 1.75010746e-02 -1.07130341e-02 -4.55587727e-02]
[ -8.21003967e-03 -6.31008924e-02 -4.96957585e-02 -1.54150322e-02]
[ -2.64097249e+00 -2.64738502e+00 -2.63372995e+00 -2.65094987e+00]
[ -1.06260363e-01 -1.01718337e-01 -4.99152659e-02 -3.78365457e-02]
[ -2.07434892e-03 -3.30126193e-02 -6.71178372e-03 -6.07853965e-04]
[ 1.04309269e-02 -1.91922234e-02 -2.58667763e-02 1.02735346e-02]
[ -3.63415381e+00 -3.64396276e+00 -3.64149412e+00 -3.63327207e+00]]
In [6]:
s = env.reset()
d=False
while d==False:
a = np.argmax(Q[s,:])
s,r,d,x = env.step(a)
print("%s %s %s %s"%(s,r,d,x))
env.render()
1 0.0 False {'prob': 0.3333333333333333}
(Right)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
2 0.0 False {'prob': 0.3333333333333333}
(Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
10 0.0 False {'prob': 0.3333333333333333}
(Down)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
9 0.0 False {'prob': 0.3333333333333333}
(Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
8 0.0 False {'prob': 0.3333333333333333}
(Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
9 0.0 False {'prob': 0.3333333333333333}
(Right)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
1 0.0 False {'prob': 0.3333333333333333}
(Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
0 0.0 False {'prob': 0.3333333333333333}
(Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
8 0.0 False {'prob': 0.3333333333333333}
(Right)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
16 0.0 False {'prob': 0.3333333333333333}
(Right)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
16 0.0 False {'prob': 0.3333333333333333}
(Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
8 0.0 False {'prob': 0.3333333333333333}
(Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
0 0.0 False {'prob': 0.3333333333333333}
(Right)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
1 0.0 False {'prob': 0.3333333333333333}
(Right)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
2 0.0 False {'prob': 0.3333333333333333}
(Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
1 0.0 False {'prob': 0.3333333333333333}
(Down)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
0 0.0 False {'prob': 0.3333333333333333}
(Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
8 0.0 False {'prob': 0.3333333333333333}
(Right)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
9 0.0 False {'prob': 0.3333333333333333}
(Right)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
8 0.0 False {'prob': 0.3333333333333333}
(Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
16 0.0 False {'prob': 0.3333333333333333}
(Right)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
8 0.0 False {'prob': 0.3333333333333333}
(Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
9 0.0 False {'prob': 0.3333333333333333}
(Right)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
10 0.0 False {'prob': 0.3333333333333333}
(Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
9 0.0 False {'prob': 0.3333333333333333}
(Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
10 0.0 False {'prob': 0.3333333333333333}
(Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
2 0.0 False {'prob': 0.3333333333333333}
(Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
10 0.0 False {'prob': 0.3333333333333333}
(Down)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
11 0.0 False {'prob': 0.3333333333333333}
(Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
12 0.0 False {'prob': 0.3333333333333333}
(Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
4 0.0 False {'prob': 0.3333333333333333}
(Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
5 0.0 False {'prob': 0.3333333333333333}
(Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
13 0.0 False {'prob': 0.3333333333333333}
(Left)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
5 0.0 False {'prob': 0.3333333333333333}
(Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
13 0.0 False {'prob': 0.3333333333333333}
(Left)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
14 0.0 False {'prob': 0.3333333333333333}
(Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
13 0.0 False {'prob': 0.3333333333333333}
(Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
12 0.0 False {'prob': 0.3333333333333333}
(Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
11 0.0 False {'prob': 0.3333333333333333}
(Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
10 0.0 False {'prob': 0.3333333333333333}
(Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
2 0.0 False {'prob': 0.3333333333333333}
(Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
1 0.0 False {'prob': 0.3333333333333333}
(Down)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
0 0.0 False {'prob': 0.3333333333333333}
(Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
8 0.0 False {'prob': 0.3333333333333333}
(Right)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
0 0.0 False {'prob': 0.3333333333333333}
(Right)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
1 0.0 False {'prob': 0.3333333333333333}
(Right)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
0 0.0 False {'prob': 0.3333333333333333}
(Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
0 0.0 False {'prob': 0.3333333333333333}
(Right)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
1 0.0 False {'prob': 0.3333333333333333}
(Right)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
0 0.0 False {'prob': 0.3333333333333333}
(Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
1 0.0 False {'prob': 0.3333333333333333}
(Right)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
0 0.0 False {'prob': 0.3333333333333333}
(Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
8 0.0 False {'prob': 0.3333333333333333}
(Right)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
9 0.0 False {'prob': 0.3333333333333333}
(Right)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
10 0.0 False {'prob': 0.3333333333333333}
(Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
11 0.0 False {'prob': 0.3333333333333333}
(Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
10 0.0 False {'prob': 0.3333333333333333}
(Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
9 0.0 False {'prob': 0.3333333333333333}
(Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
10 0.0 False {'prob': 0.3333333333333333}
(Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
9 0.0 False {'prob': 0.3333333333333333}
(Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
10 0.0 False {'prob': 0.3333333333333333}
(Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
9 0.0 False {'prob': 0.3333333333333333}
(Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
1 0.0 False {'prob': 0.3333333333333333}
(Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
1 0.0 False {'prob': 0.3333333333333333}
(Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
1 0.0 False {'prob': 0.3333333333333333}
(Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
1 0.0 False {'prob': 0.3333333333333333}
(Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
1 0.0 False {'prob': 0.3333333333333333}
(Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
1 0.0 False {'prob': 0.3333333333333333}
(Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
1 0.0 False {'prob': 0.3333333333333333}
(Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
2 0.0 False {'prob': 0.3333333333333333}
(Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
1 0.0 False {'prob': 0.3333333333333333}
(Down)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
1 0.0 False {'prob': 0.3333333333333333}
(Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
1 0.0 False {'prob': 0.3333333333333333}
(Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
1 0.0 False {'prob': 0.3333333333333333}
(Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
0 0.0 False {'prob': 0.3333333333333333}
(Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
8 0.0 False {'prob': 0.3333333333333333}
(Right)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
16 0.0 False {'prob': 0.3333333333333333}
(Right)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
16 0.0 False {'prob': 0.3333333333333333}
(Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
17 0.0 False {'prob': 0.3333333333333333}
(Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
25 0.0 False {'prob': 0.3333333333333333}
(Left)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
26 0.0 False {'prob': 0.3333333333333333}
(Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
18 0.0 False {'prob': 0.3333333333333333}
(Left)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
26 0.0 False {'prob': 0.3333333333333333}
(Left)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
18 0.0 False {'prob': 0.3333333333333333}
(Left)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
26 0.0 False {'prob': 0.3333333333333333}
(Left)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
34 0.0 False {'prob': 0.3333333333333333}
(Left)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
35 0.0 True {'prob': 0.3333333333333333}
(Up)
SFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG
In [62]:
s = env.reset()
In [63]:
s,r,d,p = env.step(1)
print("s:%s, r:%s, d:%s, p:%s"%(s,r,d,p))
env.render()
s:1, r:0.0, d:False, p:{'prob': 0.3333333333333333}
(Down)
SFFF
FHFH
FFFH
HFFG
In [21]:
#left
#down
(Down)
SFFF
FHFH
FFFH
HFFG
In [ ]:
Content source: wasit7/cs634
Similar notebooks: