update target network weight during episode after x timesteps (#2110)

Mdhvince · Svetlana Karslioglu · web-flow · commit 83d6fecd3b53 · 2022-11-08T14:05:30.000-08:00
Co-authored-by: Svetlana Karslioglu &lt;svekars@fb.com&gt;
diff --git a/intermediate_source/reinforcement_q_learning.py b/intermediate_source/reinforcement_q_learning.py
@@ -492,9 +492,10 @@ def optimize_model():
             episode_durations.append(t + 1)
             plot_durations()
             break
-    # Update the target network, copying all weights and biases in DQN
-    if i_episode % TARGET_UPDATE == 0:
-        target_net.load_state_dict(policy_net.state_dict())
+
+        # Update the target network, copying all weights and biases in DQN
+        if t % TARGET_UPDATE == 0:
+            target_net.load_state_dict(policy_net.state_dict())
 
 print('Complete')
 env.render()