Better doc and tests for vector wrappers

Farama-Foundation · LucasAlegre · Oct 28, 2024 · Feb 18, 2024 · May 21, 2024 · May 22, 2024
commit f72773a096e16307736760da1129aafb86fac2ae
diff --git a/mo_gymnasium/wrappers/vector/wrappers.py b/mo_gymnasium/wrappers/vector/wrappers.py
@@ -1,4 +1,5 @@
 """Vector wrappers."""
+
 import time
 from copy import deepcopy
 from typing import Any, Dict, Iterator, Tuple
@@ -13,7 +14,29 @@
 
 
 class MOSyncVectorEnv(SyncVectorEnv):
-    """Vectorized environment that serially runs multiple environments."""
+    """Vectorized environment that serially runs multiple environments.
+
+    Example:
+        >>> import mo_gymnasium as mo_gym
+
+        >>> envs = mo_gym.wrappers.vector.MOSyncVectorEnv([
+        ...     lambda: mo_gym.make("deep-sea-treasure-v0") for _ in range(4)
+        ... ])
+        >>> envs
+        MOSyncVectorEnv(num_envs=4)
+        >>> obs, infos = envs.reset()
+        >>> obs
+        array([[0, 0], [0, 0], [0, 0], [0, 0]], dtype=int32)
+        >>> _ = envs.action_space.seed(42)
+        >>> actions = envs.action_space.sample()
+        >>> obs, rewards, terminateds, truncateds, infos = envs.step([0, 1, 2, 3])
+        >>> obs
+        array([[0, 0], [1, 0], [0, 0], [0, 3]], dtype=int32)
+        >>> rewards
+        array([[0., -1.], [0.7, -1.], [0., -1.], [0., -1.]], dtype=float32)
+        >>> terminateds
+        array([False,  True, False, False])
+    """
 
     def __init__(
         self,
@@ -124,6 +147,7 @@ def __init__(
         """
         gym.utils.RecordConstructorArgs.__init__(self, buffer_length=buffer_length, stats_key=stats_key)
         RecordEpisodeStatistics.__init__(self, env, buffer_length=buffer_length, stats_key=stats_key)
+        self.disc_episode_returns = None
         self.reward_dim = self.env.unwrapped.reward_space.shape[0]
         self.rewards_shape = (self.num_envs, self.reward_dim)
         self.gamma = gamma
@@ -156,12 +180,12 @@ def step(self, actions: ActType) -> Tuple[ObsType, ArrayType, ArrayType, ArrayTy
         self.episode_lengths[self.prev_dones] = 0
         self.episode_start_times[self.prev_dones] = time.perf_counter()
         self.episode_returns[~self.prev_dones] += rewards[~self.prev_dones]
-        self.episode_lengths[~self.prev_dones] += 1
 
         # CHANGE: The discounted returns are also computed here
         self.disc_episode_returns += rewards * np.repeat(self.gamma**self.episode_lengths, self.reward_dim).reshape(
             self.episode_returns.shape
         )
+        self.episode_lengths[~self.prev_dones] += 1
 
         self.prev_dones = dones = np.logical_or(terminations, truncations)
         num_dones = np.sum(dones)

diff --git a/pyproject.toml b/pyproject.toml
@@ -23,7 +23,7 @@ classifiers = [
 ]
 dependencies = [
     "gymnasium >=1.0.0a1",
-    "numpy >=1.21.0",
+    "numpy >=1.21.0,<2.0",
     "pygame >=2.1.0",
     "scipy >=1.7.3",
     "pymoo >=0.6.0",

diff --git a/tests/test_vector_wrappers.py b/tests/test_vector_wrappers.py
@@ -1,38 +1,53 @@
+import gymnasium as gym
 import numpy as np
 
 import mo_gymnasium as mo_gym
 from mo_gymnasium.wrappers.vector import MORecordEpisodeStatistics, MOSyncVectorEnv
 
 
 def test_mo_sync_wrapper():
-    def make_env(env_id):
-        def thunk():
-            env = mo_gym.make(env_id)
-            return env
-
-        return thunk
-
     num_envs = 3
-    envs = MOSyncVectorEnv([make_env("deep-sea-treasure-v0") for _ in range(num_envs)])
+    envs = MOSyncVectorEnv([lambda: mo_gym.make("deep-sea-treasure-v0") for _ in range(num_envs)])
 
     envs.reset()
     obs, rewards, terminateds, truncateds, infos = envs.step(envs.action_space.sample())
     assert len(obs) == num_envs, "Number of observations do not match the number of envs"
     assert len(rewards) == num_envs, "Number of rewards do not match the number of envs"
     assert len(terminateds) == num_envs, "Number of terminateds do not match the number of envs"
     assert len(truncateds) == num_envs, "Number of truncateds do not match the number of envs"
+    envs.close()
 
 
-def test_mo_record_ep_statistic_vector_env():
-    def make_env(env_id):
-        def thunk():
-            env = mo_gym.make(env_id)
-            return env
+def test_mo_sync_autoreset():
+    num_envs = 2
+    envs = MOSyncVectorEnv([lambda: mo_gym.make("deep-sea-treasure-v0") for _ in range(num_envs)])
+
+    obs, infos = envs.reset()
+    assert (obs[0] == [0, 0]).all()
+    assert (obs[1] == [0, 0]).all()
+    obs, rewards, terminateds, truncateds, infos = envs.step([0, 1])
+    assert (obs[0] == [0, 0]).all()
+    assert (obs[1] == [1, 0]).all()
+    # Use np assert almost equal to avoid floating point errors
+    np.testing.assert_almost_equal(rewards[0], np.array([0.0, -1.0], dtype=np.float32), decimal=2)
+    np.testing.assert_almost_equal(rewards[1], np.array([0.7, -1.0], dtype=np.float32), decimal=2)
+    assert not terminateds[0]
+    assert terminateds[1]  # This one is done
+    assert not truncateds[0]
+    assert not truncateds[1]
+    obs, rewards, terminateds, truncateds, infos = envs.step([0, 1])
+    assert (obs[0] == [0, 0]).all()
+    assert (obs[1] == [0, 0]).all()
+    assert (rewards[0] == [0.0, -1.0]).all()
+    assert (rewards[1] == [0.0, 0.0]).all()  # Reset step
+    assert not terminateds[0]
+    assert not terminateds[1]  # Not done anymore
+    envs.close()
 
-        return thunk
 
+def test_mo_record_ep_statistic_vector_env():
     num_envs = 3
-    envs = MOSyncVectorEnv([make_env("deep-sea-treasure-v0") for _ in range(num_envs)])
+    envs = MOSyncVectorEnv([lambda: mo_gym.make("deep-sea-treasure-v0") for _ in range(num_envs)])
     envs = MORecordEpisodeStatistics(envs)
 
     envs.reset()
@@ -48,3 +63,21 @@ def thunk():
     assert info["episode"]["dr"].shape == (num_envs, 2)
     assert isinstance(info["episode"]["l"], np.ndarray)
     assert isinstance(info["episode"]["t"], np.ndarray)
+    envs.close()
+
+
+def test_gym_wrapper_and_vector():
+    # This tests the integration of gym-wrapped envs with MO-Gymnasium vectorized envs
+    num_envs = 2
+    envs = MOSyncVectorEnv(
+        [lambda: gym.wrappers.NormalizeObservation(mo_gym.make("deep-sea-treasure-v0")) for _ in range(num_envs)]
+    )
+
+    envs.reset()
+    for i in range(30):
+        obs, rewards, terminateds, truncateds, infos = envs.step(envs.action_space.sample())
+    assert len(obs) == num_envs, "Number of observations do not match the number of envs"
+    assert len(rewards) == num_envs, "Number of rewards do not match the number of envs"
+    assert len(terminateds) == num_envs, "Number of terminateds do not match the number of envs"
+    assert len(truncateds) == num_envs, "Number of truncateds do not match the number of envs"
+    envs.close()