UPDATE: initial states in episode_start and in cartpole-updated-simparam.yaml

initial states should be defined before episode_step. Previously these were randomly initialized as standard gaussians in episode_start using the keys defined by simulator.states. Now a new value is provdied in simulator.yaml called initial_states which takes a dictionary of initial_values. Moreover, episode_start looks in the `config` Dict (for instance when using scenario parameters in Inkling from lessons) and updates initial_states if provided. TODO: update documentation and all simulator.yaml files
2021-07-13 17:07:21 -07:00 · 2021-07-13 17:07:21 -07:00 · 4041ff825e
--- a/conf/config.yaml
+++ b/conf/config.yaml
@ -1,4 +1,4 @@
 defaults:
  - data: cartpole-updated.yaml
-  - model: SVR.yaml
+  - model: xgboost.yaml
  - simulator: cartpole-updated-simparam.yaml
--- a/conf/simulator/cartpole-updated-simparam.yaml
+++ b/conf/simulator/cartpole-updated-simparam.yaml
@ -6,6 +6,16 @@ simulator:
  # estimate these during training
  # e.g.,:
  episode_inits: { "pole_length": 0.4, "pole_mass": 0.055, "cart_mass": 0.31 }
  # e.g.,:  your simulator may need to know the initial state
  # before the first episode. define these here as a dictionary
  # you can include these in your Inkling scenarios during brain training
  initial_states:
    {
      "cart_position": 0,
      "cart_velocity": 0,
      "pole_angle": 0,
      "pole_angular_velocity": 0,
    }
  # episode_inits:
  policy: bonsai
  logging: enable
--- a/ddm_predictor.py
+++ b/ddm_predictor.py
@ -44,6 +44,7 @@ class Simulator(BaseModel):
        inputs: List[str],
        outputs: List[str],
        episode_inits: Dict[str, float],
        initial_states: Dict[str, float],
        diff_state: bool = False,
    ):
@ -57,14 +58,30 @@ class Simulator(BaseModel):
        self.state_keys = states
        self.action_keys = actions
        self.diff_state = diff_state
        self.initial_states = initial_states
        # TODO: Add logging
        logger.info(f"DDM features: {self.features}")
        logger.info(f"DDM outputs: {self.labels}")
    def episode_start(self, config: Dict[str, Any] = None):
        """Initial DDM with initial states. This could include initializations of configs
        as well as initial values for actions
-        initial_state = {k: random.random() for k in self.state_keys}
+        Parameters
        ----------
        config : Dict[str, Any], optional
            episode initializations, by default None
        """
        # initialize states based on simulator.yaml
        initial_state = self.initial_states
        # define initial state from config if available (e.g. when brain training)
        # skip if config missing
        if config:
            initial_state.update(
                (k, config[k]) for k in initial_state.keys() & config.keys()
            )
        initial_action = {k: random.random() for k in self.action_keys}
        if config:
            logger.info(f"Initializing episode with provided config: {config}")
@ -82,6 +99,7 @@ class Simulator(BaseModel):
            # request_continue = input("Are you sure you want to continue with random configs?")
            self.config = {k: random.random() for k in self.config_keys}
        self.state = initial_state
        logger.info(f"Initial states: {initial_state}")
        self.action = initial_action
        # capture all data
        # TODO: check if we can pick a subset of data yaml, i.e., what happens if
@ -206,6 +224,7 @@ def main(cfg: DictConfig):
    states = cfg["simulator"]["states"]
    actions = cfg["simulator"]["actions"]
    configs = cfg["simulator"]["configs"]
    initial_states = cfg["simulator"]["initial_states"]
    policy = cfg["simulator"]["policy"]
    logflag = cfg["simulator"]["logging"]
    # logging not yet implemented
@ -238,6 +257,12 @@ def main(cfg: DictConfig):
    model.load_model(filename=save_path, scale_data=scale_data)
    # model.build_model(**cfg["model"]["build_params"])
    if not initial_states:
        logger.warn(
            "No initial values provided, using randomly initialized states which is probably NOT what you want"
        )
        initial_states = {k: random.random() for k in states}
    # Grab standardized way to interact with sim API
    sim = Simulator(
        model,
@ -247,6 +272,7 @@ def main(cfg: DictConfig):
        input_cols,
        output_cols,
        episode_inits,
        initial_states,
        diff_state,
    )