strategically_efficient_rl/train_multiagent.py

#!/usr/bin/env python3

'''
Trains independent learners in a multi-agent environment.  Logs intrinsic reward if present.
'''

import argparse
import yaml

import numpy as np
import ray
from ray.tune import run_experiments
from ray.tune.registry import ENV_CREATOR, _global_registry

import algorithms
import environments


def parse_args():
    parser = argparse.ArgumentParser("Generic training script for any registered multi-agent environment, logs intrinsic reward stats")

    parser.add_argument("-f", "--config-file", default=None, type=str, action="append",
                        help="If specified, use config options from these files.")
    parser.add_argument("--local-dir", type=str, default="../ray_results",
                        help="path to save training results")
    parser.add_argument("--num-cpus", type=int, default=7,
                        help="the maximum number of CPUs ray is allowed to us, useful for running locally")
    parser.add_argument("--num-gpus", type=int, default=0,
                        help="the maximum number of GPUs ray is allowed to use")
    parser.add_argument("--num-workers", type=int, default=3,
                        help="the number of parallel workers per experiment")
    parser.add_argument("--nash-conv", action="store_true",
                        help='compute and record NashConv losses if environment supports this')

    
    return parser.parse_args()


def nash_conv(trainer, eval_workers):
    local_worker = eval_workers.local_worker()

    env = local_worker.env_creator(local_worker.policy_config["env_config"])
    mapping_fn = local_worker.policy_config["multiagent"]["policy_mapping_fn"]

    if hasattr(env, "nash_conv"):
        policy_dict = {pid: local_worker.get_policy(mapping_fn(pid)) for pid in env.action_space_dict.keys()}
        return env.nash_conv(policy_dict)


def log_intrinsic(info):
    episode = info["episode"]
    batch = info["post_batch"]

    if "intrinsic_reward" in batch:
        reward = np.sum(batch["intrinsic_reward"])

        if "intrinsic_reward" not in episode.custom_metrics:
            episode.custom_metrics["intrinsic_reward"] = reward
        else:
            episode.custom_metrics["intrinsic_reward"] += reward


def main(args):
    EXPERIMENTS = dict()

    if args.config_file:
        for config_file in args.config_file:
            with open(config_file) as f:
                EXPERIMENTS.update(yaml.load(f, Loader=yaml.FullLoader))
    else:
        EXPERIMENTS = {
            "RND_deep_sea": {
                "run": "PPO_CURIOSITY",
                "stop": {
                    "timesteps_total": 500000,
                },
                "checkpoint_at_end": True,  # Make sure we have a final checkpoint for evaluation
                "config": {
                    "env": "roshambo",
                    "env_config": {},
                    "model": {
                        "custom_options": {
                            "weight": 0.5,
                            "decay": 0.02,
                            "burn_in": 10000,
                            "delay": 5000,
                            "curiosity_module": "RND",
                            "curiosity_config": {
                                "fcnet_activation": "relu",
                                "fcnet_hiddens": [256, 256],
                                "fcnet_outputs": 32,
                                "agent_action": True,
                                "joint_action": False,
                            },
                        },
                    },
                    "horizon": 1000,
                    "intrinsic_gamma": 0.95,
                    "intrinsic_lambda": 0.95,
                    "num_agents": 1,  # Controls whether we are using multi-agent or single-agent curiosity
                    "lambda": 0.95,
                    "gamma": 0.95,
                    "entropy_coeff": 0.001,
                    "clip_param": 0.1,
                    "lr": 0.001,
                    "num_sgd_iter": 8,
                    "num_workers": 4,
                    "train_batch_size": 4000,
                    "rollout_fragment_length": 500,
                },
            },
        }

    # Add intrinsic reward logging and multiagent configuration
    for experiment in EXPERIMENTS.values():
        exp_config = experiment["config"]

        # Create temporary env instance to query observation space, action space and number of agents
        env_name = exp_config["env"]

        if _global_registry.contains(ENV_CREATOR, env_name):
            env_creator = _global_registry.get(ENV_CREATOR, env_name)
        else:
            import gym
            env_creator = lambda env_config: gym.make(env_name)

        env = env_creator(exp_config.get("env_config", {}))

        # One policy per agent for multiple individual learners  # NOTE: Will this work for single-agent environments?
        policies = dict()
        for pid in env.observation_space_dict.keys():
            policies[f"policy_{pid}"] = (
                None,
                env.observation_space_dict[pid],
                env.action_space_dict[pid],
                {}
            )
  
        exp_config["multiagent"] = {"policies": policies,
                                    "policy_mapping_fn": lambda pid: f"policy_{pid}"}

        # Set local directory for checkpoints
        experiment["local_dir"] = str(args.local_dir)

        # Set num workers
        experiment["config"]["num_workers"] = args.num_workers

        # Define custom NashConv evaluation function if needed
        if args.nash_conv:
            exp_config["custom_eval_function"] = nash_conv
            exp_config["evaluation_config"] = exp_config.get("evaluation_config", {
                "in_evaluation": True,
            })

        # Add intrinsic reward logging
        experiment["config"]["callbacks"] = {
            "on_postprocess_traj": log_intrinsic
        }  

        # Modify config to reduce TensorFlow thrashing
        experiment["config"]["tf_session_args"] = {
            "intra_op_parallelism_threads": 1,
            "inter_op_parallelism_threads": 1,
        }

        experiment["config"]["local_tf_session_args"] = {
            "intra_op_parallelism_threads": 1,
            "inter_op_parallelism_threads": 1,
        }

    ray.init(num_cpus=args.num_cpus, num_gpus=args.num_gpus)
    run_experiments(EXPERIMENTS, verbose=1)

if __name__ == '__main__':
    args = parse_args()
    main(args)
moving project code into GitHub repo 2021-05-03 02:10:46 +03:00			`#!/usr/bin/env python3`

			`'''`
			`Trains independent learners in a multi-agent environment. Logs intrinsic reward if present.`
			`'''`

			`import argparse`
			`import yaml`

			`import numpy as np`
			`import ray`
			`from ray.tune import run_experiments`
			`from ray.tune.registry import ENV_CREATOR, _global_registry`

			`import algorithms`
			`import environments`


			`def parse_args():`
			`parser = argparse.ArgumentParser("Generic training script for any registered multi-agent environment, logs intrinsic reward stats")`

			`parser.add_argument("-f", "--config-file", default=None, type=str, action="append",`
			`help="If specified, use config options from these files.")`
			`parser.add_argument("--local-dir", type=str, default="../ray_results",`
			`help="path to save training results")`
			`parser.add_argument("--num-cpus", type=int, default=7,`
			`help="the maximum number of CPUs ray is allowed to us, useful for running locally")`
			`parser.add_argument("--num-gpus", type=int, default=0,`
			`help="the maximum number of GPUs ray is allowed to use")`
			`parser.add_argument("--num-workers", type=int, default=3,`
			`help="the number of parallel workers per experiment")`
			`parser.add_argument("--nash-conv", action="store_true",`
			`help='compute and record NashConv losses if environment supports this')`


			`return parser.parse_args()`


			`def nash_conv(trainer, eval_workers):`
			`local_worker = eval_workers.local_worker()`

			`env = local_worker.env_creator(local_worker.policy_config["env_config"])`
			`mapping_fn = local_worker.policy_config["multiagent"]["policy_mapping_fn"]`

			`if hasattr(env, "nash_conv"):`
			`policy_dict = {pid: local_worker.get_policy(mapping_fn(pid)) for pid in env.action_space_dict.keys()}`
			`return env.nash_conv(policy_dict)`


			`def log_intrinsic(info):`
			`episode = info["episode"]`
			`batch = info["post_batch"]`

			`if "intrinsic_reward" in batch:`
			`reward = np.sum(batch["intrinsic_reward"])`

			`if "intrinsic_reward" not in episode.custom_metrics:`
			`episode.custom_metrics["intrinsic_reward"] = reward`
			`else:`
			`episode.custom_metrics["intrinsic_reward"] += reward`


			`def main(args):`
			`EXPERIMENTS = dict()`

			`if args.config_file:`
			`for config_file in args.config_file:`
			`with open(config_file) as f:`
			`EXPERIMENTS.update(yaml.load(f, Loader=yaml.FullLoader))`
			`else:`
			`EXPERIMENTS = {`
			`"RND_deep_sea": {`
			`"run": "PPO_CURIOSITY",`
			`"stop": {`
			`"timesteps_total": 500000,`
			`},`
			`"checkpoint_at_end": True, # Make sure we have a final checkpoint for evaluation`
			`"config": {`
			`"env": "roshambo",`
			`"env_config": {},`
			`"model": {`
			`"custom_options": {`
			`"weight": 0.5,`
			`"decay": 0.02,`
			`"burn_in": 10000,`
			`"delay": 5000,`
			`"curiosity_module": "RND",`
			`"curiosity_config": {`
			`"fcnet_activation": "relu",`
			`"fcnet_hiddens": [256, 256],`
			`"fcnet_outputs": 32,`
			`"agent_action": True,`
			`"joint_action": False,`
			`},`
			`},`
			`},`
			`"horizon": 1000,`
			`"intrinsic_gamma": 0.95,`
			`"intrinsic_lambda": 0.95,`
			`"num_agents": 1, # Controls whether we are using multi-agent or single-agent curiosity`
			`"lambda": 0.95,`
			`"gamma": 0.95,`
			`"entropy_coeff": 0.001,`
			`"clip_param": 0.1,`
			`"lr": 0.001,`
			`"num_sgd_iter": 8,`
			`"num_workers": 4,`
			`"train_batch_size": 4000,`
			`"rollout_fragment_length": 500,`
			`},`
			`},`
			`}`

			`# Add intrinsic reward logging and multiagent configuration`
			`for experiment in EXPERIMENTS.values():`
			`exp_config = experiment["config"]`

			`# Create temporary env instance to query observation space, action space and number of agents`
			`env_name = exp_config["env"]`

			`if _global_registry.contains(ENV_CREATOR, env_name):`
			`env_creator = _global_registry.get(ENV_CREATOR, env_name)`
			`else:`
			`import gym`
			`env_creator = lambda env_config: gym.make(env_name)`

			`env = env_creator(exp_config.get("env_config", {}))`

			`# One policy per agent for multiple individual learners # NOTE: Will this work for single-agent environments?`
			`policies = dict()`
			`for pid in env.observation_space_dict.keys():`
			`policies[f"policy_{pid}"] = (`
			`None,`
			`env.observation_space_dict[pid],`
			`env.action_space_dict[pid],`
			`{}`
			`)`

			`exp_config["multiagent"] = {"policies": policies,`
			`"policy_mapping_fn": lambda pid: f"policy_{pid}"}`

			`# Set local directory for checkpoints`
			`experiment["local_dir"] = str(args.local_dir)`

			`# Set num workers`
			`experiment["config"]["num_workers"] = args.num_workers`

			`# Define custom NashConv evaluation function if needed`
			`if args.nash_conv:`
			`exp_config["custom_eval_function"] = nash_conv`
			`exp_config["evaluation_config"] = exp_config.get("evaluation_config", {`
			`"in_evaluation": True,`
			`})`

			`# Add intrinsic reward logging`
			`experiment["config"]["callbacks"] = {`
			`"on_postprocess_traj": log_intrinsic`
			`}`

			`# Modify config to reduce TensorFlow thrashing`
			`experiment["config"]["tf_session_args"] = {`
			`"intra_op_parallelism_threads": 1,`
			`"inter_op_parallelism_threads": 1,`
			`}`

			`experiment["config"]["local_tf_session_args"] = {`
			`"intra_op_parallelism_threads": 1,`
			`"inter_op_parallelism_threads": 1,`
			`}`

			`ray.init(num_cpus=args.num_cpus, num_gpus=args.num_gpus)`
			`run_experiments(EXPERIMENTS, verbose=1)`

			`if __name__ == '__main__':`
			`args = parse_args()`
			`main(args)`