Remove trainer property from modelmanager

Summary: This is the start of making model manager stateless to reduce complexity Reviewed By: czxttkl Differential Revision: D29253248 fbshipit-source-id: 681d141cb46784e40c8802f2325c1636044c61de
bhardwaj-garvit · Jun 25, 2021 · e23e20e · e23e20e
1 parent 9b802c7
commit e23e20e
Show file tree

Hide file tree

Showing 3 changed files with 8 additions and 6 deletions.
diff --git a/reagent/model_managers/discrete_dqn_base.py b/reagent/model_managers/discrete_dqn_base.py
@@ -73,8 +73,7 @@ def create_policy(self, serving: bool) -> Policy:
             )
         else:
             sampler = GreedyActionSampler()
-            # pyre-fixme[16]: `RLTrainer` has no attribute `q_network`.
-            scorer = discrete_dqn_scorer(self.trainer.q_network)
+            scorer = discrete_dqn_scorer(self._q_network)
             return Policy(scorer=scorer, sampler=sampler)
 
     @property

diff --git a/reagent/model_managers/model_based/seq2reward_model.py b/reagent/model_managers/model_based/seq2reward_model.py
@@ -44,12 +44,15 @@ class Seq2RewardModel(WorldModelBase):
     # pyre-fixme[15]: `build_trainer` overrides method defined in `ModelManager`
     #  inconsistently.
     def build_trainer(self, use_gpu: bool) -> Seq2RewardTrainer:
-        seq2reward_network = self.net_builder.value.build_value_network(
-            self.state_normalization_data
-        )
+        # pyre-fixme[16]: `Seq2RewardModel` has no attribute `_seq2reward_network`.
+        self._seq2reward_network = (
+            seq2reward_network
+        ) = self.net_builder.value.build_value_network(self.state_normalization_data)
         trainer = Seq2RewardTrainer(
             seq2reward_network=seq2reward_network, params=self.trainer_param
         )
+        # pyre-fixme[16]: `Seq2RewardModel` has no attribute `_step_predict_network`.
+        self._step_predict_network = trainer.step_predict_network
         return trainer
 
     def get_reporter(self) -> Seq2RewardReporter:

diff --git a/reagent/model_managers/model_based/synthetic_reward.py b/reagent/model_managers/model_based/synthetic_reward.py
@@ -154,7 +154,7 @@ def build_trainer(self, use_gpu: bool) -> RewardNetTrainer:
 
     def get_reporter(self):
         return RewardNetworkReporter(
-            self.trainer.loss_type,
+            self.trainer_param.loss_type,
             str(self.net_builder.value),
         )