support parallel reward function

聂靖入 · 聂靖入 · commit 42a91c444d4e · 2023-10-25T03:43:38.000Z
diff --git a/trlx/trainer/accelerate_ppo_trainer.py b/trlx/trainer/accelerate_ppo_trainer.py
@@ -339,7 +339,7 @@ def make_experience(self, num_rollouts: int = 1024, iter_count: int = 0):  # noq
             else:
                 all_scores = None
                 max_len = torch.tensor(0, dtype=torch.long, device=device)
-            
+
             if self.config.train.reward_only_in_main_process:
                 if torch.distributed.is_initialized():
                     torch.distributed.broadcast(max_len, 0)