Make a script to easily run sbatch with minimal args

aahladc · aahladc · commit 97e997583508 · 2026-03-10T09:11:22.000-07:00
diff --git a/scoring/utils/slurm/make_job_config.py b/scoring/utils/slurm/make_job_config.py
@@ -18,8 +18,6 @@
 TUNING_SEARCH_SPACE = (
   'reference_algorithms/paper_baselines/adamw/tuning_search_space.json'
 )
-NUM_TUNING_TRIALS = 3  # For external tuning ruleset
-NUM_STUDIES = 3
 
 flags.DEFINE_string(
   'submission_path',
@@ -43,7 +41,6 @@
   help='Can be either pytorch or jax.',
 )
 flags.DEFINE_integer('seed', 0, 'RNG seed to to generate study seeds from.')
-flags.DEFINE_integer('max_global_steps', None, 'Number of steps to run each workload for')
 flags.DEFINE_enum(
   'tuning_ruleset',
   'self',
@@ -53,14 +50,13 @@
 flags.DEFINE_string(
   'workloads', None, help='Comma seperated list of workloads to run.'
 )
-flags.DEFINE_integer('num_studies', NUM_STUDIES, help='Number of studies.')
+flags.DEFINE_integer('num_studies', 3, help='Number of studies.')
+flags.DEFINE_integer('num_tuning_trials', 5, help='Number of tuning trials for external ruleset.')
 
 FLAGS = flags.FLAGS
 
 MIN_INT = -(2 ** (31))
 MAX_INT = 2 ** (31) - 1
-NUM_TUNING_TRIALS = 5  # For external tuning ruleset
-NUM_STUDIES = 3
 
 WORKLOADS = {
   'imagenet_resnet': {'dataset': 'imagenet'},
@@ -91,10 +87,10 @@ def main(_):
   for workload in workloads:
     # Fold in hash(workload) mod(max(uint32))
     workload_key = jax.random.fold_in(key, hash(workload) % (2**32 - 1))
-    for study_index in range(NUM_STUDIES):
+    for study_index in range(FLAGS.num_studies):
       study_key = jax.random.fold_in(workload_key, study_index)
       if FLAGS.tuning_ruleset == 'external':
-        for hparam_index in range(NUM_TUNING_TRIALS):
+        for hparam_index in range(FLAGS.num_tuning_trials):
           run_key = jax.random.fold_in(study_key, hparam_index)
           seed = jax.random.randint(run_key, (1,), MIN_INT, MAX_INT)[0].item()
           print(seed)
@@ -108,13 +104,11 @@ def main(_):
           job['experiment_dir'] = study_dir
           job['rng_seed'] = seed
           job['tuning_ruleset'] = FLAGS.tuning_ruleset
-          job['num_tuning_trials'] = NUM_TUNING_TRIALS
+          job['num_tuning_trials'] = FLAGS.num_tuning_trials
           job['hparam_start_index'] = hparam_index
           job['hparam_end_index'] = hparam_index + 1
           job['tuning_search_space'] = FLAGS.tuning_search_space
           job['tuning_ruleset'] = FLAGS.tuning_ruleset
-          if FLAGS.max_global_steps:
-            job['max_global_steps'] = FLAGS.max_global_steps
           jobs.append(job)
           print(job)
 
@@ -133,8 +127,6 @@ def main(_):
         job['rng_seed'] = seed
         job['tuning_ruleset'] = FLAGS.tuning_ruleset
         job['num_tuning_trials'] = 1
-        if FLAGS.max_global_steps:
-            job['max_global_steps'] = FLAGS.max_global_steps
 
         jobs.append(job)
         print(job)
diff --git a/scoring/utils/slurm/run_jobs.sh b/scoring/utils/slurm/run_jobs.sh
@@ -9,24 +9,14 @@
 #SBATCH --output=experiments/tests/updated_schedule_free/job_%A_%a.out
 #SBATCH --error=experiments/tests/updated_schedule_free/job_%A_%a.err
 
-# Usage: sbatch <this file>.sh
+# Usage: sbatch <this file>.sh [options]
 # This script reads config.json and launches a sbatch job using task
 # arrays where each job in the array corresponds to a training run
 # for a workload given a random seed and tuning trial index.
 # To generate the config.json use make_job_config.py.
 
 set -x
 
-# Pull docker image (ATTENTION: you may want to modify this)
-REPO="europe-west4-docker.pkg.dev"
-IMAGE="europe-west4-docker.pkg.dev/mlcommons-algoperf/algoperf-docker-repo/algoperf_pytorch_main:latest"
-yes | gcloud auth configure-docker $REPO
-docker pull $IMAGE
-# Job config (ATTENTION: you may want to modify this)
-config_file="$HOME/algorithmic-efficiency/pytorch_scoring_config_1.json" # Replace with your config file path
-LOGS_BUCKET="algoperf-runs" # replace with your bucket used for logging
-
-
 # Function to read a JSON file and extract a value by key
 read_json_value() {
   local json_file="$1"
@@ -43,45 +33,137 @@ then
     exit 1
 fi
 
-TASK="$SLURM_ARRAY_TASK_ID"
-FRAMEWORK=$(read_json_value "$config_file" "$TASK" "framework")
-DATASET=$(read_json_value "$config_file" "$TASK" "dataset")
-SUBMISSION_PATH=$(read_json_value "$config_file" "$TASK" "submission_path")
-FRAMEWORK=$(read_json_value "$config_file" "$TASK" "framework")
-TUNING_SEARCH_SPACE=$(read_json_value "$config_file" "$TASK" "tuning_search_space")
-EXPERIMENT_DIR=$(read_json_value "$config_file" "$TASK" "experiment_dir")
-MAX_STEPS=$(read_json_value "$config_file" "$TASK" "max_steps")
-RNG_SEED=$(read_json_value "$config_file" "$TASK" "rng_seed")
-WORKLOAD=$(read_json_value "$config_file" "$TASK" "workload")
-HPARAM_START_INDEX=$(read_json_value "$config_file" "$TASK" "hparam_start_index")
-HPARAM_END_INDEX=$(read_json_value "$config_file" "$TASK" "hparam_end_index")
-NUM_TUNING_TRIALS=$(read_json_value "$config_file" "$TASK" "num_tuning_trials")
-TUNING_RULESET=$(read_json_value "$config_file" "$TASK" "tuning_ruleset")
-MAX_GLOBAL_STEPS=$(read_json_value "$config_file" "$TASK" "max_global_steps")
+# Default values
+REPO="europe-west4-docker.pkg.dev"
+IMAGE="europe-west4-docker.pkg.dev/mlcommons-algoperf/algoperf-docker-repo/algoperf_pytorch_main:latest"
+CONFIG_FILE="$HOME/algorithmic-efficiency/pytorch_scoring_config_1.json"
+LOGS_BUCKET="algoperf-runs"
+TASK_ID="${SLURM_ARRAY_TASK_ID:-0}"
 
-docker run \
-  -v /opt/data/:/data/ \
-  -v $HOME/experiment_runs:/experiment_runs \
-  -v $HOME/submissions_algorithms/:/algorithmic-efficiency/submissions_algorithms \
-  -v $HOME/algorithmic-efficiency/docker/scripts/startup.sh:/algorithmic-efficiency/docker/scripts/startup.sh \
-  --gpus all \
-  --ipc=host \
-  $IMAGE \
-  -d $DATASET \
-  -f $FRAMEWORK \
-  -s $SUBMISSION_PATH \
-  -w $WORKLOAD \
-  -t $TUNING_SEARCH_SPACE \
-  -e $EXPERIMENT_DIR \
-  -c False \
-  -o True \
-  --rng_seed $RNG_SEED \
-  --hparam_start_index $HPARAM_START_INDEX \
-  --hparam_end_index $HPARAM_END_INDEX \
-  --num_tuning_trials $NUM_TUNING_TRIALS \
-  --tuning_ruleset $TUNING_RULESET \
-  -i true \
-  -r false \
-  --logs_bucket $LOGS_BUCKET \
-  -m $MAX_GLOBAL_STEPS
+# Parse flags
+while [[ $# -gt 0 ]]; do
+  case $1 in
+    --repo)
+      REPO="$2"
+      shift 2
+      ;;
+    --image)
+      IMAGE="$2"
+      shift 2
+      ;;
+    --config_file)
+      CONFIG_FILE="$2"
+      shift 2
+      ;;
+    --logs_bucket)
+      LOGS_BUCKET="$2"
+      shift 2
+      ;;
+    --task_id)
+      TASK_ID="$2"
+      shift 2
+      ;;
+    --framework)
+      FRAMEWORK="$2"
+      shift 2
+      ;;
+    --dataset)
+      DATASET="$2"
+      shift 2
+      ;;
+    --submission_path)
+      SUBMISSION_PATH="$2"
+      shift 2
+      ;;
+    --tuning_search_space)
+      TUNING_SEARCH_SPACE="$2"
+      shift 2
+      ;;
+    --experiment_dir)
+      EXPERIMENT_DIR="$2"
+      shift 2
+      ;;
+    --rng_seed)
+      RNG_SEED="$2"
+      shift 2
+      ;;
+    --workload)
+      WORKLOAD="$2"
+      shift 2
+      ;;
+    --hparam_start_index)
+      HPARAM_START_INDEX="$2"
+      shift 2
+      ;;
+    --hparam_end_index)
+      HPARAM_END_INDEX="$2"
+      shift 2
+      ;;
+    --num_tuning_trials)
+      NUM_TUNING_TRIALS="$2"
+      shift 2
+      ;;
+    --tuning_ruleset)
+      TUNING_RULESET="$2"
+      shift 2
+      ;;
+    --max_global_steps)
+      MAX_GLOBAL_STEPS="$2"
+      shift 2
+      ;;
+    *)
+      echo "Unknown option $1"
+      exit 1
+      ;;
+  esac
+done
+
+# Pull docker image
+yes | gcloud auth configure-docker "$REPO"
+docker pull "$IMAGE"
+
+# Set variables from config file if not already set by flags
+FRAMEWORK="${FRAMEWORK:-$(read_json_value "$CONFIG_FILE" "$TASK_ID" "framework")}"
+DATASET="${DATASET:-$(read_json_value "$CONFIG_FILE" "$TASK_ID" "dataset")}"
+SUBMISSION_PATH="${SUBMISSION_PATH:-$(read_json_value "$CONFIG_FILE" "$TASK_ID" "submission_path")}"
+TUNING_SEARCH_SPACE="${TUNING_SEARCH_SPACE:-$(read_json_value "$CONFIG_FILE" "$TASK_ID" "tuning_search_space")}"
+EXPERIMENT_DIR="${EXPERIMENT_DIR:-$(read_json_value "$CONFIG_FILE" "$TASK_ID" "experiment_dir")}"
+RNG_SEED="${RNG_SEED:-$(read_json_value "$CONFIG_FILE" "$TASK_ID" "rng_seed")}"
+WORKLOAD="${WORKLOAD:-$(read_json_value "$CONFIG_FILE" "$TASK_ID" "workload")}"
+HPARAM_START_INDEX="${HPARAM_START_INDEX:-$(read_json_value "$CONFIG_FILE" "$TASK_ID" "hparam_start_index")}"
+HPARAM_END_INDEX="${HPARAM_END_INDEX:-$(read_json_value "$CONFIG_FILE" "$TASK_ID" "hparam_end_index")}"
+NUM_TUNING_TRIALS="${NUM_TUNING_TRIALS:-$(read_json_value "$CONFIG_FILE" "$TASK_ID" "num_tuning_trials")}"
+TUNING_RULESET="${TUNING_RULESET:-$(read_json_value "$CONFIG_FILE" "$TASK_ID" "tuning_ruleset")}"
+
+DOCKER_CMD=(
+  docker run
+  -v /opt/data/:/data/
+  -v "$HOME/experiment_runs:/experiment_runs"
+  -v "$HOME/submissions_algorithms/:/algorithmic-efficiency/submissions_algorithms"
+  -v "$HOME/algorithmic-efficiency/docker/scripts/startup.sh:/algorithmic-efficiency/docker/scripts/startup.sh"
+  --gpus all
+  --ipc=host
+  "$IMAGE"
+  -d "$DATASET"
+  -f "$FRAMEWORK"
+  -s "$SUBMISSION_PATH"
+  -w "$WORKLOAD"
+  -t "$TUNING_SEARCH_SPACE"
+  -e "$EXPERIMENT_DIR"
+  -c False
+  -o True
+  --rng_seed "$RNG_SEED"
+  --hparam_start_index "$HPARAM_START_INDEX"
+  --hparam_end_index "$HPARAM_END_INDEX"
+  --num_tuning_trials "$NUM_TUNING_TRIALS"
+  --tuning_ruleset "$TUNING_RULESET"
+  -i true
+  -r false
+  --logs_bucket "$LOGS_BUCKET"
+)
+
+if [ -n "$MAX_GLOBAL_STEPS" ]; then
+  DOCKER_CMD+=(-m "$MAX_GLOBAL_STEPS")
+fi
 
+"${DOCKER_CMD[@]}"
diff --git a/scoring/utils/slurm/run_submission.sh b/scoring/utils/slurm/run_submission.sh