dcos(slurm): update slurm script, for reader to easy check how is the trainining setup.

Kin-Zhang · Kin-Zhang · commit 0ab8559f8fd8 · 2025-08-26T00:15:23.000+02:00
diff --git a/assets/slurm/0_process.sh b/assets/slurm/0_process.sh
@@ -7,29 +7,31 @@
 #SBATCH -t 1-00:00:00
 #SBATCH --mail-type=END,FAIL
 #SBATCH --mail-user=qingwen@kth.se
-#SBATCH --output /proj/berzelius-2023-154/users/x_qinzh/workspace/SeFlow/logs/slurm/%J_data.out
-#SBATCH --error  /proj/berzelius-2023-154/users/x_qinzh/workspace/SeFlow/logs/slurm/%J_data.err
+#SBATCH --output /proj/berzelius-2023-154/users/x_qinzh/workspace/OpenSceneFlow/logs/slurm/%J_data.out
+#SBATCH --error  /proj/berzelius-2023-154/users/x_qinzh/workspace/OpenSceneFlow/logs/slurm/%J_data.err
 
-cd /proj/berzelius-2023-154/users/x_qinzh/workspace/SeFlow
+PYTHON=/proj/berzelius-2023-154/users/x_qinzh/mambaforge/envs/sftool/bin/python
 export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/proj/berzelius-2023-154/users/x_qinzh/mambaforge/lib
+cd /proj/berzelius-2023-364/users/x_qinzh/workspace/OpenSceneFlow
 # export HYDRA_FULL_ERROR=1
 
-/proj/berzelius-2023-154/users/x_qinzh/mambaforge/envs/dataprocess/bin/python dataprocess/extract_av2.py --nproc 64 \
+
+$PYTHON dataprocess/extract_av2.py --nproc 64 \
     --av2_type sensor \
     --data_mode train \
     --argo_dir /proj/berzelius-2023-154/users/x_qinzh/av2 \
-    --output_dir /proj/berzelius-2023-364/users/x_qinzh/data/av2/preprocess_v2
+    --output_dir /proj/berzelius-2023-364/users/x_qinzh/data/av2/h5py
 
-/proj/berzelius-2023-154/users/x_qinzh/mambaforge/envs/dataprocess/bin/python dataprocess/extract_av2.py --nproc 64 \
+$PYTHON dataprocess/extract_av2.py --nproc 64 \
     --av2_type sensor \
     --data_mode val \
     --argo_dir /proj/berzelius-2023-154/users/x_qinzh/av2 \
-    --output_dir /proj/berzelius-2023-364/users/x_qinzh/data/av2/preprocess_v2 \
+    --output_dir /proj/berzelius-2023-364/users/x_qinzh/data/av2/h5py \
     --mask_dir /proj/berzelius-2023-154/users/x_qinzh/av2/3d_scene_flow
 
-/proj/berzelius-2023-154/users/x_qinzh/mambaforge/envs/dataprocess/bin/python dataprocess/extract_av2.py --nproc 64 \
+$PYTHON dataprocess/extract_av2.py --nproc 64 \
     --av2_type sensor \
     --data_mode test \
     --argo_dir /proj/berzelius-2023-154/users/x_qinzh/av2 \
-    --output_dir /proj/berzelius-2023-364/users/x_qinzh/data/av2/preprocess_v2 \
+    --output_dir /proj/berzelius-2023-364/users/x_qinzh/data/av2/h5py \
     --mask_dir /proj/berzelius-2023-154/users/x_qinzh/av2/3d_scene_flow
diff --git a/assets/slurm/1_train.sh b/assets/slurm/1_train.sh
@@ -7,9 +7,13 @@
 #SBATCH --output /proj/berzelius-2023-154/users/x_qinzh/seflow/logs/slurm/%J_seflow.out
 #SBATCH --error  /proj/berzelius-2023-154/users/x_qinzh/seflow/logs/slurm/%J_seflow.err
 
-cd /proj/berzelius-2023-154/users/x_qinzh/seflow
+PYTHON=/proj/berzelius-2023-154/users/x_qinzh/mambaforge/envs/opensf/bin/python
+export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/proj/berzelius-2023-154/users/x_qinzh/mambaforge/lib
+cd /proj/berzelius-2023-364/users/x_qinzh/workspace/OpenSceneFlow
 
-SOURCE="/proj/berzelius-2023-154/users/x_qinzh/data/av2/preprocess_v2"
+
+# ===> to transfer data into local node disk, it can be ignored. <===
+SOURCE="/proj/berzelius-2023-364/users/x_qinzh/data/av2/autolabel"
 DEST="/scratch/local/av2"
 SUBDIRS=("sensor/train" "sensor/val")
 
@@ -24,14 +28,7 @@ elapsed=$((end_time - start_time))
 echo "Copy ${SOURCE} to ${DEST} Total time: ${elapsed} seconds"
 echo "Start training..."
 
-# ====> paper model = seflow_official
-# /proj/berzelius-2023-154/users/x_qinzh/mambaforge/envs/seflow/bin/python train.py \
-#     slurm_id=$SLURM_JOB_ID wandb_mode=online train_data=/scratch/local/av2/sensor/train val_data=/scratch/local/av2/sensor/val \
-#     num_workers=16 model=deflow lr=2e-6 epochs=50 batch_size=20 "model.target.num_iters=2" "model.val_monitor=val/Dynamic/Mean" \
-#     loss_fn=seflowLoss "add_seloss={chamfer_dis: 1.0, static_flow_loss: 1.0, dynamic_chamfer_dis: 1.0, cluster_based_pc0pc1: 1.0}"
-
 # ====> leaderboard model = seflow_best
-/proj/berzelius-2023-154/users/x_qinzh/mambaforge/envs/seflow/bin/python train.py \
-    slurm_id=$SLURM_JOB_ID wandb_mode=online train_data=/scratch/local/av2/sensor/train val_data=/scratch/local/av2/sensor/val \
+$PYTHON train.py slurm_id=$SLURM_JOB_ID wandb_mode=online train_data=/scratch/local/av2/sensor/train val_data=/scratch/local/av2/sensor/val \
     num_workers=16 model=deflow lr=2e-4 epochs=9 batch_size=16 "model.target.num_iters=2" "model.val_monitor=val/Dynamic/Mean" \
     loss_fn=seflowLoss "add_seloss={chamfer_dis: 1.0, static_flow_loss: 1.0, dynamic_chamfer_dis: 1.0, cluster_based_pc0pc1: 1.0}"
diff --git a/assets/slurm/2_eval.sh b/assets/slurm/2_eval.sh
@@ -5,29 +5,16 @@
 #SBATCH --output /proj/berzelius-2023-154/users/x_qinzh/seflow/logs/slurm/%J_eval.out
 #SBATCH --error  /proj/berzelius-2023-154/users/x_qinzh/seflow/logs/slurm/%J_eval.err
 
-cd /proj/berzelius-2023-154/users/x_qinzh/seflow
 
-SOURCE="/proj/berzelius-2023-154/users/x_qinzh/av2/preprocess_v2"
-DEST="/scratch/local/av2"
-SUBDIRS=("sensor/val")
+PYTHON=/proj/berzelius-2023-154/users/x_qinzh/mambaforge/envs/opensf/bin/python
+export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/proj/berzelius-2023-154/users/x_qinzh/mambaforge/lib
+cd /proj/berzelius-2023-364/users/x_qinzh/workspace/OpenSceneFlow
 
-start_time=$(date +%s)
-for dir in "${SUBDIRS[@]}"; do
-    mkdir -p "${DEST}/${dir}"
-    find "${SOURCE}/${dir}" -type f -print0 | xargs -0 -n1 -P16 cp -t "${DEST}/${dir}" &
-done
-wait
-end_time=$(date +%s)
-elapsed=$((end_time - start_time))
-echo "Copy ${SOURCE} to ${DEST} Total time: ${elapsed} seconds"
-echo "Start training..."
 
 # ====> leaderboard model
-# /proj/berzelius-2023-154/users/x_qinzh/mambaforge/envs/seflow/bin/python eval.py \
-#     wandb_mode=online dataset_path=/scratch/local/av2/sensor \
+# $PYTHON eval.py wandb_mode=online dataset_path=/proj/berzelius-2023-364/users/x_qinzh/data/av2/autolabel av2_mode=test \
 #     checkpoint=/proj/berzelius-2023-154/users/x_qinzh/seflow/logs/wandb/seflow-10086990/checkpoints/epoch_19_seflow.ckpt \
-#     av2_mode=test save_res=True
+#     save_res=True
 
-/proj/berzelius-2023-154/users/x_qinzh/mambaforge/envs/seflow/bin/python eval.py \
-    wandb_mode=online dataset_path=/scratch/local/av2/sensor av2_mode=val \
+$PYTHON eval.py wandb_mode=online dataset_path=/proj/berzelius-2023-364/users/x_qinzh/data/av2/autolabel av2_mode=val \
     checkpoint=/proj/berzelius-2023-154/users/x_qinzh/seflow/logs/wandb/seflow-10086990/checkpoints/epoch_19_seflow.ckpt