Add training configuration caption to convergence chart

delock · delock · commit 8d9433e2dda7 · 2026-04-08T23:56:54.000-07:00
Signed-off-by: Ma, Guokai &lt;guokai.ma@gmail.com&gt;
diff --git a/blogs/muon-optimizer/README.md b/blogs/muon-optimizer/README.md
@@ -23,6 +23,7 @@ cd deepspeed_finetune_demo
 We compared Muon optimizer with AdamW optimizer by finetuning a Qwen2.5-3B model on the tatsu-lab/alpaca dataset with the same learning rate.
 
 ![Muon vs AdamW convergence on Qwen2.5-3B](images/adamw_vs_muon_3b.png)
+*Training configuration: Qwen2.5-3B, tatsu-lab/alpaca dataset, ZeRO Stage 2, bf16, batch_size=8, lr=2e-5, 1 epoch, 8 GPUs.*
 
 In one epoch, Muon optimizer achieved approximately 19% lower loss compared to AdamW optimizer. Moreover, Muon optimizer did not show overfitting while AdamW optimizer exhibited overfitting behavior.